1、“同时”是一个信息概念,而不是一个时间概念。一、一、动态博弈与静态博弈的区别动态博弈与静态博弈的区别 静态博弈:静态博弈:所有局中人所有局中人同时同时行动;或行动虽有先后,但没行动;或行动虽有先后,但没有人在自己行动之前观测到别人的行动。有人在自己行动之前观测到别人的行动。动态博弈:动态博弈:局中人分先后行动;后行动者的决策依赖于先局中人分先后行动;后行动者的决策依赖于先行动者,先行动者的决策要考虑对后行动者的影响;行动者,先行动者的决策要考虑对后行动者的影响;动态博弈例子:动态博弈例子:下棋;下棋;商业大战,各商家轮流出新招;商业大战,各商家轮流出新招;商业谈判、讨价还价;商业谈判、讨价还价
2、;1 动态博弈及其表示动态博弈及其表示第三章第三章 完全信息动态博弈完全信息动态博弈1ppt课件二、二、静态博弈的静态博弈的Nash均衡的缺陷均衡的缺陷(1)可能存在多个解,如何选择?)可能存在多个解,如何选择?(2)Nash均衡,不考虑自己的选择如何影响对手的均衡,不考虑自己的选择如何影响对手的策略。但事实上,有些问题局中人行动有先后:一策略。但事实上,有些问题局中人行动有先后:一人行动在先,另一人在后,则后者会根据前者的行人行动在先,另一人在后,则后者会根据前者的行动调整自己的策略,而前者自然会理性的预期到这动调整自己的策略,而前者自然会理性的预期到这一点,故不可能不考虑自己的选择如何影响
3、对手的一点,故不可能不考虑自己的选择如何影响对手的策略。策略。(3)Nash均衡允许了不可置信威胁的存在。均衡允许了不可置信威胁的存在。例如,姑娘、小伙子谈对象,女方父亲不同意的例如,姑娘、小伙子谈对象,女方父亲不同意的“断绝父女关系断绝父女关系”的威胁。的威胁。2ppt课件例:市场进入阻挠例:市场进入阻挠一个垄断企业已在市场上(称为“在位者”),另一个企业虎视眈眈想进入(称为“进入者”)。若按静态博弈分析方法:1,101,10不进入不进入-2,35,5进入进入进进入入者者斗争斗争默许默许在位者在位者思考:思考:若进入者真的进入,在位者的最优行动是若进入者真的进入,在位者的最优行动是“默许默许
4、”。所以所以“斗争斗争”是一种不可置信的威胁(即使在位企业摆出是一种不可置信的威胁(即使在位企业摆出一副一副“你进入我就斗争你进入我就斗争”的架势,进入企业不应被吓到)。的架势,进入企业不应被吓到)。而静态博弈承认这种不可置信的威胁,使(不进入,斗争)而静态博弈承认这种不可置信的威胁,使(不进入,斗争)成为一个成为一个Nash均衡。均衡。动态博弈解决方案:剔除不可置信的威胁策略动态博弈解决方案:剔除不可置信的威胁策略3ppt课件扩展阅读:扩展阅读:不可置信的威胁策略不可置信的威胁策略引出信息经济学重要的概念引出信息经济学重要的概念承诺行动承诺行动(Commitment)。承诺行动使承诺行动使
5、不可置信威胁不可置信威胁可信威胁,否则,当事人将为可信威胁,否则,当事人将为自己的自己的“失信失信”付出成本。付出成本。例如,该例中,在位者与某第三者打赌,如果进入者进入例如,该例中,在位者与某第三者打赌,如果进入者进入后他不斗争,他就付给后者后他不斗争,他就付给后者3,这时,斗争成为可置信的,这时,斗争成为可置信的威胁。因为如果进入后,选择默许,收益更小。注意:有威胁。因为如果进入后,选择默许,收益更小。注意:有了这个赌,进入者就不敢进入了,实际上,在位者无需支了这个赌,进入者就不敢进入了,实际上,在位者无需支付赌注。付赌注。承诺行动在军事博弈中有广泛应用。例如,承诺行动在军事博弈中有广泛应
6、用。例如,、进进入入者者在位者在位者默许默许斗争斗争进入进入不进入不进入5,5-2,31,101,104ppt课件 例例 房地产开发博弈房地产开发博弈有两个房地产开发商(分别为局中人有两个房地产开发商(分别为局中人1,记记为为A和局中人和局中人2,记为记为B)在某地开发房地)在某地开发房地产产,(1)开发商开发商1先行动先行动,选择开发或不开选择开发或不开发发;(2)开发商开发商2在在 观测到观测到1的决策和市场的决策和市场的需求后的需求后,再决定开发再决定开发 或不开发。或不开发。5ppt课件三、三、动态博弈的相关概念动态博弈的相关概念(1)行动行动(actions):局中人在博弈的某个时间
7、):局中人在博弈的某个时间点的决策变量。记为点的决策变量。记为ai。Ai=ai表示局中人表示局中人 i的行的行动集合。动集合。n个局中人的行动的有序组个局中人的行动的有序组a=ai,an称为称为行动行动组合组合。与行动相关的一个重要问题是与行动相关的一个重要问题是行动顺序行动顺序。同样的同样的局中人,同样的行动集合,行动顺序不同,博弈的局中人,同样的行动集合,行动顺序不同,博弈的结果就不同。结果就不同。6ppt课件三、三、动态博弈的相关概念动态博弈的相关概念(2)信息信息(information):局中人有关博弈的知):局中人有关博弈的知识,特别是有关识,特别是有关“自然自然”的选择、其他局中
8、人的特的选择、其他局中人的特征和行动的知识。征和行动的知识。信息集信息集:一个局中人无法准确知道的变量的全体。:一个局中人无法准确知道的变量的全体。例如例如,已知某市场自然状态有,已知某市场自然状态有“大大”和和“小小”两两种可能。如果种可能。如果A不知道市场需求是大还是小,而不知道市场需求是大还是小,而B知知道;那么,道;那么,A的信息集为的信息集为大,小大,小,而,而B的信息集为的信息集为大大或或小小。又如又如,上例中,如果进入者先行动,而在位者在,上例中,如果进入者先行动,而在位者在行动前能准确知道前者的行动,那么在位者的信息行动前能准确知道前者的行动,那么在位者的信息集为集为 进入进入
9、或或不进入不进入。反之,若在位者先行动,反之,若在位者先行动,则在位者的信息集为则在位者的信息集为进入,不进入进入,不进入。7ppt课件三、三、动态博弈的相关概念动态博弈的相关概念(3)完美信息完美信息(Perfect information):一个局中人在行动):一个局中人在行动时,对之前博弈进程有准确了解,即每一个信息集只包含时,对之前博弈进程有准确了解,即每一个信息集只包含一个值,则称该局中人具有完美信息。一个值,则称该局中人具有完美信息。如果动态博弈的所有局中人都有完美信息,则称为如果动态博弈的所有局中人都有完美信息,则称为完美信完美信息的动态博弈息的动态博弈。如果动态博弈中,存在部分
10、局中人具有不完美信息,称为如果动态博弈中,存在部分局中人具有不完美信息,称为不完美信息的动态博弈不完美信息的动态博弈。注:若所有局中人都只有一次性行为选择,且都具有注:若所有局中人都只有一次性行为选择,且都具有不完不完 美信息,则可看成静态博弈。美信息,则可看成静态博弈。完全信息完全信息(Complete information):各局中人都完全):各局中人都完全了解所有局中人各种情况下得益,称为了解所有局中人各种情况下得益,称为完全信息博弈完全信息博弈。否则,至少部分局中人不完全了解其他局中人得益情况,否则,至少部分局中人不完全了解其他局中人得益情况,称为称为不完全信息博弈不完全信息博弈(非
11、对称信息)。(非对称信息)。8ppt课件三、三、动态博弈的相关概念动态博弈的相关概念(4)策略策略(strategy):局中人在给定信息集情况下的行动:局中人在给定信息集情况下的行动规则,它规定局中人在何时选择合行动。规则,它规定局中人在何时选择合行动。房地产开发例中,如果房地产开发例中,如果A先行动,先行动,B后行动,则后行动,则A有两个策略有两个策略 SA=开发,不开发开发,不开发,B有四个策略有四个策略 SB=(开发,开发)(开发,开发),(开发,不开发)(开发,不开发),(不开发,(不开发,开发),开发),(不开发,不开发)(不开发,不开发),其中每个策略(其中每个策略(x,y)中的中
12、的x表示表示A选择选择“开发开发”时,时,B的行动;的行动;y表示表示A选择选择“不开发不开发”时,时,B的行动。的行动。注:注:静态博弈中,策略和行动是相同的。静态博弈中,策略和行动是相同的。动态博弈中,二者不同:策略是行动的规则,而非行动动态博弈中,二者不同:策略是行动的规则,而非行动本身。例如,房地产开发中,本身。例如,房地产开发中,“开发开发”和和“不开发不开发”是两种行是两种行动,而策略要说明什么时候采取什么行动。再如动,而策略要说明什么时候采取什么行动。再如“人不犯我我人不犯我我不犯人,人若犯我我必犯人不犯人,人若犯我我必犯人”是一种策略,而行动只有是一种策略,而行动只有“犯犯”和
13、和“不犯不犯”。9ppt课件四、四、动态博弈的扩展式表达动态博弈的扩展式表达 动态博弈的扩展式表达的动态博弈的扩展式表达的要素要素:局中人的局中人的集合集合,记为记为 i=1,2,n;行动的次序行动的次序,即谁在什么时候行动即谁在什么时候行动;局中人的行动空间局中人的行动空间,即轮到某局中人行动时即轮到某局中人行动时,他从该时刻他从该时刻的纯策略空间中选取什么策略的纯策略空间中选取什么策略;当局中人作出他们的行动决策时当局中人作出他们的行动决策时,他所观测到他所观测到 或他所了或他所了解到的信息解到的信息,即他在此时获得的信息即他在此时获得的信息 集合集合;局中人的得益局中人的得益(支付或效用
14、支付或效用),它们是已知行动的函数它们是已知行动的函数;外生事件(即自然的选择)的概率分布。外生事件(即自然的选择)的概率分布。(完全信息(完全信息条件下,无需该要素。)条件下,无需该要素。)回顾:静态博弈的回顾:静态博弈的“策略式策略式”表达,包括三个要素:表达,包括三个要素:局中人、策略集、赢得函数。局中人、策略集、赢得函数。动态博弈在此基础上,动态博弈在此基础上,需扩充行动时间点、历史信息等要素。需扩充行动时间点、历史信息等要素。10ppt课件 动态博弈的扩展式表达动态博弈的扩展式表达博弈树博弈树博弈树的博弈树的优点优点:可描述多人对策问题(赢得矩阵只能表示二人对策)可描述多人对策问题(
15、赢得矩阵只能表示二人对策);便于描述行动的次序便于描述行动的次序;博弈树的博弈树的缺点缺点:只能描述有限策略集对策。只能描述有限策略集对策。例如:市场进入阻挠问题例如:市场进入阻挠问题ABB 进入进入 不进入不进入 默许默许 斗争斗争(5,5)(-2,3)默许默许斗争斗争进入进入不进入不进入5,5-2,31,101,10(1,10)11ppt课件 例例 房地产开发博弈房地产开发博弈 有两个房地产开发商有两个房地产开发商(分别为分别为A和和B)在某地开发房地在某地开发房地产产,(1)开发商开发商A先行动先行动,选择开发或不开发选择开发或不开发;(2)开发商开发商B在在 观测到观测到A的决策后的决
16、策后,再决定开发或不开发。博弈树如再决定开发或不开发。博弈树如下图。下图。ABB 开开 不不 开开 不不 开开 不不(-3,-3)(1,0)(0,1)(0,0)注:所有注:所有n个局中人的一个纯策略组合决定了博弈树上的一个局中人的一个纯策略组合决定了博弈树上的一条路径。但每条路径可由不同的策略组合决定。条路径。但每条路径可由不同的策略组合决定。例如,例如,(开发(开发,(不开发不开发,开发开发))决定了)决定了 A -开发开发 -B -不开发不开发 -(1,0)该路径还可由(开发该路径还可由(开发,(不开发不开发,不开发不开发))决定。)决定。事实上,该问题共有事实上,该问题共有4条路径,条路
17、径,8种策略组合。种策略组合。12ppt课件 对于动态博弈,对于动态博弈,Nash均衡可能并不是一个合理的预测。均衡可能并不是一个合理的预测。如房地产博弈如房地产博弈:ABB 开开 不不 开开 不不 开开 不不(-3,-3)(1,0)(0,1)(0,0)的的 策策 略略 式式 表表 示示 为为:(开开,开开)(开开,不不)(不不,开开)(不不,不不)开开 -3,-3 -3,-3 1,0 1,0 不不 0,1 0,0 0,1 0,0 局中人局中人B局中人局中人A2 子博弈精炼纳什均衡子博弈精炼纳什均衡13ppt课件 由由 划线法法划线法法 可可 得得 三三 个个 纯纯 策策 略略Nash 均均
18、衡衡:ABB 开开 不不 开开 不不 开开 不不(-3,-3)(1,0)(0,1)(0,0)(开开,开开)(开开,不不)(不不,开开)(不不,不不)开开 -3,-3 -3,-3 1,0 1,0 不不 0,1 0,0 0,1 0,0 参参 与与 人人B 参参 与与 人人A但(不开发但(不开发,(开发,开发开发,开发))是不合理的)是不合理的,这个威胁是不这个威胁是不可置可置 信的信的;(开发(开发,(不开发不开发,不开发不开发))也不合理)也不合理,因为因为若若A不开发不开发,B显然应该开发显然应该开发;只有(开发只有(开发,(不开发不开发,开发开发))是一)是一 个合理的均衡。个合理的均衡。1
19、4ppt课件有子博弈:和子博弈:ABB开开不不开开 不不 开开 不不XXBx开开 不不BX开开 不不例 房 地 产 博 弈一、子一、子 博博 弈的定弈的定 义义 给定历史,从每一个行动选择开始至博弈结束又构成给定历史,从每一个行动选择开始至博弈结束又构成一个博弈,称为一个博弈,称为子子 博博 弈。弈。15ppt课件二、二、子博弈精炼纳什均衡子博弈精炼纳什均衡 定义定义 扩展式博弈的策略组合扩展式博弈的策略组合s*=(s1*,si*,sn*)是是一个一个 子博弈精炼子博弈精炼Nash均衡均衡,如果满足如果满足:(1)它它 是原博弈是原博弈的的Nash均衡均衡;(2)它在每一个子博弈上它在每一个子
20、博弈上 给出给出Nash均衡。均衡。16ppt课件房地产开发中,房地产开发中,子博弈子博弈I和和属于单人博弈,子博弈属于单人博弈,子博弈I中,中,B的的最优选择是不开发,子博弈最优选择是不开发,子博弈中,中,B的最优选择是开发,因此:的最优选择是开发,因此:(1)(不开发)(不开发,(开发,开发开发,开发))在子博弈)在子博弈I上不构成上不构成Nash均均衡;衡;(2)(开发)(开发,(不开发不开发,不开发不开发))在子博弈)在子博弈上不构成上不构成Nash均均衡;衡;(3)(开发)(开发,(不开发不开发,开发开发))在所有子博弈上都构成)在所有子博弈上都构成Nash均均衡,是衡,是子博弈精炼
21、子博弈精炼Nash均衡。均衡。ABB 开开 不不 开开 不不 开开 不不(-3,-3)(1,0)(0,1)(0,0)I17ppt课件例例 (Selten)12(2,2)(3,1)(0,0)U DL RL RU 2,2 2,2D 3,1 0,0 该博弈有两个该博弈有两个Nash 均衡:均衡:(U,R)和()和(D,L)但但Nash均衡均衡(U,R)从动态博弈的观点来看是不合从动态博弈的观点来看是不合理的理的,因为它依赖于局中人因为它依赖于局中人2取取R这一这一“空头威空头威胁胁”。18ppt课件三、三、逆向归纳法求解子博弈精炼逆向归纳法求解子博弈精炼NashNash均衡均衡从动态博弈的最后一个阶
22、段局中人的行为开始分析从动态博弈的最后一个阶段局中人的行为开始分析,逐步倒推回前一个阶段相应局中人的行为选择,一,逐步倒推回前一个阶段相应局中人的行为选择,一直到第一个阶段。直到第一个阶段。逆推归纳到某个阶段,可以用不包括该阶段与其后逆推归纳到某个阶段,可以用不包括该阶段与其后所有阶段博弈的等价博弈来简化原博弈。所有阶段博弈的等价博弈来简化原博弈。逆向归纳法是动态博弈分析最重要、基本的方法。逆向归纳法是动态博弈分析最重要、基本的方法。例:用逆向归纳法,求解房地产开发问题,可得例:用逆向归纳法,求解房地产开发问题,可得(开发(开发,(不不开发开发,开发开发))子博弈精炼子博弈精炼Nash均衡。均
23、衡。19ppt课件例用逆向归纳法求下列博弈的子博弈精炼例用逆向归纳法求下列博弈的子博弈精炼Nash 均衡:均衡:1221L RA B C DE F(2,0)(1,1)(0,1/2)(3,1)(2,2)h1h1h2h2解为(R,E),D20ppt课件经经 典典 的动的动 态态 博博 弈弈 模模 型型 Stackelberg 寡寡 头头 竞竞 争争 模模 型型该模型可以看作该模型可以看作 是子博弈精炼是子博弈精炼Nash均衡的最早均衡的最早版本。版本。其中企业其中企业1(称为领头企业称为领头企业)先选择产先选择产 量量q1Q1=0,),企业企业2(称为尾随企业称为尾随企业)观测观测 到到q1后选后
24、选择自己的产量择自己的产量q2Q2=0,)。企业企业1的策略的策略:选择产量:选择产量q1;企业企业2的策略的策略:从:从Q1到到Q2一个函数一个函数:S2:Q1Q2;均衡结果均衡结果:产出向量:产出向量(q1,s2(q1);支付函数支付函数:ui(q1,s2(q1)。由于产量是一个连续变量由于产量是一个连续变量,故不能作出博弈树。故不能作出博弈树。21ppt课件假定逆需求函数为假定逆需求函数为P(Q)=aq1q2,两个企业有相两个企业有相 同的不同的不变单位成本变单位成本c0,则利润函数为则利润函数为:i(q1,q2)=qi(Pc),i=1,2。可用逆向可用逆向 归纳法求解这个博弈的子博弈精
25、炼归纳法求解这个博弈的子博弈精炼Nash均衡。均衡。假定假定q1已经选定已经选定,企业企业2的问题是的问题是:max 2(q1,q2)=q2(aq1q2c)最优化一阶条件为最优化一阶条件为:s2(q1)=0.5(aq1c)因为企业因为企业1预测到企业预测到企业2将根据将根据s2(q1)选择选择q2,企企 业业1在第一在第一阶段的问题是阶段的问题是:Max 1(q1,s2(q1)=q1(aq1s2(q1)c)解一阶条件得解一阶条件得:q1*=0.5(ac)将将q1*代入代入s2(q1)得得:q2*=s2(q1*)=0.25(ac).(企业企业1有先有先 动动 优优 势势)22ppt课件与古诺模型
26、的结果对比:与古诺模型的结果对比:古诺模型古诺模型:q1*=q2*=1/3(ac);1*=2*=1/9(ac)2;总利润:总利润:*=2/9(ac)2Stackelberg模型:模型:q1*=0.5(ac),1*=1/8(ac)2;q2*=0.25(ac),2*=1/16(ac)2;总利润:总利润:*=3/16(ac)2合作情形:合作情形:总产量总产量Q*=0.5(ac);总利润:总利润:*=1/4(ac)2说明说明:(1)Stackelberg模型总产量大于古诺模型,价格低于模型总产量大于古诺模型,价格低于古诺模型,总利润小于古诺模型(对消费者有利)。合作情形古诺模型,总利润小于古诺模型(对
27、消费者有利)。合作情形总利润最大。(对消费者不利。)总利润最大。(对消费者不利。)(2)企业)企业1有先动优势,企业有先动优势,企业1利润利润古诺利润古诺利润企业企业2利润。利润。这说明,在信息不对称的博弈中,信息较多的局中人不一定能这说明,在信息不对称的博弈中,信息较多的局中人不一定能得到较多的利益。得到较多的利益。23ppt课件练习:练习:两个寡头企业进行价格竞争博弈,企业两个寡头企业进行价格竞争博弈,企业1的的利润函数是利润函数是1=-(paq+c)2+q,企业企业2的利润函数的利润函数是是2=-(qb)2+p;其中其中p是企业是企业1的价格,的价格,q是企业是企业2的价格。求:的价格。
28、求:(1)两个企业同时决策的)两个企业同时决策的Nash均衡;均衡;(2)企业)企业1先决策的子博弈精练先决策的子博弈精练Nash均衡;均衡;(3)企业)企业2先决策的子博弈精练先决策的子博弈精练Nash均衡;均衡;(4)是否存在参数)是否存在参数a、b、c的范围,使两个企业都的范围,使两个企业都希望自己先决策?希望自己先决策?24ppt课件一、一、重复博弈的相关基本概念重复博弈的相关基本概念(1)定义定义:相同结构的博弈:相同结构的博弈G重复多次,且在每次重复重复多次,且在每次重复G之前,所有局中人都能观测到以前的结果(即历史),之前,所有局中人都能观测到以前的结果(即历史),称为称为重复博
29、弈。重复博弈。其中的每次博弈称为其中的每次博弈称为“阶段博弈阶段博弈”。在每个阶段博弈,可以是静态博弈,也可是动态博在每个阶段博弈,可以是静态博弈,也可是动态博弈。弈。(2)为什么要研究重复博弈为什么要研究重复博弈 人们之间的长期关系与短期关系之间有重要人们之间的长期关系与短期关系之间有重要 的性质的性质差别差别,人们在对待与其有长期关系的人们在对待与其有长期关系的 人与对待那些以后人与对待那些以后不再交往的人可能会有非不再交往的人可能会有非 常不同的行为。常不同的行为。重复博弈中,局中人可能会为了长远利益,而牺牲重复博弈中,局中人可能会为了长远利益,而牺牲眼前利益。眼前利益。3 重复博弈(重
30、复博弈(Repeated Games)25ppt课件一、一、重复博弈的相关基本概念重复博弈的相关基本概念(3)重复博弈的分类重复博弈的分类 有限次重复博弈:有限次重复博弈:记为记为G(T),其中,其中T为重复次数,为重复次数,G称为称为G(T)博弈的原博弈博弈的原博弈 无限次重复博弈:无限次重复博弈:记为记为G()。26ppt课件一、一、重复博弈的相关基本概念重复博弈的相关基本概念(4)策略与子博弈策略与子博弈 策略策略:在每个阶段(即每次重复),针对每种情况在每个阶段(即每次重复),针对每种情况(以前阶段的结果),某局中人的行动规则。(以前阶段的结果),某局中人的行动规则。重复博弈中,局中人
31、的策略集远远大于和复杂于原重复博弈中,局中人的策略集远远大于和复杂于原博弈的策略集。博弈的策略集。子博弈子博弈:从某个阶段开始,包括此后所有阶段的重从某个阶段开始,包括此后所有阶段的重复博弈部分。复博弈部分。27ppt课件二、二、重复博弈的得益评价重复博弈的得益评价平均得益平均得益考虑收益的时间价值,设利率为考虑收益的时间价值,设利率为,则,则系数。系数。某一均衡下,设各阶段得益分别为某一均衡下,设各阶段得益分别为1,2,,则重复博,则重复博弈的总得益为弈的总得益为2111231TTtTtt 1/(1)r 为贴现为贴现 有限次重复博弈有限次重复博弈211231ttt 111TtttT 平均得益
32、:平均得益:无限次重复博弈无限次重复博弈令每阶段得益均为平均得益令每阶段得益均为平均得益,平均得益:平均得益:11(1)ttt 注:注:平均得益作为评平均得益作为评价指标,便于与阶段价指标,便于与阶段博弈的收益对比。博弈的收益对比。28ppt课件三、三、有限次重复博弈的求解有限次重复博弈的求解G(T)重复重复次数较少时,可暂不考虑贴现问题。次数较少时,可暂不考虑贴现问题。(1)零和博弈问题)零和博弈问题 由于不可能合作,因此,最优策略即为原博弈由于不可能合作,因此,最优策略即为原博弈G的均衡解重复的均衡解重复T次。如齐王赛马的重复博弈。次。如齐王赛马的重复博弈。分析思路:分析思路:在重复博弈的
33、长期关系中,有可能形成默契在重复博弈的长期关系中,有可能形成默契或合作关系,或通过报复、制裁的威胁相互约束行为。或合作关系,或通过报复、制裁的威胁相互约束行为。因此,重复博弈中,人们在考虑当前利益的同时,要兼因此,重复博弈中,人们在考虑当前利益的同时,要兼顾未来利益。顾未来利益。29ppt课件(2)非零和博弈问题)非零和博弈问题 考虑有限次重复的囚犯困境问题。设考虑有限次重复的囚犯困境问题。设T=2:坦白坦白抵赖抵赖坦白坦白抵赖抵赖-8,-80,-10-10,0-1,-1用逆向归纳法求解用逆向归纳法求解1)先考虑第二阶段。此时无后先考虑第二阶段。此时无后续阶段,因此双方均以自身利益续阶段,因此
34、双方均以自身利益最大化为决策原则,得到唯一最大化为决策原则,得到唯一Nash均衡(坦白,坦白)。均衡(坦白,坦白)。2)再考虑第一阶段。理性的双方均预测到,无论该阶段选择再考虑第一阶段。理性的双方均预测到,无论该阶段选择什么策略,均无法影响后一阶段的结果(坦白,坦白),因什么策略,均无法影响后一阶段的结果(坦白,坦白),因此,双方仍类似于一次博弈,选择(坦白,坦白)。此,双方仍类似于一次博弈,选择(坦白,坦白)。上述方法可以推广至上述方法可以推广至T=3、4、n的情形。的情形。30ppt课件 定理定理 如果阶段博弈如果阶段博弈G有唯一的有唯一的Nash均衡,那么均衡,那么对任意有限次重复博弈对
35、任意有限次重复博弈G(T)有唯一的子博弈有唯一的子博弈精炼精炼Nash均衡结果:均衡结果:G的的Nash均衡重复均衡重复T次。次。31ppt课件 例例 连锁店悖论连锁店悖论(Selten)考虑市场进入阻挠博弈考虑市场进入阻挠博弈 假定同样的市场有假定同样的市场有20个个(可以理解为在位者有可以理解为在位者有20个联锁个联锁店店),进入者每次进人一个市场进入者每次进人一个市场,博弈就成了博弈就成了20次的重复博次的重复博弈。人们也许会猜想,尽管从一个市场看,在位者的最优弈。人们也许会猜想,尽管从一个市场看,在位者的最优选择是默许,但因为有选择是默许,但因为有20个市场要保护,为了防止进入者个市场
36、要保护,为了防止进入者进入其他进入其他19个市场,应该选择斗争,但子博弈精练的结果个市场,应该选择斗争,但子博弈精练的结果进入者在每一市场选择进入,而在位者总是选择默许。进入者在每一市场选择进入,而在位者总是选择默许。默许默许斗争斗争进入进入不进入不进入5,5-2,31,101,10ABB 进入进入 不进入不进入 默许默许 斗争斗争(5,5)(-2,3)(1,10)32ppt课件四、四、无限次重复博弈的求解无限次重复博弈的求解将囚犯困境一般化:将囚犯困境一般化:B合作合作不合作不合作A合作合作R=-1,R=-1S=-10,T=0不合作不合作T=0,S=-10P=-8,P=-8其中,其中,TRP
37、S,R(T+S)/2(交替的背叛和被背叛不如合作好)(交替的背叛和被背叛不如合作好)问题问题:如何走出:如何走出“囚犯困境囚犯困境”?方法方法:引入重复博弈。常见策略有:引入重复博弈。常见策略有“冷酷战略冷酷战略”和和“针锋相对针锋相对”33ppt课件1.冷酷战略冷酷战略(也叫也叫“触发策略触发策略”)(1)开始选择抵赖(合作);开始选择抵赖(合作);(2)选择抵赖(合作)一直到有一方选择坦白(不合作)选择抵赖(合作)一直到有一方选择坦白(不合作),然后永远选择坦白(不合作)然后永远选择坦白(不合作)B合作合作不合作不合作A合作合作R=-1,R=-1S=-10,T=0不合作不合作T=0,S=-
38、10P=-8,P=-8下面证明,只要每个人有足够的耐心,该策略是精炼下面证明,只要每个人有足够的耐心,该策略是精炼Nash均衡均衡设贴现因子为设贴现因子为。对于某个局中人。对于某个局中人i:总是合作的期望收益:总是合作的期望收益:121RRRRi首先不合作的期望收益:首先不合作的期望收益:122PTPPT令令1 2可得:可得:PTRT (1)足够大,足够大,如果对方不坦白,如果对方不坦白,i 就没有积极性坦白就没有积极性坦白34ppt课件例如,囚犯困境中,例如,囚犯困境中,81)8(0)1(0 PTRT 所以,当所以,当PTRT 时,时,如果对方不坦白,如果对方不坦白,i 就没有积极性坦白就没
39、有积极性坦白合作合作不合作不合作合作合作R=-1,R=-1S=-10,T=0不合作不合作T=0,S=-10P=-8,P=-8(2)如果对方坦白,如果对方坦白,i 必须坦白必须坦白 结论:结论:如果博弈重复无穷次,且每个人有足够的耐心,任如果博弈重复无穷次,且每个人有足够的耐心,任何短期的机会主义行为的所得都是微不足道的,参与人有何短期的机会主义行为的所得都是微不足道的,参与人有积极性为自己建立一个乐于合作的声誉,同时也有积极性积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义行为。惩罚对方的机会主义行为。反映了人们对未来收益的看法反映了人们对未来收益的看法,越大越大,说明未来
40、收益越重要。说明未来收益越重要。也表示了博弈双方再次相遇的可能性也表示了博弈双方再次相遇的可能性,这种可能性越大这种可能性越大,越大。越大。也可也可代表耐心程度,代表耐心程度,=0没有耐心。没有耐心。35ppt课件冷酷策略的评价:冷酷策略的评价:缺点:缺点:参与人没有改正的机会,很冷酷;参与人没有改正的机会,很冷酷;优点:优点:冷酷的结果是双方都没有背叛对方的积极性,冷酷的结果是双方都没有背叛对方的积极性,因而是友善的。因而是友善的。36ppt课件结结果果。为为子子博博弈弈精精炼炼纳纳什什均均衡衡,使使得得现现因因子子,存存在在一一个个贴贴的的任任意意可可行行的的支支付付向向量量则则对对满满足
41、足决决定定的的支支付付向向量量,是是的的一一个个纳纳什什均均衡衡,是是博博弈弈。复复为为阶阶段段博博弈弈的的无无限限次次重重为为以以人人阶阶段段博博弈弈是是一一个个设设):,定定理理,理理(无无限限次次重重复复博博弈弈民民间间定定),(1),(),(),(,1971Folk111nniinvvvvvvevaeeeGaGGnGFriedman2.无限次重复博弈的民间定理无限次重复博弈的民间定理相关概念相关概念:可行支付向量可行支付向量:阶段博弈:阶段博弈G的纯策略支付的凸组合。的纯策略支付的凸组合。可行支付集合可行支付集合V:所有可行支付向量的集合。:所有可行支付向量的集合。该该定定理理说说明明
42、,在在无无限限次次重重复复博博弈弈中中,如如果果局局中中人人有有足足够够的的耐耐心心(即即 足足够够大大),那那么么,任任何何满满足足个个人人理理性性的的可可行行的的支支付付向向量量都都可可以以通通过过一一个个特特定定的的子子博博弈弈精精炼炼均均衡衡得得到到。有有积积极极从从而而性性合合作作。37ppt课件例如:两寡头削价竞争博弈例如:两寡头削价竞争博弈4,40,55,01,1HLHL该博弈一次性博弈均衡是都采用低价,是囚犯困境型博弈该博弈一次性博弈均衡是都采用低价,是囚犯困境型博弈Nash均衡均衡厂商2支付厂商1支付(1,4)(3,3)(1,1)(4,1)(5,0)(5,0)子博弈精炼子博弈
43、精炼均衡结果均衡结果可行支付向可行支付向量集合量集合38ppt课件练习:练习:画出囚犯困境问题的可行支付向量集和画出囚犯困境问题的可行支付向量集和子博弈精练均衡结果集。子博弈精练均衡结果集。坦白坦白抵赖抵赖坦白坦白抵赖抵赖-8,-80,-10-10,0-1,-139ppt课件例:合谋的持久性:例:合谋的持久性:价格战的发生机价格战的发生机制制考虑价格战。考虑价格战。首先介绍首先介绍伯川德(伯川德(BertrandBertrand)寡头模型寡头模型n 价格竞争寡头的博弈模型价格竞争寡头的博弈模型n 前提假设前提假设:产品有一定差别,即产品之间有很:产品有一定差别,即产品之间有很强的替代性,但又不
44、是完全替代,即价格不同时,强的替代性,但又不是完全替代,即价格不同时,价格较高的不会完全销不出去。价格较高的不会完全销不出去。40ppt课件122222122211112111),(),(PdPbaPPqqPdPbaPPqq )()(),(211111111111112111PdPbacPqcPqcqPPP )()(),(122222222222222122PdPbacPqcPqcqPPP )(21)(21*122222*2*211111*1PdcbabPPdcbabP 设两个厂商的需求函数分别为:设两个厂商的需求函数分别为:d1,d2为产品的替为产品的替代系数代系数则它们的利润函数分别为:则
45、它们的利润函数分别为:从而可得它们的反应函数分别为:从而可得它们的反应函数分别为:解出解出*2*1PP 和和41ppt课件设贴现因子为设贴现因子为。p pi i(t t)表示企业表示企业i i 在在t t期的价格,期的价格,)(),(tptpjii 表示企业价格,则其利润现值为:表示企业价格,则其利润现值为:)(),(11tptpvjiitti 令令 i:企业:企业i i 的合谋利润;的合谋利润;Bi:企业:企业i i 的的BertrandBertrand竞争利润;竞争利润;ri:企业:企业j j遵守合谋定价,遵守合谋定价,企业企业i i 违背时的利润;违背时的利润;Biiri 则有:则有:坦
46、白坦白抵赖抵赖坦白坦白抵赖抵赖-8,-80,-10-10,0-1,-1(参考(参考“囚犯困境囚犯困境”,相当于,相当于0-1-80-1-8)下面分析企业下面分析企业i i 何时背离,何时合谋?何时背离,何时合谋?42ppt课件 考虑企业考虑企业i在在 时期背离,企业时期背离,企业j 随之进行随之进行Bertrand竞争以竞争以惩罚惩罚i,于是企业,于是企业i的最佳反应也是进行的最佳反应也是进行Bertrand竞争。竞争。则其则其利润现值为:利润现值为:t 11BiriBittttririv企业企业i i一直合谋的利润现值为:一直合谋的利润现值为:10iittiv时,企业时,企业i i 不值得背离。不值得背离。当当riivv Biriiri结论:结论:当当 时冷酷战略促使合谋得以维持。时冷酷战略促使合谋得以维持。43ppt课件