1、-1第八章第八章 信号博弈信号博弈v 由于不完全信息动态博弈中,前面阶由于不完全信息动态博弈中,前面阶段博弈方的行为常常具有反映、传递信段博弈方的行为常常具有反映、传递信息的作用,因此信号传递是不完全信息息的作用,因此信号传递是不完全信息动态博弈研究的最主要内容之一。动态博弈研究的最主要内容之一。-2v研究的内容包括信息在博弈方之间传递的可研究的内容包括信息在博弈方之间传递的可能性和条件,信息传递的程度,或者如何设能性和条件,信息传递的程度,或者如何设计特定的机制获得更多信息计特定的机制获得更多信息(相当于一种机制相当于一种机制设计设计)。-3v这些研究分别构成声明博弈、信号博弈和重这些研究分
2、别构成声明博弈、信号博弈和重复信号等博弈模型。复信号等博弈模型。v应用:应用:vSpence(1973)Spence(1973)的劳动力市场模型的劳动力市场模型vTitole(1988)Titole(1988)的产品定价模型的产品定价模型vRoss(1977)Ross(1977)的企业资本结构模型的企业资本结构模型-4v在信号传递博弈中:在信号传递博弈中:v有两个参与人,有两个参与人,i i1 1,2 2;v参与人参与人1 1称为信号发送者称为信号发送者(因为他发出信号因为他发出信号);v参与人参与人2 2称为信号接收者称为信号接收者(因为他接收信号因为他接收信号);v参与人参与人1 1的类型
3、是私人信息,的类型是私人信息,v参与人参与人2 2的类型是公共信息的类型是公共信息(即只有一个类型即只有一个类型)。-5v博弈顺序博弈顺序v(1)“(1)“自然自然”首先选择参与人首先选择参与人1 1的类型的类型 是参与人是参与人1 1的类型空间,参与人的类型空间,参与人1 1知道知道,但,但参与人参与人2 2不知道,只知道不知道,只知道1 1属于的属于的 先验概率先验概率p=p()p=p(),(注意,一位参与人注意,一位参与人1 1类型是私人信息,省类型是私人信息,省略了表示参与人略了表示参与人1 1的下标的下标i i)。)。v(2)(2)参与人参与人1 1在观测到类型在观测到类型 后选择发
4、出信号后选择发出信号mMmM,这里,这里M=mM=m1 1,mmJ J 是信号空间。是信号空间。k1,这里k1)p(k-6v(3)(3)参与人参与人2 2在观测到在观测到1 1发出信号发出信号mm(但不是(但不是类型类型),使用贝叶斯法则从先验概率),使用贝叶斯法则从先验概率p=p()p=p()得到后验概率得到后验概率 ,然后选择,然后选择行动行动aAaA,这里,这里,A=aA=a1 1,a aH H 是参与是参与人人2 2的行动空间。的行动空间。v(4)(4)支付函数分别为支付函数分别为u u1 1=(m,a,)=(m,a,)和和u u2 2 =(m,a,)=(m,a,)。)(mp-7v图图
5、7.47.4是一个简单的信号传递博弈的扩展是一个简单的信号传递博弈的扩展式表述,式表述,v这里这里vK=JK=JHH2,2,)(11mpp)(21mpq-8v图图8.1 8.1 信号传递博信号传递博2m发送者发送者发送者发送者自然自然1m2m(2,1)(0,0)(1,0)(1,2)q 1q(0,1)0.50.51m12 p(1,3)(4,0)1p(2,4)1a2a1a2a2a1a2a1a-9v当参与人当参与人1 1发出信号时,他预测到参与人发出信号时,他预测到参与人2 2将根据他发出的信号修正对自己类型的将根据他发出的信号修正对自己类型的判断,因而选择一个最优的类型依存信判断,因而选择一个最优
6、的类型依存信号战略;号战略;v同样,参与人同样,参与人2 2知道参与人知道参与人1 1选择的是给选择的是给定类型和考虑信息效应情况下的最优战定类型和考虑信息效应情况下的最优战略,因此使用贝叶斯法则修正对参与人略,因此使用贝叶斯法则修正对参与人1 1的类型的判断,选择自己的最优行动。的类型的判断,选择自己的最优行动。-10v例如市场进入博弈事实上就是一个信号传递例如市场进入博弈事实上就是一个信号传递博弈。这里,在位者是信号发送者,进入者博弈。这里,在位者是信号发送者,进入者是信号接受者。是信号接受者。v当在位者选择价格时,他知道进入者将根据当在位者选择价格时,他知道进入者将根据自己选择的价格判断
7、白已是高成本还是低成自己选择的价格判断白已是高成本还是低成本的概率;本的概率;v进入者确实是在根据观测到的价格修正对在进入者确实是在根据观测到的价格修正对在位者类型的判断,然后选择进入还是不进入。位者类型的判断,然后选择进入还是不进入。-11v图图8.18.1信号传递博弈中,发送者有四个纯战信号传递博弈中,发送者有四个纯战略:略:v发送者战略发送者战略1 1:如果自然赋予类型如果自然赋予类型 1 1,选择,选择信号信号mm1 1;如果自然赋予类型;如果自然赋予类型 2 2,选择信号,选择信号m1m1;v发送者战略发送者战略2 2:如果自然赋予类型如果自然赋予类型 1 1,选择,选择信号信号mm
8、1 1;如果自然赋予类型;如果自然赋予类型 2 2,选择信号,选择信号mm2 2;-12v发送者战略发送者战略3 3:如果自然赋予类型如果自然赋予类型 1 1,选,选择信号择信号mm2 2;如果自然赋予类型;如果自然赋予类型 2 2,选择信,选择信号号mm1 1;v发送者战略发送者战略4 4:如果自然赋予类型如果自然赋予类型 1 1,选,选择信号择信号mm2 2;如果自然赋予类型;如果自然赋予类型 2 2,选择信,选择信号号mm2 2。-13v接受者也有四个纯战略:接受者也有四个纯战略:v接收者战略接收者战略1 1:如果发送者选择信号如果发送者选择信号mm1 1,选,选择行动择行动a a1 1
9、;如果发送者选择信号;如果发送者选择信号mm2 2,选择行,选择行动动a a1 1;v接收者战略接收者战略2 2:如果发送者选择信号如果发送者选择信号mm1 1,选,选择行动择行动a a1 1;如果发送者选择信号;如果发送者选择信号mm2 2,选择行,选择行动动a a2 2;-14v接收者战略接收者战略3 3:如果发送者选择信号如果发送者选择信号mm1 1,选,选择行动择行动a a2 2;如果发送者选择信号;如果发送者选择信号mm2 2,选择行,选择行动动a a1 1;v接收者战略接收者战略4 4:如果发送者选择信号如果发送者选择信号mm1 1,选,选择行动择行动a a2 2;如果发送者选择信
10、号;如果发送者选择信号mm2 2,选择行,选择行动动a a2 2。-15v定义:信号传递博弈的精炼贝叶斯均衡是定义:信号传递博弈的精炼贝叶斯均衡是战略组合战略组合(m(m*(),a(),a*()()和后验概率和后验概率 的的结合,它满足:结合,它满足:v(1)(1);v(2)(2);v(3)(3)是参与人是参与人2 2使用贝叶斯法则从先验使用贝叶斯法则从先验概率概率p()p()观测到信号观测到信号mm和参与人和参与人1 1的最优战的最优战略得到的略得到的mm*()()(在最可能情况下)。(在最可能情况下)。*2()argmax()(,)aa mpm u m a*1()arg max(,(),)
11、mmu m am()pm()pm-16v上述定义中,(上述定义中,(1 1)、()、(2 2)等价于精练条件。)等价于精练条件。v(1 1)说的是,给定后验概率)说的是,给定后验概率 ,参与人,参与人2 2对参与人发出信号的最优反应;对参与人发出信号的最优反应;v(2 2)说的是预测到)说的是预测到2 2的最优反应的最优反应a a*(m)(m),参,参与人与人1 1选择自己的最优战略;选择自己的最优战略;v(3 3)是贝叶斯法则的运用。)是贝叶斯法则的运用。)(mp-17v信号传递博弈的所有可能精炼贝叶斯均衡可以信号传递博弈的所有可能精炼贝叶斯均衡可以划分为三类:分离均衡、混同均衡和准分离均划
12、分为三类:分离均衡、混同均衡和准分离均衡。衡。v 分离均衡:分离均衡:不同类型的发送者以不同类型的发送者以1 1的概率选的概率选择不同的信号,信号准确地揭示出类型。择不同的信号,信号准确地揭示出类型。v 混同均衡:混同均衡:不同类型的发送者选择相同的不同类型的发送者选择相同的信号,接收者不修正先验概率(发送者的选择信号,接收者不修正先验概率(发送者的选择没有信息量)。没有信息量)。v 准分离均衡:准分离均衡:一些类型的发送者随机地选一些类型的发送者随机地选择信号,另一类的发送者选择特定的信号。择信号,另一类的发送者选择特定的信号。-18R发送者发送者发送者发送者自然自然LR(2,1)(0,0)
13、(1,0)(1,2)q 1q(0,1)0.50.5L1t2t p(1,3)(4,0)1p(2,4)ududdudu例例1:求解下列信号博弈的:求解下列信号博弈的PBNE-19v解:该博弈可能存在的纯战略解:该博弈可能存在的纯战略PBNEPBNE有:有:v1 1、混同于行动混同于行动L L的的PBNEPBNE无论发送者无论发送者 的的类型是类型是t t1 1和和t t2 2,发送者的战略都为(,发送者的战略都为(L,L)L,L)v2 2、混同于行动混同于行动R R的的PBNEPBNE无论发送者无论发送者 的的类型是类型是t t1 1和和t t2 2,发送者的战略都为(,发送者的战略都为(R,R)
14、R,R)v3 3、分离均衡分离均衡类型类型t t1 1的发送者选择的发送者选择L,L,类型类型t t2 2发送者选择发送者选择R,R,发送者的战略都为(发送者的战略都为(L,R)L,R)v4 4、分离均衡分离均衡类型类型t t1 1的发送者选择的发送者选择R,R,类型类型t t2 2的发送者选择的发送者选择L,L,发送者的战略都为(发送者的战略都为(R,LR,L-20第第1 1种情况:假设混同于行动种情况:假设混同于行动L L的的PBNEPBNEv要求要求R1:R1:接受者对应于接受者对应于L L的信息集的信息集h h(左边信息集)处(左边信息集)处在均衡路径之上的推断(在均衡路径之上的推断(
15、p p,1-p1-p)v接受者对应于接受者对应于R R的信息集的信息集h h(右边信息集)处(右边信息集)处在均衡路径之外的推断(在均衡路径之外的推断(q q,1-q1-q)-21v要求要求R2:R2:给定这样的推断,接受者在观测到信号给定这样的推断,接受者在观测到信号L L之之后,行动后,行动u u和和d d的期望收益为:的期望收益为:v行动行动u u的期望收益为:的期望收益为:E(u)=3p+4(1-p)=4-p=3.5E(u)=3p+4(1-p)=4-p=3.5v行动行动d d的期望收益为:的期望收益为:E(d)=0p+1(1-p)=1-p=0.5E(d)=0p+1(1-p)=1-p=0
16、.5v接受者看到接受者看到L L之后的之后的S S2 2*(L)=u(L)=u,同时:,同时:vU U1 1*(t t1 1,L,L)=1,U=1,U1 1*(t t2 2,L,L)=2.=2.-22R发送者发送者发送者发送者自然自然LR(2,1)(0,0)(1,0)(1,2)q 1q(0,1)0.50.5L1t2t p(1,3)(4,0)1p(2,4)ududdudu-23v那么:发送者的(那么:发送者的(L,LL,L)是最优的吗?)是最优的吗?v需要确定:需要确定:如果发送者选择信号R,接受者的反应(选择)给两种类型的发送者所带来的收益小于他们选择信号L的收益。v由于:由于:v如果接受者对
17、如果接受者对R R的反应为的反应为u,u,则类型为则类型为t1t1的的发送者选择发送者选择R R的收益为的收益为2 2,高于自己选择,高于自己选择L L的的收益收益1 1,因此类型为,因此类型为t1t1的发送者不会选择的发送者不会选择L.L.(不可行不可行)-24v如果接受者对如果接受者对R R的反应为的反应为d,d,v则类型为则类型为t1t1的发送者选择的发送者选择R R的收益为的收益为0 0,低于,低于自己选择自己选择L L的收益的收益1 1,因此类型为,因此类型为t1t1的发送者的发送者会选择会选择L.L.v类型为类型为t2t2的发送者选择的发送者选择R R的收益为的收益为1 1,低于自
18、,低于自己选择己选择L L的收益的收益2 2,因此类型为,因此类型为t2t2的发送者会的发送者会选择选择L.L.v (可行可行)-25v因此,如果存在前面假设的混同均衡,其中因此,如果存在前面假设的混同均衡,其中发送者的策略为(发送者的策略为(L,LL,L),则接受者对则接受者对R R 的反的反应必须为应必须为d d,于是接受者的战略必须为,于是接受者的战略必须为 s s2 2*|s1=Ls1=L=u,s=u,s2 2*|s1=Rs1=R=d=d-26v此外:还需要考虑接受者在对应于此外:还需要考虑接受者在对应于R R的信息的信息集(右边信息集)中的推断推断(集(右边信息集)中的推断推断(q
19、q,1-q1-q),),以及给定这一推断以及给定这一推断d d是否是最优的?是否是最优的?v在在R R的信息集(右边信息集)上:的信息集(右边信息集)上:行动行动u u的期望收益为:的期望收益为:E(u)=q+0(1-q)=qE(u)=q+0(1-q)=qv行动行动d d的期望收益为:的期望收益为:E(d)=0q+2(1-q)=2-2pE(d)=0q+2(1-q)=2-2pd d最优的条件:最优的条件:E(d)E(u),E(d)E(u),即即q=2/3q=2/3-27v要求要求R3:R3:对信息集对信息集h h(左边信息集)处在均(左边信息集)处在均衡路径之上的推断(衡路径之上的推断(p p,
20、1-p1-p)的贝叶斯修)的贝叶斯修正:正:1111122(|)*()(|)(|)*()(|)*()1*0.5 0.51*0.5 1*0.5p L tp tpp tLp L tp tp L tp tp-28v综上:混同于综上:混同于L L的的PBNEPBNE为:为:2(,),(,),0.5,03L Lu dpq-29第第2 2种情况:假设混同于行动种情况:假设混同于行动R R的的PBNEPBNEv要求要求R1:R1:接受者对应于接受者对应于L L的信息集的信息集h h(左边信息集)处(左边信息集)处在均衡路径之上的推断(在均衡路径之上的推断(p p,1-p1-p)v接受者对应于接受者对应于R
21、R的信息集的信息集h h(右边信息集)处(右边信息集)处在均衡路径之外的推断(在均衡路径之外的推断(q q,1-q1-q)-30v要求要求R2:R2:给定这样的推断,接受者在观测到信号给定这样的推断,接受者在观测到信号R R之之后,行动后,行动u u和和d d的期望收益为:的期望收益为:v行动行动u u的期望收益为:的期望收益为:E(u)=q+0(1-q)=q=0.5E(u)=q+0(1-q)=q=0.5v行动行动d d的期望收益为:的期望收益为:E(d)=0q+2(1-q)=2-2q=1E(d)=0q+2(1-q)=2-2q=1v接受者看到接受者看到R R之后的之后的S S2 2*(R)=d
22、(R)=d,即是:,即是:vU U1 1*(t t1 1,R,R)=0,U=0,U1 1*(t t2 2,R,R)=1.=1.-31R发送者发送者发送者发送者自然自然LR(2,1)(0,0)(1,0)(1,2)q 1q(0,1)0.50.5L1t2t p(1,3)(4,0)1p(2,4)ududdudu-32v那么:发送者的(那么:发送者的(R,RR,R)是最优的吗?)是最优的吗?v需要确定:需要确定:如果发送者选择信号L,接受者的反应(选择)给两种类型的发送者所带来的收益小于他们选择信号R的收益。v由于:由于:v如果接受者对如果接受者对L L的反应为的反应为u,u,则类型为则类型为t1t1的
23、发的发送者选择送者选择L L的收益为的收益为1 1,高于自己选择,高于自己选择R R的收的收益益0 0,因此类型为,因此类型为t1t1的发送者不会选择的发送者不会选择R.R.(不可行不可行)-33v如果接受者对如果接受者对L L的反应为的反应为d,d,v则类型为则类型为t1t1的发送者选择的发送者选择L L的收益为的收益为4 4,高于,高于自己选择自己选择R R的收益的收益0 0,因此类型为,因此类型为t1t1的发送者的发送者会选择会选择L.L.v类型为类型为t2t2的发送者选择的发送者选择L L的收益为的收益为0 0,低于自,低于自己选择己选择R R的收益的收益1 1,因此类型为,因此类型为
24、t2t2的发送者会的发送者会选择选择L.L.v (不可行不可行)-34v综上:不满足综上:不满足R2R2,所以不存在混,所以不存在混同于同于R R的的PBNE.PBNE.-35第第3 3种情况:假设存在(种情况:假设存在(L,RL,R)的分离)的分离均衡均衡PBNEPBNEv要求要求R1R1和要求和要求3:3:接受者对应于接受者对应于L L的信息集的信息集h h(左边信息集)处(左边信息集)处在均衡路径之上的贝叶斯推断(在均衡路径之上的贝叶斯推断(1 1,0 0)v接受者对应于接受者对应于R R的信息集的信息集h h(右边信息集)处(右边信息集)处在均衡路径之外的推断(在均衡路径之外的推断(0
25、 0,1 1)-36v要求要求R2:R2:给定这样的推断,接受者在观测到信号给定这样的推断,接受者在观测到信号(L,RL,R)之后,接受者的最优反应)之后,接受者的最优反应 s s2 2*|s1=Ls1=L=u,s=u,s2 2*|s1=Rs1=R=d=d同时,发送者同时,发送者vU U1 1*(t t1 1,L,L)=1,U=1,U1 1*(t t2 2,R,R)=1.=1.-37R发送者发送者发送者发送者自然自然LR(2,1)(0,0)(1,0)(1,2)q 1q(0,1)0.50.5L1t2t p(1,3)(4,0)1p(2,4)ududdudu-38v那么:发送者的(那么:发送者的(L
26、,RL,R)是最优的吗?)是最优的吗?v需要确定:需要确定:如果发送者选择信号(L,RL,R),接受者的反应(选择)给两种类型的发送者所带来的收益小于他们选择信号(R,L)的收益。v由于:由于:v如果接受者类型为如果接受者类型为t1t1对对R R的反应为的反应为u,u,则发则发送者选择送者选择R R的收益为的收益为2 2,高于自己选择,高于自己选择L L的收的收益益1 1,因此类型为,因此类型为t1t1的发送者不会选择的发送者不会选择L.L.(不可行不可行)-39v如果接受者对如果接受者对R R的反应为的反应为d,d,v则类型为则类型为t1t1的发送者选择的发送者选择R R的收益为的收益为0
27、0,低于,低于自己选择自己选择L L的收益的收益1 1,因此类型为,因此类型为t1t1的发送者的发送者会选择会选择L.L.v类型为类型为t2t2的发送者选择的发送者选择L L的收益为的收益为2 2,高于自,高于自己选择己选择R R的收益的收益1 1,因此类型为,因此类型为t2t2的发送者会的发送者会选择选择L.L.v (不可行不可行)-40v综上:不满足综上:不满足R2,R2,不不存在(存在(L,RL,R)的分离均衡的分离均衡PBNEPBNE-41第第4 4种情况:假设存在(种情况:假设存在(R,L R,L)的分)的分离均衡离均衡PBNEPBNEv要求要求R1R1和要求和要求3:3:接受者对应
28、于接受者对应于L L的信息集的信息集h h(左边信息集)处(左边信息集)处在均衡路径之上的贝叶斯推断(在均衡路径之上的贝叶斯推断(0 0,1 1)v接受者对应于接受者对应于R R的信息集的信息集h h(右边信息集)处(右边信息集)处在均衡路径之外的推断(在均衡路径之外的推断(1 1,0 0)-42v要求要求R2:R2:给定这样的推断,接受者在观测到信号(给定这样的推断,接受者在观测到信号(R,R,L L)之后,接受者的最优反应)之后,接受者的最优反应 s s2 2*|s1=Rs1=R=u,s=u,s2 2*|s1=Ls1=L=u=u同时,发送者同时,发送者vU U1 1*(t t1 1,R,R
29、)=0,U=0,U1 1*(t t2 2,L,L)=2.=2.-43R发送者发送者发送者发送者自然自然LR(2,1)(0,0)(1,0)(1,2)q 1q(0,1)0.50.5L1t2t p(1,3)(4,0)1p(2,4)ududdudu-44v那么:发送者的(那么:发送者的(R,L R,L)是最优的吗?)是最优的吗?v需要确定:需要确定:如果发送者选择信号(R,L R,L),接受者的反应(选择)给两种类型的发送者所带来的收益小于他们选择信号(L,R)的收益。-45v由于:由于:v如果接受者对类型如果接受者对类型t1 t1 的的L L的反应为的反应为d,d,则发则发送者选择送者选择L L的收
30、益为的收益为4 4,高于自己选择,高于自己选择R R的收的收益益2 2,因此类型为,因此类型为t1t1的发送者不会选择的发送者不会选择R.R.(不可行不可行)-46v如果接受者对类型如果接受者对类型t1 t1 的的L L的反应为的反应为u,u,则发则发送者选择送者选择L L的收益为的收益为1 1,低于自己选择,低于自己选择R R的收的收益益2 2,因此类型为,因此类型为t1t1的发送者不会选择的发送者不会选择L.L.v如果接受者对类型如果接受者对类型t2 t2 的的R R的反应为的反应为u,u,则发送则发送者选择者选择R R的收益为的收益为1 1,低于自己选择,低于自己选择L L的收益的收益2
31、 2,因此类型为因此类型为t2t2的发送者不会选择的发送者不会选择R.R.v (可行可行)-47v因此,如果存在前面假设的分离均衡(因此,如果存在前面假设的分离均衡(R,LR,L),),其中发送者的策略为(其中发送者的策略为(R,LR,L),则接受者的反则接受者的反应必须为应必须为u u,于是接受者的战略必须为,于是接受者的战略必须为 s s2 2*|s1=Rs1=R=u,s=u,s2 2*|s1=Ls1=L=u=u-48v要求要求R3:R3:对信息集对信息集h h(左边信息集)处在均(左边信息集)处在均衡路径之上的推断(衡路径之上的推断(p p,1-p1-p)的贝叶斯修)的贝叶斯修正:正:1
32、111122(|)*()(|)(|)*()(|)*()0*0.5 00*0.5 1*0.5p L tp tpp tLp L tp tp L tp t-49v要求要求R3:R3:对信息集对信息集h h(右边信息集)处在均(右边信息集)处在均衡路径之上的推断(衡路径之上的推断(q q,1-q1-q)的贝叶斯修)的贝叶斯修正:正:2221122(|)*()(|)(|)*()(|)*()1*0.5 10*0.5 1*0.5q L tq tqq tLq L tq tq L tq t-50v综上:分离的综上:分离的PBNEPBNE为:为:(,),(,),0,1R Lu upq-5183 不完全信息重复博弈
33、与声誉模型不完全信息重复博弈与声誉模型v831 KMRW声誉模型声誉模型v 本节讨论不完全信息重复博弈中的合作行为。在完全信息情况下,不论博弈重复多少次,只要重复的次数是有限的。唯一的子博弈精炼纳什均衡是每个参与人在每次博弈中选择静态均衡战略(假定静态博弈的纳什均衡是唯一的),即有限次重复不可能导致参与人的合作行为。特别地,在有限次重复囚徒博弈中,每次都选择“坦白”是每个囚徒的最优战略。这结果似乎与人们的直观感觉不一致。阿克斯罗德(1981)的实验结果表明,即使在有限次重复博弈中,合作行为也频繁出现。克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(1982)的声誉模型通过将不完全信息引入重复博弈解开了这
34、个悖论。他们证明,参与人对其他参与人支付函数或战略空间的不完全信息对均衡结果有重要影响,合作行为在有限次博弈中会出现只要博弈重复的次数足够长(没有必要是无限的)。特别地,“坏人”可能在相当长一段时期表现得像“好人”一样。-52一、囚徒困境博弈一、囚徒困境博弈v表6.3.1v 囚徒2 v v v囚徒1v v v 以囚徒困境为例说明KMRW模型的结果。假定囚徒1有两种类型,理性的或非理性的概率分别为(1-p)和p。为简单起见,假定囚徒2只有一种类型,即理性的。假定理性的囚徒可以选择任何战略;非理性的囚徒由于某种原因,只有一种战略,即“针锋相对”:开始选择“抵赖”,然后在阶段t选择囚徒2在t-1阶段
35、的选择(即“你抵赖我就抵赖,你坦白我就坦白”)。坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1-53v博弈顺序如下:v(1)自然首先选样囚徒1的类型;囚徒1知道自己的类型。囚徒2只知道囚徒1属于理性的概率是(1-p),非理性的概率是p;v(2)两个囚徒进行第阶段博弈;v(3)观测到第一阶段博弈结果后,进行第二阶段博弈;观测到第二阶段博弈结果后,进行第三阶段博弈;如此等等。v(4)理性囚徒1和囚徒2的支付是阶段博弈的支付的贴现值之和。v“理性囚徒”可以理解为“机会主义者”,或者非合作型参与人;“非理性囚徒”可以理解为讲义气重信誉的人,或者合作型参与人。v研究目的:证明,即使在完全信息下
36、(p0)肯定会选择“坦白”的理性囚徒也会在不完全信息下(p0)选择“抵赖”(类似极端自私的人也会“助人为乐”)v-54二、首先讨论重复两次(二、首先讨论重复两次(T=2)的情况)的情况)v 表6.3.2v v若 X=D,囚 徒 2 的 期 望 支 付 p(-1)+(1-p)(-10)+p0+(1-p)(-8)=17p-18v若X=C,囚徒2的期望支付p0+(1-p)(-8)+-8=8p-16v则17p-18 8p-16,即p2/9,则囚徒2在第一阶段将选择抵赖(合作)t=1t=2非理性囚徒1pD(抵赖)X理性囚徒11-pC(坦白)C(坦白)囚徒2(理性)XC(坦白)-55三、现在讨论重复三次(
37、三、现在讨论重复三次(T=3)的情况)的情况v 给定p2/9,讨论T=3,如果理性囚徒1和囚徒2第一阶段都选择D(合作),则第二、三阶段的均衡路径与表相同(这时XD)。v表6.3.2v t=1t=2t=3非理性囚徒1 p2/9D(抵赖)DD理性囚徒1D(抵赖)C(坦白)C囚徒2(理性)D(抵赖)DC-56v(a)首先证明,理性囚徒1在第一阶段的最优战略选择是D。v给定囚徒2在第一阶段的选择D,如果理性囚徒1选择D,囚徒2的后验概率不变,囚徒2在第二、三阶段选择(D,C)。理性囚徒1三阶段战略选择(D,C,C),则v理性囚徒1的期望支付为:(1)(0)(8)9v如果理性囚徒在第一阶段选择C,囚徒
38、2将在二、三阶段采取(C,C)战略,理性囚徒1三阶段战略选择(C,C,C),则v理性囚徒1的期望支付为:(0)(8)(8)16v因为916,故理性囚徒1在第一阶段的最优战略选择是D(没兴趣偏离表6.3.2种的战略)-57v(b)现在考虑囚徒2的战略,分别有三种选择(D,D,C)、(C,C,C)、(C,D,C)。v给定理性囚徒1三阶段战略选择(D,C,C),囚徒2选择(D,D,C)的期望支付为:v-1+p(-1)+(1-p)(-10)p0+(1-p)(-8)=17p-19 t=1t=2t=3非理性囚徒1 p2/9D(抵赖)DD理性囚徒1D(抵赖)C(坦白)C囚徒2(理性)D(抵赖)DC-58v给
39、定理性囚徒1三阶段战略选择(D,C,C),囚徒2选择(C,C,C)的期望支付为(博弈路径见表6.3.3):v0+-8+-8=-16v若要求(D,D,C)优于(C,C,C),则17p-19-16,即p3/17v由于我们假定p2/9,上述条件成立。v表6.3.3 第二种战略 t=1t=2t=3非理性囚徒1 p2/9D(抵赖)CC理性囚徒1D(抵赖)CC囚徒2(理性)C(坦白)CC-59 v给定理性囚徒1三阶段战略选择(D,C,C),囚徒2选择(C,D,C)的期望支付为(博弈路径见表6.3.4):v0+-10+p0+(1-p)(-8)=8p-18v若要求(D,D,C)优于(C,D,C),则17p-1
40、98p-18,即p1/9v因为p2/9,上述条件成立。v表6.3.4 第三种战略 t=1t=2t=3非理性囚徒1p2/9 D(抵赖)CD理性囚徒1D(抵赖)CC囚徒2(理性)C(坦白)DC-60 四、结论四、结论v只要囚徒1是非理性的概率p2/9,表6.3.2的战略组合就是一个精练贝叶斯均衡:即理性囚徒1三阶段战略选择(D,C,C),囚徒2的战略选择(D,D,C)。v可以进一步证明,如果p2/9,对于所有的T3,下列战略组合构成一个精炼贝叶斯均衡:理性囚徒1在t1至tT-2阶段一直选择D(合作),然后在tT-1和tT阶段择C(不合作);囚徒2在t=1至t=T-1阶段选择D(合作),然后在tT阶
41、段选择C(不合作)。如果我们将任何一个囚徒选择C的阶段称为非合作阶段,两个囚徒都选择D称为合作阶段,那么,容易看出,只要T3,非合作阶段的总数量等于2,与T无关。-61v如果p 0+(-8)T,即T(3-2p)/7pv这说明,只要T(3-2p)/7p,从一开始选择C(非合作)不是理性囚徒1的最优战略,同理,也不是理性囚徒2的最优战略。-63五、五、KMRW定理定理vKMRW定理:在T阶段重复囚徒博弈中,如果每个囚徒都有P0的概率是非理性的,即只选择“针锋相对”或“冷酷战略”),如果T足够大,那么存在T0 T0选择不合作(坦白);并且,非合作阶段的数量(T-T0)只与p有关而与T无关。-64v
42、KMRW定理的直观解释是,尽管每一个囚徒在选择合作时冒着被其他囚徒出卖的风险(从而可能得到一个较低的现阶段支付),但如果他选择不合作,就暴露了自己是非合作型的,从而失去了获得长期合作收益的可能(如果对方是合作型的话)。如果博弈重复的次数足够多,未来收益的损失就超过短期被出卖的损失,因此,在博弈的开始,每一个参与人都想树立一个合作形象(使对方认为自己是喜欢合作的),即使他在本性上并不是合作型的;只有在博弈快结束的时候,参与人才会一次性地把自己的过去建立的声誉利用尽,合作才会停止(因为此时,短期收益很大而未来损失很小)。-65v KMRW定理解释了“大智若愚”,这里,智者囚徒博弈中的理性囚徒(非合
43、作型),“愚者”即囚徒博弈中的非理性囚徒(合作型)。在许多情况下,大智若愚确实是“智者”追求自己利益的最佳方式。v KMRW模型的最为成功之处在于它证明:只要博弈重复的次数足够长,参与人有足够的耐心(我们假定1,但定理对1也成立,只要足够接近于1,即使(有关参与人类型的)小小的不确定性可能引起均衡结果的重大改变(很小的p就可以保证合作均衡的出现,但如果p=0,合作均衡不可能出现(完全信息)。-6664 精炼贝叶斯均衡的再精炼及其他精炼贝叶斯均衡的再精炼及其他均衡概念均衡概念v不完全信息博弈可能存在多重精炼贝叶斯均衡,究竟哪一个均衡实际上出现,依赖于我们如何规定非均衡路径上的后验概率。v什么是参
44、与人1的均衡战略,依赖于参与人2认为什么不是他(参与人1)的均衡战略,或者说,参与人2认为什么是参与人l的均衡战略,什么就是参与人1的均衡战略,均衡是自动实现的。v尽管精炼贝叶斯均衡的精炼条件剔除了不可置信的战略(行动),促它没有剔除不可置信的信念(后验概率)。非均衡战略上后验概率的任意性导致了均衡战略的任意性;当我们把某个行动从潜在均衡战略中排除掉时,我们同时就将另一些行动转化为均衡战略。出现多重均衡是很自然的。-67641剔除劣战略剔除劣战略v剔除劣战略方法的思路是将“不选择劣战略”的要求扩展到非均衡路径的后验概率上。它的基本思想是,在一个博弈中,如果对于某些类型的参与人,存在某些行动或战
45、略劣于另些行动或战略,而对于另一些类型的参与人这一点不成立,那么,当其他参与人观测到前一类行动时,他不应该以任何正的概率认为选择该行动的参与人属于前一类参与人。-68 v v 图6.4.1 不完美信息博弈v 1*+0*(1-)0*+1*(1-),1/2,,如果博弈进入参与人2的信息集,他将选择B。显然,R严格劣于L,弱劣于M(选择R得到1或0,选择L得到2,选择M得到3或0)。因此,在博弈开始,参与人2不应该认为参与人1会以任何正的概率选择R;如果博弈进入参与人2的信息集,他应该认为参与人1选择M的概率是1(即1)。在这个要求下,均衡(L,B;1/2)被剔除,只有(M,U;1)是满足这个要求的
46、精炼贝叶斯均衡。MRUBUB2(2,2)(3,1)(0,0)(1,0)(0,1)L11-69v剔除劣战略方法正式定义剔除劣战略方法正式定义:令a1和a1是参与人1(信号发送者)的两个行动(信号),a1,a1A1。对于参与人2(信号接受者)的所有行动a2,a2A2,如果下列条件成立,我们说对类型11的参与人1,a1弱劣于a1:vu1(a1,a2,1)u1(a1,a2,1)v(至少有一个严格不等式对于某些(a2,a2)成立。)v要求:在所有的信息集上,对于参与人2的每个可能的后验概率和行动,a1弱劣于a1。这样严格要求的原因是,参与人1在选择自己的行动时,必须考虑自已的行动传递给参与人2的有关自己
47、(参与人1)类型的信息。v-70642 直观标准直观标准v在均衡中,至少有一个类型的参与人1想偏离均衡。“直观标准”剔除所有这些不合理的精炼贝叶斯均衡。“直观标准”将劣战略扩展到相对于均衡战略的劣战略,从而通过剔除更多的劣战略的办法缩小均衡数量,进一步改进了精炼贝叶斯均衡概念。v定义定义:假定(a1*,a2*;)是一个精炼贝叶斯均衡。令u1*(1)是类型为1的参与人1的均衡效用水平。那么,a1A1是参与人1相对于均衡的劣战略(a1*,a2*;),如果对参与人2的所有行动,下列条件成立:vu1(a1,a2,1)u1*(1)v(至少有一个严格不等式对某些成立。)v进一步,令1是所有满足上述不等式1
48、的集合,如果1,那么,参与人2的非均衡路径上的合理的后验概率是:0)(111a-71643 克瑞普斯一威尔逊序贯均衡克瑞普斯一威尔逊序贯均衡v粗略地讲,克瑞普斯一威尔逊序贯均衡的基本思想是,在子博弈精炼纳什均衡或贝叶斯均衡概念上增加一个新的要求。这个新的要求是:在博弈到达的每一个信息集上(不论该信息集在均衡路径还是非均衡路径),参与人的行动必须由某种有关之前发生的事情(自然选择了什么类型或先行动者选择了什么行动)的信念(概率)“合理化”。v克瑞普斯和威尔逊处理非均衡路径上后验概率的办法是:首先假定,在每一个信息集上,参与人选择严格混合战略(即以严格正的概率选择每一个行动),从而博弈到达每一个信
49、息集的概率严格为正,贝叶斯法则在每一个信息集上都有定义;然后将均衡作为严格混合战略组合和与此相联系的后验概率的序列的极限。这样,检查一个战略组合和后验概率是否是一个均衡就变成:它是否是某个严格混合战略组合和与此相联系的后验概率的序列的极限。-72v定义定义(,)是一个序贯均衡,如果它满足下列两个条件:v(1)(,)是一个序贯性的:在所有的信息集h上,给定后续概率(h),没有任何参与人i想偏离i(h);对于所有可行战略i(h),v(2)(,)是一致的:存在一个严格混合战略组合序列m和贝叶斯法则决定的概率序列m,使得是的极限;即:v一致性要求是序贯均衡概念最重要的创造。序列可以理解为均衡的“颤抖”
50、;颤抖使得贝叶斯法则适用于博弈的所有路径。)(,),()(,()()()()(hhuhhuhihihihi),(lim),(mmm-73644 泽尔腾的颤抖手均衡泽尔腾的颤抖手均衡v泽尔腾(1975)使用战略式博弈引入颤抖手均衡的概念。颤抖手均衡的基本思想是,任何一个博弈中,每一个参与人都有一定的可能性犯错误(类似一个人用手抓东西时,手一颤抖,他就可能抓不住他想抓的东的);一个战略组合,只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时,才是一个均衡。泽尔腾将非均衡事件的发生解释为“颤抖”:当一个参与人突然发现一个不该发生的事件发生时(即博弈偏离均衡路径),他把这个不该发