1、 第六章 不完全信息动态博弈 不完全信息动态博弈(或动态贝叶斯博弈)的基本特征是参与人的行动是序贯的,有先有后,与完全信息动态博弈相比,其中的私人信息可能表现在支付函数上,也可能表现在行动的选择上。前一个表现形成不完全信息,后个表现形成不完美信息。象不完全信息静态博弈被转化成完全但不完美信息动态博弈进行分析一样。所有的不完全信息动态博弈都可以被转换成完全但不完美信息的动态博弈进行分析。正因为这样,我们把“不完全信息动态博弈”与“不完美信息动态博弈”混同使用。第1页,共51页。一、精炼贝叶斯纳什均衡一、精炼贝叶斯纳什均衡(完美贝叶斯纳什均衡完美贝叶斯纳什均衡)用博弈树表示完全且完美信息的动态博弈
2、,其中博弈树上的每个节点就是一个独立的决策节,表示参与人在该时点对此前的博弈过程有完全的了解。而在不完全信息动态博弈中,“自然”首先选择参与人的类型,相应的参与人知道自己的类型,其他参与人不知道;在自然的选择之后,参与人开始序贯行动,后行为者能观测到先行为者的行动,但无法观测到先行为者的后行为者能观测到先行为者的行动,但无法观测到先行为者的类型类型,从而产生不完美信息,对此,我们在博弈树上用多节点的信息集来反映。(一)多节点信息集和不完美信息动态博弈的表示第2页,共51页。v 举例:二手车交易举例:二手车交易 卖 不卖 买 不买 买者 买者 卖者 卖者 好 坏 买 不买 卖 不卖 卖者 先是自
3、然(N)决定二手车的类型:好车或差车。卖主(参与人1)知道自己的类型后选择卖或不卖,若卖主选择不卖,则博弈结束;若选择卖,则轮到顾客(参与人2)决定买还是不买。顾客在轮到决策的时点上,只能观测到卖主选择了卖的行动而不知道卖主的类型是好车还是差车(即顾客不知道自然的选择是好车还是差车)。(这是不完美信息)这个交易里有两个决策节点就形成一个多节点的信息集(用虚线连接)。多节点信息集特征:(1)在此信息集中的每一个节点都轮到该参与人行动;(2)当博弈的进行达到该信息集中的某个节点时,轮到行动的参与人并不知道实际到达了哪一个节点,而只知道到达了其中的某个节点的概率(先验概率或后验概率)。第3页,共51
4、页。在不完全信息动态博弈中,“自然”首先选择参与人的类型,参与人自己知道自己的类型,其他参与人不知道;在自然选择之后,参与人开始行动,参与人的行动有先有后,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型。但是,参与人的行动是类型依存的。每个参与人的行动都传递着有关自己类型的信息,后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念(概率分布),然后选择自己的最优行动;先行动者理性预测到自己的行动将被后行动者所利用,就会设法选择传递对自己有利的信息,避免传递对自己不利的信息。v 不完全信息动态博弈过程 因此,该博弈过程的实质不仅是参与人选择行动的过程,而且是参
5、与人不断修正信念的过程。精练贝叶斯纳什均衡是完全信息动态子博弈精炼纳什均衡和不完全信息静态博弈贝叶斯纳什均衡的结合。第4页,共51页。参与者1在3个行动中进行选择L、M及R。如果参与者1选择R,则博弈结束。如果参与者1选择了L或M,则参与者2就会知道1没有选择R(但不清楚1是选择了L还是M),并在或L 或R 两个行动中进行选挥,博弈随之结束。考虑如下完全非完美信息动态博弈 纳什均衡(L,L)、和(R,R),也是子博弈精炼纳什均衡。然而,(R,R)却明显要依赖于一个不可信的威胁:如果博弈进入参与者2的信息集,L严格优于R,选择R不是序贯理性的;因此参与者1不会由于2威胁他将在其后的行动中选择R,
6、而去选择R。(二)精炼贝叶斯纳什均衡第5页,共51页。对于不完全信息动态博弈,由于子博弈精炼均衡同样未能排除不可信的威胁和许诺,我们需要对其进一步强化(即加强对条件的要求),并把强化后的子博弈精炼纳什均衡称为精炼贝叶斯纳什均衡,简称为精炼(完美)贝叶斯均衡。因此,用更为广义的后续博弈的概念来代替子博弈的概念。前面我们已经定义过的子博弈必须开始于单节点信息集,并且不能分割信息集,与之不同的是“后续博弈”是指从任何信息集(不论是单节点的还是包含多节点的)开始的动态博弈的后续部分。对动态博弈进行分析,可信性问题始终是一个中心问题,一个理想的均衡必须是排除了所有不可信的威胁和许诺的。第6页,共51页。
7、使均衡概念得到进一步强化,以排除上例中像(R,R)的子博弈纳什均衡的方法之一,是附加以下两个要求。要求1:在每一个信息集上,轮到行动的参与人必须对博弈进行到该信息集中各个决策节点的可能性大小有一个推断(belief)。对于非单节点信息集,推断就是在信息集中关于不同决策节点的一个概率分布;对于单节点的信息集,参与者的推断就是博弈到达此单一决策节点的概率等于1。(每一个参与人的信息集上有一个概率分布)要求2:给定参与人的推断,参与人的策略必须满足序贯理性(sequentially rationally)的。即在每一信息集中,给定轮到行动的参与人在此信息集中的推断,以及其他参与人的后续策略(指从给定
8、信息集开始的参与人在后续博弈中的完备的行动计划),该参与人的行动必须是最优的。(给定概率分布和其他参与人的选择,每个参与人的战略是最优的)v 精炼贝叶斯纳什均衡四条要求第7页,共51页。要求1意味着如果博弈的进行达到参与者2的非单节信息集,则参与者2必须对具体到达哪一个节(也就是参与者1选择了L还是R)有一个推断。这样的推断就表示为到达两个节的概率p和1-pv 用精炼贝叶斯均衡剔除不可置信威胁(R,R)要求1:每一个参与人的信息集上各节点有一个推断(概率分布);要求2:给定参与人的推断,参与人的策略必须满足序贯理性。ppp11)1(0因此,这个博弈的唯一的精炼贝叶斯均衡是(L,L;p=1)第8
9、页,共51页。v 精炼贝叶斯纳什均衡四条要求 要求3:在处于均衡路径之上的信息集中,推断由贝叶斯法则及参与人的均衡战略给出。(概率分布是使用贝叶斯法则从最优战略和观测到的行动得到的(在可能的情况下)第9页,共51页。v 贝叶斯法则贝叶斯法则:是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。第10页,共51页。现就市场进入一例进行分析,假设现就市场进入一例进行分析,假设在打算进入之前对在打算进入之前对A的类型及分布概率一无所知,但的类型及分布概率一无所知,但知道,如果是知道,如果是高成本高成本型则阻挠概率是型则阻挠概率是20,如果是低成本型则阻挠概率是如
10、果是低成本型则阻挠概率是100,那么他将采取怎样的战略呢,那么他将采取怎样的战略呢 高成本 A 低成 默许 B 阻挠20%默许 阻挠100%进入40,50-10,030,100-10,140不进入0,3000,3000,4000,400例:市场进入博弈 博弈开始时,认为属于高成本型的概率是70。因此,认为自己在进入市场时受到阻挠的概率是:0.70.20.310.44当进入市场时,A确实阻挠,根据贝叶斯法则,认为属于高成本型的概率变为:(0.70.2)/0.44=0.32 根据这一新概率,估计自己在进入市场是受到A阻挠的概率变为:0.320.20.6810.744如果再次试探,又进行了阻挠,根据
11、贝叶斯法则,认为属于高成本型的概率变为:(0.320.2)/0.744=0.086 这样,随着一次次试探及阻挠,对A的判断逐渐变化,越来越倾向将判断为低成本型企业。1)P(A/B20)P(.A/B70)P(.A)P(P()P(P()P(AA/BAA/BB)P(A)/P(P()/P(P(A)P(A/BA/BBBB第11页,共51页。v 贝叶斯法则khahak)(khap1)(hkhaphaKkkkhKKhhhpappappapaob111)()|()()|()()|(Prhaha)(kP)(khap第12页,共51页。hak hhkkkhkhaobaobpapaobPrPr)()(),(Prhk
12、aob PrhakKjjjhkkhhkkhhkpappapaobpapaob1)()|()()|(Pr)()|(|Pr代表这个后验概率,即给定 的 情况下,i 属于 类型 的概率|Prhkaobhak(贝叶斯法则)v 贝叶斯法则第13页,共51页。第14页,共51页。v 精炼贝叶斯纳什均衡四条要求 要求4:对处于均衡路径之外的信息集,推断由贝叶斯法则以及可能倩况下的参与者的均衡战略决定。(对精炼贝叶斯均衡再精炼)分析要求4的作用 这是一个由三个参与人各行动一次构成的三阶段不完美信息动态博弈。参与人1在第一阶段在A和B中作出选择,如果他选择A,则博弈结束,如果他选择B,则轮到参与人2在第二阶段在
13、C和D之间作出选择,在第三阶段由参与人3在E和F之间进行选择。其中参与人1的行动能被参与人2和3观测到,但参与人2的行动却不能被参与入3观测到。第15页,共51页。分别用分别用P和和(1一一P)表示参与人表示参与人3推断参与人推断参与人2选选择择C和和D的概率,那么的概率,那么参与人参与人3选选E的期望支付:的期望支付:P1十十(1一一P)22一一P 选选F的期望支付:的期望支付:P3十十(1一一P)11十十2P因因此,当此,当P1/3时,他会选择时,他会选择E,当,当P1/3时时,他会选择,他会选择F,当,当P1/3时,他可选择时,他可选择E或或F或混合策略。或混合策略。那么,他所推断的P究
14、竟是这三种情况中的哪一种情况呢?这取决于他对参与人2的最优选择的判断。对参与人2来说,D是相对于C的严格下策,所以参与人2的合理选择必定是C,因此P11/3,所以参与人3的选择是F。参与人1在第一阶段对第二阶段和第三阶段参与人2和3的决策思路是清楚的,所以他知道如果自己选择B的话,支付将是3,比选择A的支付2大,因此,他会选择B。第16页,共51页。这样,我们就得到一个策略组合(B,C,F)与参与人2的推断P1.从上面的分析可知,(B,C,F;P1)是完全符合要求1到要求3的,并且,由于该策略组合下不存在均衡路径之外的信息集,因此要求4也就自动满足,从而我们说(B,C,F;P1)是该博弈的完美
15、贝叶斯纳什均衡是该博弈的完美贝叶斯纳什均衡。下面考虑策略组合(A,C,E)及相应的推断P0.首先,(A,C,E;P0)是一个纳什均衡,因为任何一个参与人都不可能通过单独改变自己的策略使自己的支付得到改善;其次,用要求1到要求3来衡量它也是满足的。但是,它却不是子博弈完美的,因为该博弈只有惟一的子博弈,并且根据上面的分析,它的惟一的纳什均衡是(C,F),而不是(C,E)。第17页,共51页。产生这矛盾的原因就在于要求4没有满足。在(A,C,E;P0)下,均衡路径就是第一阶段参与人1选择A,博弈结束,参与人2和3的策略C和E及推断P0都不在均衡路径上,即存在均衡存在均衡路径之外的信息集路径之外的信
16、息集,对于参与人3在该信息集上的推断P0,要求1到要求3没有任何的限制,而根据要求4,参与人3的推断决定于参与人2的合理选择:如果参与人2选择C,则参与人3的推断必须是P1,如果参与人2选择D,则参与人3的推断必须是P0。纳什均衡(A,C,E;P0)中,恰恰就是参与人3的推断P0与参与人2的选择C不相符合。因此,以要求1来衡量,纳什均衡(A,C,E;P0)是不合理的均衡(主要是推断不合理),应该予以剔除。第18页,共51页。上述四个要求中,要求2要求参与人在一个特定信息集上的行动依赖于参与人在该信息集的推断,而要求3或要求4又要求参与人的推断依赖于博弈树更上端的参与人的行动,但要求2又要求这些
17、在博弈树上更上端的参与人的行动部分地依赖于随后参与人的行动。这样的循环依赖意味着通过博弈树进行逆推归纳求解,精炼贝叶斯纳什均衡将不像在完全且完美信息动态博弈中确定子博弈精炼纳什均衡那样顺利(般情况而言)。事实上,要求1到要求4为我们提供了确定精炼叶斯纳什均衡的思路和方法,我们以这四个要求为依据和标准并结合具体的特点来分析确定精炼贝叶斯纳什均衡。要求1:在每一个信息集上,轮到行动的参与人必须对博弈进行到该信息集中各个决策节点的可能性大小有一个推断。要求2:给定参与人的推断和其他参与人的选择,每个参与人的战略是最优的要求3:在处于均衡路径之上的信息集中,推断由贝叶斯法则及参与人的均衡战略给出要求4
18、:对处于均衡路径之外的信息集,推断由贝叶斯法则以及可能倩况下的参与者的均衡战略决定。第19页,共51页。第20页,共51页。二、信号博弈及其应用举例q 信号博弈(signaling games)第21页,共51页。第22页,共51页。接收者战略1.如果发送者选择信号m1,选择行动a1;如果发送者选择信号m2,选择行动a1;2.如果发送者选择信号m1,选择行动a1;如果发送者选择信号m2,选择行动a2;3.如果发送者选择信号m1,选择行动a2;如果发送者选择信号m2,选择行动a1;4.如果发送者选择信号m1,选择行动a2;如果发送者选择信号m2,选择行动a2;发送者战略1.如果自然赋予类型t1,
19、选择信号m1;如果自然赋予类型t2,选择信号m1;2.如果自然赋予类型t1,选择信号m1;如果自然赋予类型t2,选择信号m2;3.如果自然赋予类型t1,选择信号m2;如果自然赋予类型t2,选择信号m1;4.如果自然赋予类型t1,选择信号m2;如果自然赋予类型t2,选择信号m2;第23页,共51页。(1)混同)混同(pooling)战略:战略:指信号发送者在指信号发送者在不同类型下部发出相同的信号不同类型下部发出相同的信号。因而,信。因而,信号接收者无法从观测到的信号中得到新的信息,也就无法对先验概率进行修正。号接收者无法从观测到的信号中得到新的信息,也就无法对先验概率进行修正。信号博弈战略可以
20、划分为三类(3)分离(separating)战略:指信号发送者针对不同的类型完全选择不同的信号。这类策略中,信号准确地表现类型,接收者可以通过所观测到的信号准确地判断出发送者的类型。(2)准分离(semi-separating)战略:指信号发送者对某些类型选择特定的信号,而对另些类型则随机地选择信号。这时,信号接收者观测到某些信号能够准确地判断出发送者的类型,而观测到另外某些信号时尽管不能完全判断出发送者的类型,但是能够据以修正自己的先验概率。第24页,共51页。q 信号传递博弈精练贝叶斯均衡第25页,共51页。第26页,共51页。如果发送者的战略是混同的或准分离的、分离的,我们就称均衡分别为
21、混同的或准分离的、分离的均衡。第27页,共51页。注:表示类型,m()是参与人1的类型依存信号战略,a(m)是参与人2的行动战略第28页,共51页。第29页,共51页。第30页,共51页。第31页,共51页。q 信号博弈应用举例 例1 股权换投资第32页,共51页。qsLpq)(,即RHqqLrIs)1()1(即时,才会接受s。第33页,共51页。1、考察该信号博弈中在什么条件下存在混同均衡。即:企业不管实际的是H还是L,都出s,而投资者接受。首先,对企业来说,s是其均衡战略必须满足。,就一定满足满足,所以如果因为RLRRLRRsHRssRHR其次,只有当RHqqLrIs)1()1(时,接受s
22、才是投资者的均衡战略。“因此企业出s,投资者接受”及相应判断成为混同贝叶斯均衡的前提条件是)()1()1(RHRsRHqqLrI取使这个条件成立的s数值,就能以这个s为基础构成混同精炼贝叶斯均衡。第34页,共51页。衡才有可能。时,混同精炼贝叶斯均时,只有当、当LH)1()1(R12RrIrIq q为投资者判断该企业为低利润的概率,因此上述结论意味着:当投资者相信企业的盈利能力强时,他会接受较低的股权比例,也就是较高的股价;而当投资者不大相信企业有高盈利能力时,他必然会要求较高的股权比例,也就是只能接受较低的股价。因此,在这种混同精炼贝叶斯均衡中,企业将为无法使投资人相信它有高盈利能力而付出代
23、价。因此对一个经营良好的企业来说,提高经营情况的透明度和保持良好的公众形象是非常重要的。)1(R HRH)1()1()1(01rIRRrIRHqqLrIq 时,、当(*)式自然成立,意味着必然存在混同精炼贝叶斯均衡。)()1()1(RHRsRHqqLrI第35页,共51页。为为q=p有可能。混同精炼贝叶斯均衡才时,只有当当 (4.2.14)LH)1()1(R1RrIrIq第36页,共51页。2、探讨该信号博弈中分离均衡)()1()1(RHRsRHqqLrI,所以投资者会接受因为RHqqL)1(RL而高利润类型企业的要约为RHrIs/)1(,所以投资者不会接受因为RHqqLH)1(R这个分离均衡
24、很显然是无效率的,投资水平无效率地降低了:第37页,共51页。例2 劳动市场信号博弈 Job Market Signaling:Michael Spence-1973此博弈中,的竞争必然是其期望收益趋近于0。,因此两个企业本博弈中工人受教育的程度为市场信号,且为三方博弈。第38页,共51页。建模1.假设两个企业同时作为信号接收方,并且他们之间的竞争会使其所出工资率接近于工人的劳动生产率;2.假设两个企业在观察到工人受教育的程度e以后,对工人的能力有相同的判断:)(1)L()(eHeeH和3.于是,两个企业愿意给出的工资率为:),()(1(),()()(eLyeHeHyeHew第39页,共51页
25、。4.当工人的能力在所有参与者之间是共同知识时,这是一个完全信息博弈问题。这种情况下,企业所制定的工资水平为:),()(eyew因此能力为的工人选择满足下式的e:),(),(eCeyMaxe第40页,共51页。假设工人的能力是私人信息。这给低能力的工人提供了冒充高能力的工人的机会,伪装的方法是接受较多的教育,这样做是否合算取决于伪装的代价,也就是受教育的成本,与获得较高工资相比是否合算。)(,)()(,)(HeLcHwLeLcLw显然,当)(,)()(,)(HeLcHwLeLcLw时,低能力工人会选择接受较多教育,伪装成高能力;而在时,则低能力工人最好还是老实承认低能力,选择接受较低工资,不应
26、该得不偿失地盲目追求高教育,高学历。这一模型存在3类精炼贝叶斯均衡:混同、分离以及准分离(杂合、混合)。第41页,共51页。混同均衡(4.2.1),()(1(),()()(eLyeHeHyeHew个判断是根据贝叶斯法则和工人的策略形成的,因此符合精炼贝叶斯均衡的要求。两企业在观察到 ep 以后根据上述判断,选择的均衡水平必须为:(4.2.2),()1(),()(eLyqeHyqewp第42页,共51页。e衡战略。就是混同精炼贝叶斯均满足该不等式时,都型工人的理性的,而如果两种类时,工人的选择是序贯因此,上述不等式成立。取最大值的时,工人应选择使,而且时,工人选择因此,当。肯定大于而且时,时,由
27、于只有当ppppppppppeeyeeceLyeceLyeceweeceLyeceweLyeweLyeweeewewee,),(),(),(),(),()(),(),(),()(),()(),()()()(第43页,共51页。什么情况下存在分离均衡?(4.2.1),()(1(),()()(eLyeHeHyeHew第44页,共51页。因此,上述不同类型工人分别选择不同的教育水平,企业给出不同的工资,以及相应的推断,构成一个分离精炼贝叶斯均衡。上述混同均衡和分离均衡都是纯战略精炼贝叶斯均衡,除了这两种均衡以外,本博弈也存在准分离战略的精炼贝叶斯均衡。准分离均衡一般是高能力类型工人选择同样的教育水平
28、,而低能力类型的工人则在与高能力工人相同的教育水平,以及某种不同的教育水平之间随机选择。第45页,共51页。q 均衡精炼均衡精炼 以往所讨论的任何一种均衡概念都不能在保证存在性的同时保证惟一性,由此产生的均衡多重性是博弈论面临的一个难题。对此,目前的解决方法是:无沦采用哪一种均衡概念,在对应的多个均衡中利用特定的评价标准,可能能够分辨出其中一些是合理的,而另一些是不合理的。通过评价标准的设定就可以剔除相应不合理的均衡:这种方法被称为均衡的精炼。即通过剔除在对应标准下不合理的均衡来减少均衡的数目,如子博弈精炼纳什均衡就是纳什均衡的精炼。第46页,共51页。q 序贯均衡序贯均衡1、序贯均衡的概念是
29、由克瑞普斯和威尔逊(1982)首先提出的。它的原理与精炼贝叶斯一纳什均衡相似,也应用于动态贝叶斯博弈,但更着重强调非均衡路径上后验概率的形成,对参与人随着博弈的进行修正自己信念的方式作了更加严格的要求,认为参与人的行动必须由对行动历史的信念合理化决定。2、序贯均衡对非均衡路径上后验概率的处理是:首先假定在每个信息集上,参与人选择严格混合策略(即以严格正的概率选择每一个行动),从而博弈到达每一个信息集的概率严格为正,这样贝叶斯公式在每一个信息集上都可以适用而不会出现后验概率任意取位的情况;然后,将均衡作为这种严格混合策略和相应后验概率的序列的极限,而能够成为这种极限的均衡就是序贯均衡。第47页,
30、共51页。q 颤抖手均衡颤抖手均衡1、其基本思想是:在任何一个博弈中,每一个参与人均有可能犯错误,如同一个人抓东西时因手的颤抖使其发生偏差而抓不住一样(这种均衡概念的名称即来源于此),这样参与人在选择策略时就需要考虑到其他参与人犯错误的可能性,这样的均衡比纳什均衡概念更为合理。2、泽尔滕将非均衡事件的发生解释为参与人策略选择时的“颤抖”,参与人发现博弈偏离均衡时,他将这一事件归结为某一个其他参与人的非蓄意错误。在发生颤抖的博弈中参与人要针对这些颤抖作出最佳反应,从而构成了纳什均衡。当颤抖的幅度缩小时,被颤抖扰动的博弈中均衡的极限就是颤抖手均衡。颤抖手均衡要求均衡策略不仅是对对手策略的最佳反应,
31、而且是当对手策略发生微小(或无限小)颤抖时的最佳反应;第48页,共51页。3、缺陷:这样定义的颤抖手均衡仍然有缺陷,将它应用到动态博弈对应的策略型描述时,就会出现颤抖手均衡不是子博弈完美均衡的情况。这是由于动态博弈的策略型描述中,同一参与人在动态博弈不同阶段的错误(颤抖)具有相关性,从而不能剔除子博奔完美均衡概念所揭示的不合理的均衡。于是,在经济学上,为了排除参与人犯错误时的动态相关性,泽尔滕引人了“代理人一策略型表述”,也就是将原来的参与人作为委托人、他在不同信息集上雇佣了不同的代理人,授权后者进行决策:代理人的支付函数与委托人相同,按委托人的利益行动,但是各代理人间彼此独立行动,这样犯错误
32、的可能性就是独立的,从们消除了颤抖的动态相关性。通过这种方法就改进了颤抖手均衡的概念,与子博弈完美均衡不再矛盾。第49页,共51页。q 均衡精炼均衡精炼 均衡精炼是博弈论中的一个重要专题,出现过多种多样的精炼均衡概念。梅耶森(1978)提出的恰当均衡即为其中之一,其思路是:在颤抖手均衡中,假设参与人在各个方向上犯错误的可能性相同,而实际上,参与人犯错误的后果并不相同,错误选样一种策略可能比错误选择另一种策略带来更大的损害,所以参与人会尽量避免代价大的错误。考虑到这种心理就形成了恰当均衡的概念。第50页,共51页。q 均衡精炼均衡精炼 均衡精炼至今仍处于发展之中,且不断有新的均衡概念出现,不过目前还是以进行理论讨论为主:在实际中应用较多的还是我们在前面所介绍的四种均衡概念,即:1.完全信息静态博弈中的纳什均衡2.完全信息动态博弈中的子博弈精炼纳什均衡3.不完全信息静态博弈中的贝叶斯一纳什均衡4.不完全信息动态博弈中的精炼贝叶斯一纳什均衡第51页,共51页。