完全信息动态博弈课件.ppt_163文库

资源描述

1、第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡n三应用举例博弈的战略表述案例-房地产开发项目-假设有A、B两家开发商市场需求：可能大，也可能小投入：1亿v假定市场上有两栋楼出售：需求大时，每栋售价1.4亿，需求小时，售价7千万；v如果市场上只有一栋楼需求大时，可卖1.8亿需求小时，可卖1.1亿博弈战略表述40004000，4000400080008000，0 00 0，800080000 0，0 0不开发开发商A开发不开发开发-3000-3000，-3000-300010001000，0 00 0，100010000 0，0 0不开发开发商B开发商

2、A开发不开发开发开发商B需求小的情况需求小的情况需求大的情况需求大的情况博弈的战略式表述一博弈扩展式表述n博弈的扩展式表述包括三个要素:n参与人集合n每个参与人的战略集合n由战略组合决定的每个参与人的支付进入者进入不进入（0，300）在位者市场进入阻挠博弈树不可置信威胁合作（40，50）斗争（-10，0）A开发不开发NN大小1/21/2大小1/21/2BBBB开发不开发开发不开发开发不开发开发不开发(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)参与人(A,B,N)战略支付参与人集合参与人行动顺序参与人的行动空间参与人的信息集参与人的支付函数外生事件的概率

3、分布房地产开发博弈结,决策结结,终点结枝结,初始结信息集一博弈扩展式表述博弈的基本构造l结:包括决策结和终点结两类;决策结是参与人行动的始点,终点结是决策人行动的终点.结满足传递性和非对称性x之前的所有结的集合，称为x的前列集P（x），x之后的所有结的集合称为x的后续集T（x）。l枝:枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择.l信息集:每个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:1 每个决策结都是同一个参与人的决策结;2 该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结.A开发不开发NN大小1/21/2大小1

4、/21/2BBBB开发不开发开发不开发开发不开发开发不开发(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)B在决策时不确切地知道自然的选择;B的决策结由4个变为2个房地产开发博弈A开发不开发NN大小1/21/2大小1/21/2BBBB开发不开发开发不开发开发不开发开发不开发(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)B知道自然的选择;但不知道A的选择(或A、B同时决策)房地产开发博弈一博弈扩展式表述n只包含一个决策结的信息集称为单结信息集，如果博弈树的所有信息都是单结的，该博弈称为完美信息博弈。n自然总是假定是单结的

5、，因为自然在参与人决策之后行动等价于自然在参与人之前行动但参与人不能观测到自然的行动。n不同的博弈树可以代表相同的博弈，但是有一个基本规则：一个参与人在决策之前知道的事情，必须出现在该参与人决策结之前。AB坦白抵赖BBAA坦白抵赖坦白抵赖(-8,-8)(0，-10)(-10,0)(-1,-1)坦白抵赖坦白抵赖坦白抵赖(-8,-8)(0，-10)(-10,0)(-1,-1)囚徒困境博弈的扩展式表述囚徒困境博弈的扩展式表述智猪博弈的扩展式表述？5，14，49，-10，0等待小猪大猪按等待按案例2-智猪博弈第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡扩展

6、式表述博弈的纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题n三应用举例博弈的划分博弈的划分：n从参与人行动的先后顺序：静态博弈和动态博弈n静态博弈：参与人同时选择行动或非同时行动但后行动者并不知道前行动者采取了什么具体行动；n动态博弈：参与人行动有先后顺序，且后行动者能够观察先行动者选择的行动。博弈的划分参与人对其他参与人（对手）的特征、战略空间及支付函数的知识：完全信息博弈和不完全信息博弈。v完全信息：每一个参与人对所有其他参与人的（对手）的特征、战略空间及支付函数有准确的知识，否则为不完全信息。n博弈的划分

7、：行动顺序信息静态动态完全信息完全信息静态博弈纳什均衡纳什（1950，1951）完全信息动态博弈子博弈精练纳什均衡泽尔腾（1965）不完全信息不完全信息静态博弈贝叶斯纳什均衡海萨尼（1967-1968）不完全信息动态博弈精练贝叶斯纳什均衡泽尔腾（1965）Kreps 和Wilson(1982)Fudenberg 和Tirole(1991)完全信息静态博弈的特点？占优均衡DSE重复剔除占优均衡IEDE纯战略纳什均衡PNE混合战略纳什均衡MNE完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n考虑下列问题：n一个博弈可能有多个（甚至无穷多个）纳什均衡，究竟哪个更合理？n纳什均衡假定每一个参与

8、人在选择自己的最优战略时假定所有其他参与人的战略是给定的，但是如果参与人的行动有先有后，后行动者的选择空间依赖于前行动者的选择，前行动者在选择时不可能不考虑自己的行动对后行动者的影响。n子博弈精练纳什均衡的一个重要改进是将“合理纳什均衡”与“不合理纳什均衡”分开。完全信息动态博弈-子博弈精练纳什均衡（举例）泽尔腾（1965）进入者进入不进入（0，300）在位者合作（40，50）斗争（-10，0）市场进入阻挠博弈树特点：剔除博弈中包含的不可置信威胁。承诺行动-破釜沉舟-背水一战v给定进入者进入，剔除（进入，斗争），（进入，默许）是唯一的子博弈精练纳什均衡不可置信威胁支付函数行动举例（结婚-反对）

9、文君父亲（1，1）与司马断绝关系断绝父女关系（-1，1）（-1，-1）结婚默认二子博弈精练纳什均衡n一个纳什均衡称为精练纳什均衡，当只当参与人的战略在每个子博弈中都构成纳什均衡，也就是说，组成精练纳什均衡的战略必须在每一个子博弈中都是最优的。n一个精练纳什均衡首先必须是一个纳什均衡，但纳什均衡不一定是精练纳什均衡。n承诺行动-当事人使自己的威胁战略变得可置信的行动。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的一个合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规则

10、在每一个信息集上是最优的。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）曹操与袁绍的仓亭之战，曹操召集将领来献破袁之策，程昱献了十面埋伏之计，他让曹操退军河上，诱袁前来追击，到那时“我军无退路，必将死战，可退袁矣”。曹操采纳此计，令许褚诱袁军军至河上，曹军无退路，操大呼曰：“前无去路，诸军何不死战！”，众军奋力回头反击，袁军大败。第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡扩展式表述博弈的纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题n三应用举例战略的表述战略

11、：参与人在给定信息集的情况下选择行动的规则，战略：参与人在给定信息集的情况下选择行动的规则，它规定参与人在什么情况下选择什么行动，是参与人它规定参与人在什么情况下选择什么行动，是参与人的的“相机行动方案相机行动方案”。个人选择的战略表示第）称为一个战略组合，（维向量战略，个参与人每人选择一个如果战略集合个参与人所有可选择的代表第个参与人的特定战略表示第issssssnnisSisiniiii21在静态博弈中，战略和行动是相同的。作为一种行动规则，战略必须是完备的。扩展式表述博弈的纳什均衡足球男足球芭蕾女女芭蕾足球芭蕾(1,2)(-1，-1)（0，0)(2,1)xx男的策略：足球，芭蕾选择足球；

12、还是选择芭蕾。女的策略：（足球，芭蕾），（芭蕾，足球）（芭蕾，芭蕾），（足球，足球）1、追随策略：他选择什么，我就选择什么2、对抗策略：他选择什么，我就偏不选什么3、芭蕾策略：不管他选什么，我都选芭蕾；4、足球策略：不管他选什么，我都选足球。策略即：如果他选择什么，我就怎样行动的相机行动方案。在扩展式博弈里，参与人是相机行事，即“等待”博弈到达一个自己的信息集（包含一个或多个决策结后，再采取行动方案。o什么是动态博弈？扩展式表述博弈的纳什均衡n若A先行动，B在知道A的行动后行动，则A有一个信息集，两个可选择的行动，战略空间为:(:(开发，不开发）开发，不开发）；nB有两个信息集，四个可选择的行

13、动，B有四个纯战略：n开发策略：不论开发策略：不论A A开发不开发，我开发；开发不开发，我开发；n追随策略：追随策略：A A开发我开发，开发我开发，A A不开发我不开发；不开发我不开发；n对抗策略：对抗策略：A A开发我不开发，开发我不开发，A A不开发我开发；不开发我开发；n不开发策略不论不开发策略不论A A开发不开发我不开发，开发不开发我不开发，n简写为：简写为：n（开发，开发），（开发，不开发），（开发，开发），（开发，不开发），（不开发，开发），（不开发，不开（不开发，开发），（不开发，不开发），发），括号内的第一个元素对应A选择“开发”时B的选择，第二个元素对应A选择“不开发”时B的

14、选择。A开发不开发BB开发不开发开发(-3,-3)(1，0)（0，1)(0,0)不开发xx什么是参与人什么是参与人的战略？的战略？扩展式扩展式-3,-3-3,-31,01,00,10,00,10,0开发,开发开发,不开发不开发,开发不开发,不开发开发不开发开发商开发商B B开发商开发商A A战略式战略式A开发不开发BB开发不开发开发(-3,-3)(1，0)（0，1)(0,0)不开发xx开发,(开发,不开发)纳什均衡与均衡结果：纳什均衡与均衡结果：存在三个纯战略纳什均衡：存在三个纯战略纳什均衡：(不开发，（开发，开发），不开发，（开发，开发），（开发，（不开发，开发），（开发，（不开发，开发），

15、（开发（开发,（不开发，不开发）（不开发，不开发）两个均衡结果：两个均衡结果：（开发，不开发）（开发，不开发）（不开发，开发）（不开发，开发）注意：均衡不同于均衡结果注意：均衡不同于均衡结果扩展式扩展式-3,-3-3,-31,01,00,10,00,10,0开发,开发开发,不开发不开发,开发不开发,不开发开发不开发开发商开发商B B开发商开发商A A战略式战略式A开发不开发BB开发不开发开发(-3,-3)(1，0)（0，1)(0,0)不开发xx开发,(开发,不开发)路径路径在扩展式博弈中，所有在扩展式博弈中，所有n n个参与人个参与人的一个纯战略组合决定了博弈树的一个纯战略组合决定了博弈树上的

16、一个路径。上的一个路径。（开发，（开发，不开发，开发不开发，开发）决定）决定了博弈的路径为了博弈的路径为AA开发开发BB不不开发开发-（1 1，0 0）（不开发，（不开发，开发，开发开发，开发）决定）决定了路径：？了路径：？第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡扩展式表述博弈的纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题n三应用举例子博弈精炼纳什均衡n泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的一个

17、合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规则在每一个信息集上是最优的。子博弈精炼纳什均衡-不可置信威胁n美国普林斯顿大学古尔教授在2019年的经济学透视里发表文章，提出一个例子说明威胁的可信性问题：n两兄弟老是为玩具吵架，哥哥老是要抢弟弟的玩具，不耐烦的父亲宣布政策：好好去玩，不要吵我，不管你们谁向我告状，我都把你们两个关起来，关起来比没有玩具更可怕。现在，哥哥又把弟弟的玩具抢去玩了，弟弟没有办法，只好说：快把玩具还我，不然我就要去告诉爸爸。各个想，你真要告诉爸爸，我是要倒霉的，可是你不告状不过没有玩具玩，而告了状却要被关禁闭，告状会使你的境遇变得更坏，所以你不会告状，因此

18、哥哥对弟弟的警告置之不理。n的确，如果弟弟是会算计自己利益的理性人，在这样的环境下，还是不告状的好。可见，弟弟是理性人，他的告状威胁是不可置信的。子博弈精练纳什均衡A开发不开发BB开发不开发开发(-3,-3)(1，0)（0，1)(0,0)不开发(不开发，（开发，开发），（开发，（不开发，开发），（开发不开发，（开发，开发），（开发，（不开发，开发），（开发,（不开发，不开发）（不开发，不开发）如果A选择开发，B的最优选择是不开发，如果A选择不开发，B的最优选择是开发，A预测到自己的选择对B的影响，因此开发是A的最优选择。子博弈精练纳什均衡结果是：A选择开发，B选择不开发。xx 对于对于(不开发

19、，（开发，开发），不开发，（开发，开发），这个组合之所以构成纳什均衡，是因这个组合之所以构成纳什均衡，是因为为B B威胁不论威胁不论A A开发还是不开发，他都开发还是不开发，他都将选择开发，将选择开发，A A相信了相信了B B的威胁，不开的威胁，不开发是最优选择，但是发是最优选择，但是A A为什么要相信为什么要相信B B的威胁呢？的威胁呢？毕竟，如果毕竟，如果A A真开发，真开发，B B选择开发选择开发得得-3-3，不开发得，不开发得0 0，所以，所以B B的最优选择的最优选择是不开发。如果是不开发。如果A A知道知道B B是理性的，是理性的，A A将选择开发，逼迫将选择开发，逼迫B B选择不

20、开发。自选择不开发。自己得己得1 1，B B得得0 0，即纳什均衡，即纳什均衡(不开发，不开发，（开发，开发）是不可置信的。因（开发，开发）是不可置信的。因为它依赖于为它依赖于B B的一个不可置信的威胁。的一个不可置信的威胁。同样：同样：（不开发，不开发）也是一（不开发，不开发）也是一个不可置信威胁，纳什均衡（开发个不可置信威胁，纳什均衡（开发,（不（不开发，不开发）是不合理的。开发，不开发）是不合理的。子博弈精练纳什均衡n泽尔腾引入子博弈精练纳什均衡的概念的目的是将那些不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈的一个合理的预测结果，简单说，子博弈精练纳什均衡要求均衡战略的行为规

21、则在每一个信息集上是最优的。n什么是子博弈，什么是子博弈精练纳什均衡？n有没有更好的方法找到子博弈精练纳什均衡？完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n子博弈：是原博弈的一部分，它本身也可以作为一个独立的博弈进行分析：n（1）子博弈必须从一个单结信息点开始：只有决策者在原博弈中确切地知道博弈进入一个特定的决策结时，该决策结才能作为一个子博弈的初始结。如果信息集包含两个以上的决策结，则这两个都不可以作为子博弈的初始结（见下页）。（2）子博弈的信息集和支付向量都直接继承自原博弈，即当x和x在原博弈中属于同一信息集时，他们在子博弈中才属于同一信息集。习惯上，任何博弈的本身称为自身的一

22、个子博弈。A开发不开发XX大小1/21/2大小1/21/2BBBB开发不开发开发不开发开发不开发开发不开发(4,4)(8,0)(-3,-3)(1,0)(0,8)(0,0)(0,1)(0,0)参与人X的信息集不能开始一个子博弈，否则的话，参与人B的信息将被切割。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）不开发A开发不开发BB开发不开发开发(1，0)（0，1)(0,0)(-3,-3)xx不开发开发不开发(1，0)(-3,-3)x开发（0，1)(0,0)x子博弈I子博弈II房地产开发博弈A坦白抵赖BB坦白抵赖坦白(-8,-8)(0，-10)(-10,0)(-1,-1)找出房地产开发博弈的

23、子博弈找出房地产开发博弈的子博弈(不开发，（开发，开发），（开发，（不开发，开发），（开发不开发，（开发，开发），（开发，（不开发，开发），（开发,（不开发，不开发）（不开发，不开发）完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n子博弈精练纳什均衡：扩展式博弈的战略组合是一个子博弈精练纳什均衡，如果:n（1）它是原博弈的纳什均衡；n（2）它在每一个子博弈上给出纳什均衡。A开发不开发BB开发不开发开发(1，0)（0，1)(0,0)(-3,-3)xx房地产开发博弈开发不开发(1，0)(-3,-3)x开发（0，1)(0,0)x子博弈I子博弈II(不开发，（开发，开发），（开发，（不开发，开

24、发），（开发，（不开发，不开发）在c上构成均衡，在b上不构成；在b和c上都构成在c上构成均衡，在b上不构成完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）不开发判断下列均衡结果哪个构成子博弈精练纳什均衡？不开发bc完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n如果一个博弈有几个子博弈，一个特定的纳什均衡决定了原博弈树上唯一的一条路径，这条路径称为“均衡路径”，博弈树上的其他路径称为“非均衡路径”。n纳什均衡只要求均衡战略在均衡路径的决策结上是最优的；n而构成子博弈精练纳什均衡不仅要求在均衡路径上策略是最优的，而且在非均衡路径上的决策结上也是最优的。这是纳什均衡与子博弈精练纳

25、什均衡的实质区别。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n战略是参与人行动规则的完备描述，它要告诉参与人在每一种可预见的情况下（即每一个决策结）上选择什么行动，即使这种情况实际上没有发生（甚至参与人并不预期它会发生）。n因此，只有当一个战略规定的行动规则在所有可能的情况下都是最优的，它才是一个合理的可置信的战略，子博弈精练纳什均衡就是要剔除那些只在特定情况下是合理的而在其他情况下不合理的行动规则。第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡扩展式表述博弈的纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练

26、纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题n三应用举例用逆向归纳法求-子博弈精练纳什均衡1UDL（3，1)(0,0)22，2R 给定博弈达到最后一个决策结，该决策结上行动的参与人有一个最优选择，这个最优选择即该决策结开始的子博弈的纳什均衡倒数第二个决策结，找倒数第二个的最优选择，这个最优选择与我们在第一步找到的最优选择构成一个纳什均衡。如此重复直到初始结。每一步都得到对应于子博弈的一个纳什均衡，并且根据定义，该纳什均衡一定是该子博弈的子博弈的纳什均衡，这个过程的最后一步得到整个博弈的纳什均衡完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n用逆向归纳法求子博弈精练纳什均衡对于

27、有限完美信息博弈，逆向归纳法求解子博弈精练纳什均衡是一个最简便的方法。A开发不开发BB开发不开发开发(1，0)（0，1)(0,0)(-3,-3)xx房地产开发博弈完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）1UDL（1，1)22，0RU（3，0)(0,2)2D 子博弈精练纳什均衡（U，U），L）.U和L分别是参与人1和参与人2在非均衡路径上的选择。逆向归纳法求解子博弈精练纳什均衡的过程，实质上是重复剔除劣战略的过程：从最后一个决策结依次剔除每个子博弈的劣战略，最后生存下来的战略构成精练纳什均衡。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n用逆向归纳法求解的子博弈精练纳什均

28、衡也要求“所有的参与人是理性的”是共同知识。n如果博弈由多个阶段组成，则从逆向归纳法得到的均衡可能并不非常令人信服。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）进入者进入不进入（0，300）在位者市场进入阻挠博弈树不可置信威胁支付函数行动合作（40，50）斗争（-10，0）完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n练习练习:n参与人1（丈夫）和参与人2（妻子）必须独立决定出门时是否带伞。他们知道下雨和不下雨的可能性军委50%，支付函数为：如果只有一人带伞，下雨时带伞者的效用为-2.5，不带伞者的效用为-3不下雨时带伞的效用为-1,不带的效用为0;如两人都不带伞,下雨时每

29、人的效用为-5,不下雨时每人的效用为1;给出下列四种情况下的扩展式及战略式表述:n(1)两人出门前都不知道是否会下雨;并且两人同时决定是否带伞(即每一方在决策时都不知道对方的决策);n(2)两人在出门前都不知道是否会下雨,但丈夫先决策，妻子观察到丈夫是否带伞后才决定自己是否带伞;n(3)丈夫出门前知道是否会下雨,但妻子不知道，但丈夫先决策，妻子后决策;n(4),同(3),但妻子先决策，丈夫后决策.第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二子博弈精练纳什均衡扩展式表述博弈的纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳

30、法与子搏弈精练纳什均衡的存在问题n三应用举例承诺行动与子博弈精练纳什均衡n承诺行动与子博弈精练纳什均衡n有些战略之所以不是精练纳什均衡,是因为它包含了不可置信的威胁战略,如果参与人能在博弈之前采取某种行动改变自己的行动空间或支付函数，原来不可置信威胁将变得可置信,博弈的精练纳什均衡也会随之改变.n这些改变博弈结果而采取的措施称为承诺行动.n完全承诺:承诺可以使某项行动完全没有可能(破釜沉舟).n不完全承诺:承诺只是增加了某个行动的成本而不是使该活动完全没有可能.承诺行动与子博弈精练纳什均衡曹操与袁绍的仓亭之战，曹操召集将领来献破袁之策，程昱献了十面埋伏之计，他让曹操退军河上，诱袁前来追击，

31、到那时“我军无退路，必将死战，可退袁矣”。曹操采纳此计，令许褚诱袁军军至河上，曹军无退路，操大呼曰：“前无去路，诸军何不死战！”，众军奋力回头反击，袁军大败。承诺行动与子博弈精练纳什均衡A开发不开发BB开发不开发开发(1，0)（0，1)(0,0)(-3,-3)xx房地产开发博弈如果在A决策之前,B与某客户签定了一个合同,规定B若不在特定时期内开发若干面积的写字楼,则将支付违约金3.5,这个合同就是承诺行动.(1,-3.5)承诺行动与子博弈精练纳什均衡n经常有这样的情况，非理性-通常是自动的而不是策略性的-是一个优势。n在电影怪爱博士中的末日机器就是一个例子。前苏联认为不可能在一场理性的军备竞

32、赛中超过更富有的美国，所以，他制造了一颗炸弹，如果任何人引爆了这颗炸弹，它将自动炸毁整个世界。着部电影描述了这样一个细节，你必须告诉对方你有这么一个末日机器。n据说前美国总统尼克松曾告诉他的副手哈德蔓，他对这个策略更复杂的看法：我称为疯子理论，我要让北越相信我已经到了无论付出多少都要结束战争的地步，我们只要他听到这样的传闻：“看在上帝的份上，尼克松已经被共产党搞疯了，当他生气的时候，我们没法制止他，他的手已经按在核按纽上了。”胡志明两天之后会到巴黎求和的。完全信息动态博弈-子博弈精练纳什均衡泽尔腾（1965）n练习练习:n参与人1（丈夫）和参与人2（妻子）必须独立决定出门时是否带伞。他们知道下

33、雨和不下雨的可能性均为50%，支付函数为：如果只有一人带伞，下雨时带伞者的效用为-2.5，不带伞者的效用为-3不下雨时带伞的效用为-1,不带的效用为0;如两人都不带伞,下雨时每人的效用为-5,不下雨时每人的效用为1;给出下列四种情况下的扩展式及战略式表述:n(1)两人出门前都不知道是否会下雨;并且两人同时决定是否带伞(即每一方在决策时都不知道对方的决策);n(2)两人在出门前都不知道是否会下雨,但丈夫先决策，妻子观察到丈夫是否带伞后才决定自己是否带伞;n(3)丈夫出门前知道是否会下雨,但妻子不知道，但丈夫先决策，妻子后决策;n(4),同(3),但妻子先决策，丈夫后决策.第三章完全信息动态搏弈

34、 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题多个参与人的情况蜈蚣博弈n四重复博弈和无名氏定理n五应用举例第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题多个参与人的情况蜈蚣博弈n四重复博弈和无名氏定理n五应用举例逆向归纳法与子搏弈精

35、练纳什均衡的存在问题n如果n很大，结果又如何呢？1D(1,1)A2D(1/2,1/2)AiD(1/i,1/i)AnD(1/n,1/n)A多个参与人的情况多个参与人的情况（2,2)如果如果n很大很大对于参与人1，获得2单位支付前提是所有n-1个参与人都选A，否则就要考虑是否应该选择D以保证1的支付。如果给定一个参与人选择A的概率是p1，所有n-1个参与人选择A的概率是pn-1，如果n很大，这个值就很小；另外，即使参与人1确信所有n-1个参与人都选A，他也可能怀疑是否第2个参与人相信所有n-2个参与人都选A。这个链越长，共同知识的要求就越难满足。第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一

36、博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡子博弈精练纳什均衡用逆向归纳法求子搏弈精练纳什均衡承诺行动与子搏弈精练纳什均衡逆向归纳法与子搏弈精练纳什均衡的存在问题多个参与人的情况蜈蚣博弈n四重复博弈和无名氏定理n五应用举例逆向归纳法与子博弈精练纳什均衡的存在问题1D(1,0)A2D(0,2)A2D(N,0)A（0,N+1)A1D(0,N-1)A逆向归纳法的结果：逆向归纳法的结果：一开始，就结束！一开始，就结束！1D(3,0)A2D(0,4)A每个参与人有多个行动机会的蜈蚣博弈每个参与人有多个行动机会的蜈蚣博弈 1、2进行游戏决策，如果1在第一轮决策，得1，2得0，

37、否则进入第二轮，2决策得2，A得0逆向归纳法与子搏弈精练纳什均衡的存在问题1D(1,1)A？2D(0,3)A1D(98,98)A2D(98,101)A另一种蜈蚣博弈另一种蜈蚣博弈（100,100)2D(97,100)A1D(99,99)A 有两个参与人1、2，若第一次1决策结束，1、2都得n，若2决策结束，1得n-1，B得n+2，下一轮从1、1都是n+1开始，共100次，每个参与人有100个决策结。逆向归纳法的结果：逆向归纳法的结果：一开始，就结束！一开始，就结束！1D(2,2)A2D(1,4)A 但是，当你没有预料的事情发生时，比如参与人选择了A，你该如何选择？你的选择应该依赖于应该依赖于你

38、的参与人未来的行为。特别是，你如何修正你队参与人理性程度的评价。逆向归纳法与子搏弈精练纳什均衡的存在问题n逆向归纳法理论没有为当某些未预料到的事情出现时参与人如何形成他们的预期提供解释，这使得逆向归纳法的解释受到怀疑。n弗德伯格等人将偏离行为解释为是由于有关“支付函数”信息的不确定性造成的，即实际的支付函数不同于原来认为的支付函数，从而参与人在观测到未曾预料到的行为时应该修正有关支付函数的信息。n他们认为，任何一个有关博弈行为的理论应该是“完备的”，即理论应该对任何可能的行为赋予正的概率，从而当某件事情出现时，参与人对随后的博弈行为的条件预测总是很好定义的。n泽尔藤将偏离行为解释为参与人在博弈

39、过程中犯的错误，或者说均衡的“颤抖”，即在扩展式博弈隐含了参与人犯错误的可能，如果参与人在每个信息集上犯错误的概率是独立的（因而参与人不会犯系统性的错误），那么，不论过去的行为与逆向归纳法的预测如何不同，参与人应该继续使用逆向归纳法预测从现在开始子博弈的行为。第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈有限次重复博弈无限次重复博弈参与人不固定时的重复博弈n五应用举例重复博弈n一次动态博弈也称为“序贯博弈”。n重复博弈：指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。如囚徒困境。n重复博弈的特征

40、：n1、阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段的结构；2、所有参与人都观测到博弈过去的历史；3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。贴现因子：下一期的一单位支付在这一期的价值。注意：在每个阶段，参与人可同时行动，也可不同时行动。重复博弈因为其他参与人过去的历史总是可以观测到的，因此，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的战略空间远远大于和复杂于每一阶段的战略空间，这意味着，重复博弈可能带来一些“额外”的均衡结果。影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。博弈重复的

41、次数的重要性来源于参与人在短期利益和长远利益之间的权衡。信息的完备性：当一个参与人的支付函数不为其他参与人知道时，该参与人可能有积极性建立一个“好”的声誉以换取长远利益。重复博弈和无名氏定理n有限次重复博弈连锁店悖论进入者进入不进入在位者默许斗争默许(-10，0)（0，300)(0,300)(40,50)xx在位者斗争假定同样的市场上有20个（可以理解为在位者有20个连锁店），进入者每次进入一个市场，博弈就编程了20次重复博弈。假定进入者进入第1个市场，在位者应该如何反应呢？重复博弈和无名氏定理n这个博弈的纳什均衡是什么？n假定博弈共进行10次，结果会如何？n为什么会出现这个结果？n倒推论证

42、法假定现在是第十次，结果和一次博弈一样。第九次，即倒数第二次，局中人已经很清楚，最后一次博弈对方肯定要实行低价，因此，现在如何对他施行好心都不会在下一次得到好报，所以，理性人的“我”没有理由实施高价使对方获益。依次类推。3，36，11，65，5高价企业乙企业甲低价高价低价价格大战中的囚徒困境价格大战中的囚徒困境第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈有限次重复博弈无限次重复博弈参与人不固定时的重复博弈n五应用举例重复博弈n无限次重复博弈n囚徒困境博弈重复无穷次，结果如何？n证明得出，如果参与人有足

43、够的耐心，（抵赖，抵赖）是一个子博弈精练纳什均衡结果）。n冷酷战略（1）开始选择抵赖；（2）选择抵赖一直到有一方选择了坦白，然后永远选择坦白。-8，-80，-10-10，0-1，-1囚徒A囚徒 B坦白抵赖坦白抵赖无限次重复博弈使其走出了囚徒困境，背后的原因是：如果博弈重复无穷次而且每个人有足够的耐心，任何短期机会主义行为的所得都是微不足道的，参与人有积极性为自己建立一个乐于合作的声誉，同时也有积极性惩罚对方的机会注意的行为。n一个男孩被视为傻瓜，因为每当别人拿一枚1角硬币和5分硬币让他选的时候，他总是选5分的，有一个人觉得奇怪，就问他：“为什么你不拿1角钱的？”，男孩小声回答：“假若我拿了1

44、角钱的硬币，下次他们就不会拿钱让我选了。”第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈有限次重复博弈无限次重复博弈参与人不固定时的重复博弈n五应用举例第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈n五应用举例斯坦克尔伯的寡头竞争模型轮流出价的讨价还价模型囚徒的救赎旅行者困境第三章完全信息动态搏弈 -子博弈精炼纳什均衡n斯坦克尔伯的寡头竞争模型企业1企业2v参与人：企业参与人：企业1 1、企业、企业2 2；v行动顺

45、序：企业行动顺序：企业1 1先选择产量先选择产量q q1 1，企业企业2 2观测到观测到q q1 1，然后选然后选择自己的产量择自己的产量q q2 2。v支付：支付：利润，利润是两个企业产量的函数利润，利润是两个企业产量的函数n斯坦克尔伯的寡头竞争模型nqi：第i个企业的产量nC：代表单位不变成本n假定逆需求函数为：n第i个企业的利润函数为：企业1企业22,1),)(),(21icQPqqqii)()(21qqaQP斯坦克尔伯的寡头竞争模型n用你向归纳法求解，首先考虑给定q1的情况下，企业2的最优选择。企业2的问题是：)(),(212212cqqaqqqMax最优化一阶条件意味着：)(21)

46、(1122cqaqSq因为企业1预测到企业2将根据S2（q1）来选择q2，企业1在第1阶段的问题是：)()(,(111211cqSqaqqSqMax)(21*1caq)(41*2caq斯坦克尔伯的寡头竞争模型n均衡结果比较垄断情况下库诺特寡头竞争模型斯坦克尔伯寡头竞争模型产量A：A：B：B：总产量利润A：A：B：B：总利润)(21ca)(31ca)(31ca2)(91ca2)(91ca)(21ca)(41ca2)(81ca2)(161ca2)(41ca)(21ca2)(41ca)(32ca)(43ca2)(92ca2)(163ca斯坦克尔伯的寡头竞争模型n从上述计算可以看出：n斯坦克尔伯的均衡

47、总产量大于库诺特均衡总产量，企业1的斯坦克尔伯的均衡产量大于库诺特均衡产量，企业2的斯坦克尔伯的均衡产量小于库诺特均衡产量。同样，企业1在斯坦克尔伯博弈中的利润大于在库诺特博弈中的利润，企业2的利润却有所下降，这就是所谓的“先动优势”。n 拥有信息优势可能使参与人处于劣势。企业1先行动的承诺价值：企业1之所以获得斯坦克尔伯利润而不是库诺特利润，是因为它的产品一旦生产出来就变成了一种积淀成本，无法改变，从而使企业2不得不承认它的威胁是可置信的。而假如企业1只是宣布了它将生产，企业2是不会相信她的威胁的。)(21ca第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表

48、述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈n五应用举例斯坦克尔伯的寡头竞争模型轮流出价的讨价还价模型囚徒的救赎旅行者困境轮流出价的讨价还价模型n分蛋糕的动态博弈n游戏规则：第一轮由第一个参与人（小鹃）提出条件，第二个参与人小明可以接受，从而游戏结束，也可以不接受，则游戏进入第二轮；小明提出条件，小鹃可以接受，从而结束游戏，也可以不接受，从而进入第三轮；蛋糕融化呈线性，游戏结束，蛋糕融化n第一种情况：假设博弈只有一步，小鹃提出分配方案，如果小明同意，两个人按照约定分蛋糕，如果小明不同意，两人什么也得不到。结果会怎样？轮流出价的讨价还价模型n第二种情况：桌上放了一个冰淇淋蛋糕，但两轮

49、谈判过后，蛋糕将完全融化。博弈结果如何？n第三种情况：桌上的冰淇淋蛋糕在三轮谈判后将完全融化，结果又如何？n第四种情况：桌上的冰淇淋蛋糕在四轮谈判后将完全融化，或者在五轮谈判、六轮,100轮谈判后将完全融化，结果又如何？博弈的结果是：假如“轮数”是偶数，双方各得一半，假若论述是奇数，则小鹃得到（n+1）/2n；小明得到（n-1）/（2n）第三章完全信息动态搏弈 -子博弈精炼纳什均衡n一博弈扩展式表述n二扩展式表述博弈的纳什均衡n三子博弈精练纳什均衡n四重复博弈n五应用举例斯坦克尔伯的寡头竞争模型轮流出价的讨价还价模型囚徒的救赎旅行者困境囚徒的救赎n好莱圬大片肖申克的救赎是一部很好看

50、的电影，主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。我们的“囚犯”也可以通过好的策略合作，摆脱“困境”的诅咒。囚徒的救赎-一报还一报一报还一报能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的行为。如果重复博弈多次，就有报复的机会，这种惩罚的规则是：人家对你怎么做，你就对他怎么做，如果他上次背叛了你，你这次背叛他，如果上次他与你合作，你这次就选择与他合作。艾克谢罗德认为，一报还一报体现了这个策略符合四个优点：清晰、善意、报复性和宽恕性。这一法则不会引发作弊，所以是善意的；它不会让作弊者逍遥法外，所以是报复的；它不会长时间怀恨在心，只要作弊者改正，就愿意恢复合作，所

展开阅读全文