1、 一、动态博弈的特例:决策分析 二、博弈的扩展式表述 三、动态博弈的均衡 四、子博弈精炼纳什均衡 五、应用举例 六、重复博弈 作为一名管理者,面临的最基本和最重要的任务也许就是做决策。可是,有时决策是很困难的,特别是处于不确定环境中,或者在一个决策之后还要做进一步决策的时候。有没有一般的模式或方法可循?决策分析就提供了一种系统而有效的方法,其基本工具是决策树。例例1:合同纠纷:合同纠纷 甲、乙双方在签订一项合同后,乙方违约。乙方提出和解,愿意赔偿7万元。甲方如果上法庭,可望获得10万元赔偿,但要付出2万元的诉讼费用。甲方应当接受和解还是上法庭?决策树逆向归纳法逆向归纳法 从右往左逐步分析。在这
2、个过程中:对于机会结,计算期望收益,并将相应的值写在该结下面。对于决策结,还是做两件事:第一,在较劣的决策枝上划叉;第二,将对应于最优决策枝的收益写在该决策结下面。一旦某个结点下面标了值,在以后进一步分析该结点的父结点时,就只考虑该结点的值而不再考虑其右边的子决策树。例例3:交通事故和解谈判:交通事故和解谈判 在一次交通事故中,被告同意赔偿4万元以和解。原告如果坚持上法庭,需要花1万元的诉讼费,有可能出现三种结果:结果1:得到包括误工费在内总额为10万元的赔偿,概率为50%;结果2:仅得到2万元的修车费赔偿,概率为30%;结果3:得不到任何赔偿,概率为20%。甲方应当接受和解还是上法庭?例例4
3、:购买土地:购买土地 某人打算购买土地,现有A、B两块地可以选择。A、B两块地的售价分别为30万元和25万元。这两块地看起来差不多,所以买方起初打算购买价格更便宜的B。但是,买方进一步了解得知,B可能存在环境问题,因为该地过去被堆放过大量垃圾,而A不存在类似问题。如果B被危险垃圾污染,依照法律规定,买方必须进行无害化处理,成本为20万元。买方估计,B被危险垃圾污染的概率为50%。在决定到底买哪块地之前,买方也可以先请环保机构进行检测,看到底是否需要进行无害化处理,检测费为2万元。买方是否需要先请环保部门监测?还是直接购买A或B?首先考虑,买方在开始有几种选择?1、博弈的扩展式表述、博弈的扩展式
4、表述 参与者 每个参与者在何时行动 每次轮到某一参与者行动时,可供他选择的行动 每次轮到某一参与者行动时,他所了解的信息 对应于参与者可能选择的每一行动组合,各个参与者的收益 通常可以用博弈树来描述博弈的扩展式(请与决策树比较):例例5:简单诉讼博弈:简单诉讼博弈 甲、乙双方在签订一项合同后,乙方违约。甲方可以选择控告,并索赔8000元,但控告需要花3000元诉讼费;甲方也可以选择忍受,一切维持现状。一旦甲方控告并提出索赔,乙方可以提出和解并赔偿8000元;乙方也可以选择上法庭。如果上法庭,甲方将胜诉,乙方将被判赔偿9000元,且双方各需要支出2000元的诉讼费。甲方应当控告还是忍受?博弈树
5、通过引入机会结,我们也可以纳入存在不确定性的情况,如下图:博弈树 2、信息集、信息集 参与者的一个信息集是指满足以下两个条件的决策结的集合:在此信息集中的每一个结点都轮到该参与者行动。当博弈的进行达到该信息集中的一个结,应该行动的参与者并不知道达到了信息集中的哪一个结。3、策略、策略 参与者的一个策略是关于行动的一个完备计划,它明确了在参与者可能遇到的每一种情况下对可行行动的选择。思考思考:在下面的博弈中,两个参与者各自的策略空间分别是什么?4、扩展式表述与标准式表述、扩展式表述与标准式表述 任何博弈都既可用标准式表述,又可用扩展式表述。(1)用扩展式表述囚徒困境博弈(第1讲中的例1)第第1讲
6、之例讲之例1:囚徒困境:囚徒困境囚徒囚徒2抵赖招认囚徒囚徒1抵赖-1,-1-9,0招认0,-9-6,-6(2)用标准式表述例6中的博弈 1、利用标准式表述求纳什均衡、利用标准式表述求纳什均衡 2、在博弈树上找纳什均衡、在博弈树上找纳什均衡 1、可置信的威胁与不可置信的威胁、可置信的威胁与不可置信的威胁 一种威胁所规定的行动在事前看来是最优的,但事后看并不是参与者的最优选择,这种威胁就是不可置信的,含有这种威胁的策略就不是一个合理的策略。例例7:台湾问题:台湾问题 2、承诺、承诺 在博弈论中,所谓承诺是将不可置信的威胁变成可置信的威胁的行动:威胁不仅是事前最优的,也是事后最优的。承诺意味着限制自
7、己的自由:选择少反而对自己好。比如例7中的台湾问题:立法还是政府随机应变?3、子博弈、子博弈 扩展式博弈中的子博弈是指博弈的一部份,要求:始于博弈树中一个单结信息集的决策结,但不包括博弈的第一个决策结;包含该决策结之下所有的决策结和终点结;没有分割任何信息集。4、子博弈精炼纳什均衡、子博弈精炼纳什均衡 如果参与者的策略组合在每一子博弈中都构成纳什均衡,则称该策略组合是子博弈精炼纳什均衡。子博弈精炼纳什均衡排除了不可置信的威胁。参看例6。5、逆向归纳法、逆向归纳法 从最后一个决策结开始,找出该子博弈的纳什均衡;然后再分析倒数第二个决策结,找出相应子博弈的纳什均衡;如此一直到初始决策结,所有子博弈
8、上的最优选择就构成了子博弈精炼纳什均衡。例例 8121(2,0)(5,0)(4,2)(1,1)UDRLUD例例9:简单诉讼博弈(续)简单诉讼博弈(续)我们将例5中的收益数字改一下,变为下面的博弈,会出现什么结果?博弈树例例10:诉讼博弈:诉讼博弈 对于下面的博弈,如果Y=7千元,原告的最优策略是什么?博弈树例例11:诉讼博弈(续):诉讼博弈(续)对于下面的博弈,原告的最优策略是什么?博弈树 6、均衡、均衡路径与解、均衡、均衡路径与解 一个均衡均衡是各参与者的策略组合,而策略又是完备的(即针对所有可能情况的)行动计划。精炼纳什均衡下所经过的决策点和最优选择构成的路径,称为均衡路径均衡路径。其他的
9、路径是非均衡路径非均衡路径。一个解解则指一条均衡路径,即在给定的策略组合下各参与者的实际行动组合。例例 8121(2,0)(5,0)(4,2)(1,1)UDRLUD 7、逆向归纳法背后的理性假定、逆向归纳法背后的理性假定 在例 8 中,均衡结果依赖于非均衡路径上的选择:参与者 1 之所以起初就选择 U,是因为他预期如果选择 D 的话,参与者 2 将选择 L;而 2 之所以选择 L,是因为她预期如果选择 R 的话,参与者 1 将选择 U。可是,只有在 1 偏离了博弈的逆向归纳解之后才能轮到 2 行动,而这时 2 似乎不能认为 1 是理性的了,从而 2 未必就会选 L。逆向归纳出问题了?例例12:
10、诉讼博弈:诉讼博弈 在例11的诉讼博弈中,被告如何利用承诺以扭转局势?例例13:投票问题:投票问题 三个选民(1、2、3)要就三个备选方案(A、B、C)进行投票。议程为,首先就A和B两个方案进行投票决定优胜者,然后在前面的优胜者与C之间进行投票。各人的偏好顺序如下表所示。以上信息为共同知识。请你分析各人的投票策略,最终哪个方案被选中呢?第一偏好第二偏好第三偏好选民选民1ABC选民选民2BCA选民选民3CAB 例例14:斯特尔伯格双头垄断模型:斯特尔伯格双头垄断模型 例例15:国家之间的关税协定:国家之间的关税协定 例例16:连锁店问题:连锁店问题 如果博弈不是一次性的,而是重复进行的,参与者过
11、去行动的历史是可以观察到的,参与者就可以根据对手过去的行动来决定自己的选择,因而有了更多的可选策略,均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。1、有限次重复博弈、有限次重复博弈 以 G(T)表示阶段博弈 G 重复 T 次的有限次重复博弈,并且在下一阶段博弈开始之前,所有以前博弈的结果都可被观测到。G(T)的收益为 T 次阶段博弈收益的简单相加。命题一:命题一:如果阶段博弈 G 有唯一的纳什均衡,则对任意有限的 T,重复博弈 G(T)有唯一的子博弈精炼解,即 G 的纳什均衡结果在每一阶段重复出现。命题二:命题二:当阶段博弈 G 为完全信息动态博弈
12、时,只要 G 有唯一的逆向归纳解,那么对任意有限的 T,重复博弈 G(T)有唯一的子博弈精炼解,其中每一阶段的结果都是 G 的逆向归纳解。命题三:命题三:如果阶段博弈 G 是一个有多个纳什均衡的完全信息静态博弈,则重复博弈 G(T)可以存在这样的子博弈精炼解除最后那个阶段外,各个阶段的结果都不是 G 的纳什均衡结果。例例17:两阶段重复博弈:两阶段重复博弈 考虑下表所示的阶段博弈重复两次,参与者在第二阶段开始前可以观测到第一阶段的结果。我们可以证明在这一重复博弈中存在一个子博弈精炼解,其中第一阶段的行动组合为(M,M)。乙L M R甲L1,15,00,0M0,54,40,0R0,00,03,3
13、例例18:两阶段重复博弈:两阶段重复博弈乙L M R P Q甲L1,15,00,00,00,0M0,54,40,00,00,0R0,00,03,30,00,0P0,00,00,04,0.50,0 2、无限次重复博弈、无限次重复博弈 即使阶段博弈 G 有唯一的纳什均衡,无限次重复博弈中也可以存在这样的子博弈精炼解,其中没有一个阶段的结果是 G 的纳什均衡结果。(1)无限次重复博弈的定义)无限次重复博弈的定义 给定一个阶段博弈G,以G(,)表示相应的无限次重复博弈,其中 G 将无限次地重复进行,且参与者的贴现因子都为。并且在下一次博弈开始之前,所有以前博弈的结果都可被观测到。每个参与者在 G(,)
14、中的收益都是该参与者在无限次的阶段博弈中所得收益的现值。(2)阶段博弈的保留收益与可行收益)阶段博弈的保留收益与可行收益 (3)弗里德曼定理)弗里德曼定理 令 G 为一个有限的完全信息静态博弈,以(e1,en)表示 G 的一个纳什均衡下的收益,而(x1,xn)表示 G 的其他任何可行收益。如果对每个参与者 i 都有xi ei,且 足够接近于1,则无限次重复博弈 G(,)存在一个子博弈精炼纳什均衡,其平均收益可达到(x1,xn)。(4)不确定性下的适度惩罚)不确定性下的适度惩罚 在确定的情况下,惩罚越严厉,越有助于合作。由于在均衡中欺骗行为并不发生,所以惩罚实际上是没有成本的。但在不确定的情况下,即使每个参与者都选择合作,“坏结果”也可能会出现。如果坏结果总是触发惩罚,就会冤枉好人,过重的惩罚可能导致不合作;但如果总是原谅,合作也不会发生。