博弈论与公共政策-之完全信息动态博弈课件.ppt_163文库

资源描述

1、一、动态博弈的特例：决策分析二、博弈的扩展式表述三、动态博弈的均衡四、子博弈精炼纳什均衡五、应用举例六、重复博弈作为一名管理者，面临的最基本和最重要的任务也许就是做决策。可是，有时决策是很困难的，特别是处于不确定环境中，或者在一个决策之后还要做进一步决策的时候。有没有一般的模式或方法可循？决策分析就提供了一种系统而有效的方法，其基本工具是决策树。例例1：合同纠纷：合同纠纷甲、乙双方在签订一项合同后，乙方违约。乙方提出和解，愿意赔偿7万元。甲方如果上法庭，可望获得10万元赔偿，但要付出2万元的诉讼费用。甲方应当接受和解还是上法庭？决策树逆向归纳法逆向归纳法从右往左逐步分析。在这

2、个过程中：对于机会结，计算期望收益，并将相应的值写在该结下面。对于决策结，还是做两件事：第一，在较劣的决策枝上划叉；第二，将对应于最优决策枝的收益写在该决策结下面。一旦某个结点下面标了值，在以后进一步分析该结点的父结点时，就只考虑该结点的值而不再考虑其右边的子决策树。例例3：交通事故和解谈判：交通事故和解谈判在一次交通事故中，被告同意赔偿4万元以和解。原告如果坚持上法庭，需要花1万元的诉讼费，有可能出现三种结果：结果1：得到包括误工费在内总额为10万元的赔偿，概率为50%；结果2：仅得到2万元的修车费赔偿，概率为30%；结果3：得不到任何赔偿，概率为20%。甲方应当接受和解还是上法庭？例例4

3、：购买土地：购买土地某人打算购买土地，现有A、B两块地可以选择。A、B两块地的售价分别为30万元和25万元。这两块地看起来差不多，所以买方起初打算购买价格更便宜的B。但是，买方进一步了解得知，B可能存在环境问题，因为该地过去被堆放过大量垃圾，而A不存在类似问题。如果B被危险垃圾污染，依照法律规定，买方必须进行无害化处理，成本为20万元。买方估计，B被危险垃圾污染的概率为50%。在决定到底买哪块地之前，买方也可以先请环保机构进行检测，看到底是否需要进行无害化处理，检测费为2万元。买方是否需要先请环保部门监测？还是直接购买A或B？首先考虑，买方在开始有几种选择？1、博弈的扩展式表述、博弈的扩展式

4、表述参与者每个参与者在何时行动每次轮到某一参与者行动时，可供他选择的行动每次轮到某一参与者行动时，他所了解的信息对应于参与者可能选择的每一行动组合，各个参与者的收益通常可以用博弈树来描述博弈的扩展式（请与决策树比较）：例例5：简单诉讼博弈：简单诉讼博弈甲、乙双方在签订一项合同后，乙方违约。甲方可以选择控告，并索赔8000元，但控告需要花3000元诉讼费；甲方也可以选择忍受，一切维持现状。一旦甲方控告并提出索赔，乙方可以提出和解并赔偿8000元；乙方也可以选择上法庭。如果上法庭，甲方将胜诉，乙方将被判赔偿9000元，且双方各需要支出2000元的诉讼费。甲方应当控告还是忍受？博弈树

5、通过引入机会结，我们也可以纳入存在不确定性的情况，如下图：博弈树 2、信息集、信息集参与者的一个信息集是指满足以下两个条件的决策结的集合：在此信息集中的每一个结点都轮到该参与者行动。当博弈的进行达到该信息集中的一个结，应该行动的参与者并不知道达到了信息集中的哪一个结。3、策略、策略参与者的一个策略是关于行动的一个完备计划，它明确了在参与者可能遇到的每一种情况下对可行行动的选择。思考思考：在下面的博弈中，两个参与者各自的策略空间分别是什么？4、扩展式表述与标准式表述、扩展式表述与标准式表述任何博弈都既可用标准式表述，又可用扩展式表述。（1）用扩展式表述囚徒困境博弈（第1讲中的例1）第第1讲

6、之例讲之例1：囚徒困境：囚徒困境囚徒囚徒2抵赖招认囚徒囚徒1抵赖-1，-1-9，0招认0，-9-6，-6（2）用标准式表述例6中的博弈 1、利用标准式表述求纳什均衡、利用标准式表述求纳什均衡 2、在博弈树上找纳什均衡、在博弈树上找纳什均衡 1、可置信的威胁与不可置信的威胁、可置信的威胁与不可置信的威胁一种威胁所规定的行动在事前看来是最优的，但事后看并不是参与者的最优选择，这种威胁就是不可置信的，含有这种威胁的策略就不是一个合理的策略。例例7：台湾问题：台湾问题 2、承诺、承诺在博弈论中，所谓承诺是将不可置信的威胁变成可置信的威胁的行动：威胁不仅是事前最优的，也是事后最优的。承诺意味着限制自

7、己的自由：选择少反而对自己好。比如例7中的台湾问题：立法还是政府随机应变？3、子博弈、子博弈扩展式博弈中的子博弈是指博弈的一部份，要求：始于博弈树中一个单结信息集的决策结，但不包括博弈的第一个决策结；包含该决策结之下所有的决策结和终点结；没有分割任何信息集。4、子博弈精炼纳什均衡、子博弈精炼纳什均衡如果参与者的策略组合在每一子博弈中都构成纳什均衡，则称该策略组合是子博弈精炼纳什均衡。子博弈精炼纳什均衡排除了不可置信的威胁。参看例6。5、逆向归纳法、逆向归纳法从最后一个决策结开始，找出该子博弈的纳什均衡；然后再分析倒数第二个决策结，找出相应子博弈的纳什均衡；如此一直到初始决策结，所有子博弈

8、上的最优选择就构成了子博弈精炼纳什均衡。例例 8121（2，0）（5，0）（4，2）（1，1）UDRLUD例例9：简单诉讼博弈（续）简单诉讼博弈（续）我们将例5中的收益数字改一下，变为下面的博弈，会出现什么结果？博弈树例例10：诉讼博弈：诉讼博弈对于下面的博弈，如果Y=7千元，原告的最优策略是什么？博弈树例例11：诉讼博弈（续）：诉讼博弈（续）对于下面的博弈，原告的最优策略是什么？博弈树 6、均衡、均衡路径与解、均衡、均衡路径与解一个均衡均衡是各参与者的策略组合，而策略又是完备的（即针对所有可能情况的）行动计划。精炼纳什均衡下所经过的决策点和最优选择构成的路径，称为均衡路径均衡路径。其他的

9、路径是非均衡路径非均衡路径。一个解解则指一条均衡路径，即在给定的策略组合下各参与者的实际行动组合。例例 8121（2，0）（5，0）（4，2）（1，1）UDRLUD 7、逆向归纳法背后的理性假定、逆向归纳法背后的理性假定在例 8 中，均衡结果依赖于非均衡路径上的选择：参与者 1 之所以起初就选择 U，是因为他预期如果选择 D 的话，参与者 2 将选择 L；而 2 之所以选择 L，是因为她预期如果选择 R 的话，参与者 1 将选择 U。可是，只有在 1 偏离了博弈的逆向归纳解之后才能轮到 2 行动，而这时 2 似乎不能认为 1 是理性的了，从而 2 未必就会选 L。逆向归纳出问题了？例例12：

10、诉讼博弈：诉讼博弈在例11的诉讼博弈中，被告如何利用承诺以扭转局势？例例13：投票问题：投票问题三个选民（1、2、3）要就三个备选方案（A、B、C）进行投票。议程为，首先就A和B两个方案进行投票决定优胜者，然后在前面的优胜者与C之间进行投票。各人的偏好顺序如下表所示。以上信息为共同知识。请你分析各人的投票策略，最终哪个方案被选中呢？第一偏好第二偏好第三偏好选民选民1ABC选民选民2BCA选民选民3CAB 例例14：斯特尔伯格双头垄断模型：斯特尔伯格双头垄断模型例例15：国家之间的关税协定：国家之间的关税协定例例16：连锁店问题：连锁店问题如果博弈不是一次性的，而是重复进行的，参与者过

11、去行动的历史是可以观察到的，参与者就可以根据对手过去的行动来决定自己的选择，因而有了更多的可选策略，均衡结果可能与一次博弈大不相同。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释。1、有限次重复博弈、有限次重复博弈以 G(T)表示阶段博弈 G 重复 T 次的有限次重复博弈，并且在下一阶段博弈开始之前，所有以前博弈的结果都可被观测到。G(T)的收益为 T 次阶段博弈收益的简单相加。命题一：命题一：如果阶段博弈 G 有唯一的纳什均衡，则对任意有限的 T，重复博弈 G(T)有唯一的子博弈精炼解，即 G 的纳什均衡结果在每一阶段重复出现。命题二：命题二：当阶段博弈 G 为完全信息动态博弈

12、时，只要 G 有唯一的逆向归纳解，那么对任意有限的 T，重复博弈 G(T)有唯一的子博弈精炼解，其中每一阶段的结果都是 G 的逆向归纳解。命题三：命题三：如果阶段博弈 G 是一个有多个纳什均衡的完全信息静态博弈，则重复博弈 G(T)可以存在这样的子博弈精炼解除最后那个阶段外，各个阶段的结果都不是 G 的纳什均衡结果。例例17：两阶段重复博弈：两阶段重复博弈考虑下表所示的阶段博弈重复两次，参与者在第二阶段开始前可以观测到第一阶段的结果。我们可以证明在这一重复博弈中存在一个子博弈精炼解，其中第一阶段的行动组合为（M,M）。乙L M R甲L1,15,00,0M0,54,40,0R0,00,03,3

13、例例18：两阶段重复博弈：两阶段重复博弈乙L M R P Q甲L1,15,00,00,00,0M0,54,40,00,00,0R0,00,03,30,00,0P0,00,00,04,0.50,0 2、无限次重复博弈、无限次重复博弈即使阶段博弈 G 有唯一的纳什均衡，无限次重复博弈中也可以存在这样的子博弈精炼解，其中没有一个阶段的结果是 G 的纳什均衡结果。（1）无限次重复博弈的定义）无限次重复博弈的定义给定一个阶段博弈G，以G(,)表示相应的无限次重复博弈，其中 G 将无限次地重复进行，且参与者的贴现因子都为。并且在下一次博弈开始之前，所有以前博弈的结果都可被观测到。每个参与者在 G(,)

14、中的收益都是该参与者在无限次的阶段博弈中所得收益的现值。（2）阶段博弈的保留收益与可行收益）阶段博弈的保留收益与可行收益（3）弗里德曼定理）弗里德曼定理令 G 为一个有限的完全信息静态博弈，以(e1,en)表示 G 的一个纳什均衡下的收益，而(x1,xn)表示 G 的其他任何可行收益。如果对每个参与者 i 都有xi ei，且足够接近于1，则无限次重复博弈 G(,)存在一个子博弈精炼纳什均衡，其平均收益可达到(x1,xn)。（4）不确定性下的适度惩罚）不确定性下的适度惩罚在确定的情况下，惩罚越严厉，越有助于合作。由于在均衡中欺骗行为并不发生，所以惩罚实际上是没有成本的。但在不确定的情况下，即使每个参与者都选择合作，“坏结果”也可能会出现。如果坏结果总是触发惩罚，就会冤枉好人，过重的惩罚可能导致不合作；但如果总是原谅，合作也不会发生。

展开阅读全文