博弈论的几个经典模型课件.ppt_163文库

资源描述

1、博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型一天晚上，你参加一个派对，屋里有很多人，你玩得很开心。这时候，屋里突然失火，火势很大，无法扑灭。此时你想逃生。你的面前有两个门，左门和右门，你必须在它们之间选择。但问题是，其他人也要争抢这两个门出逃。如果你选择的门是很多人选择的，那么你将因人多拥挤、冲不出去而烧死；相反，如果你选择的是较少人选择的，那么你将逃生。这里我们不考虑道德因素，你将如何选择？博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型

2、博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型海萨尼（John C.Harsanyi）博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型参与者在不同策略组合下会得到一定的支付（payoff）。对于博弈参与者来说，存在着一博弈结果。博弈涉及均衡。重要的均衡纳什均衡。博弈论的几个经典模型博弈论的几个经典模型非合作性博弈：是指参与者在行动选择时无法达成约束性的协议。人们分工与交换的经济活动就是合作性的博弈，而囚徒困境则是非合作性的博弈。博弈论的几个经典模型博弈论的几个经典模型博弈

3、论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型小猪小猪大猪大猪按按不按不按( (等待等待) )按按(5 (5，1) 1)(5 (5，3) 3)不按不按( (等待等待) )(9 (9，-1)-1)(0 (0，0) 0)大猪和小猪分别该如何选择。大猪和小猪分别该如何选择。博弈论的几个经典模型博弈论的几个经典模型选择等待是小猪的占优策略。大猪的最佳选择取决于小猪的行动，如果小猪去按，大猪最好选择等待；如果小猪不去按,则最佳选择是大猪亲自去按。也就是说，在智猪博弈中，大猪没有占优策略,而小猪有占优策略，它的最佳选择就是耐心等待大猪去按钮，才能获得最佳结果。“小猪躺着

4、大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。博弈论的几个经典模型博弈论的几个经典模型如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。改变方案一：减量方案。改变方案二：增量方案。改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。博弈论的几个经典模型博弈论的几个经典模型在博弈论中，含有占优战略均衡的一个著名例子是由塔克

5、给出的“囚徒困境” （prisonersdilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。博弈论的几个经典模型博弈论的几个经典模型假设：有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪，但可以

6、私入民宅的罪名将两人各判入狱1年。博弈论的几个经典模型博弈论的几个经典模型不难看出，“坦白”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。乙乙甲甲坦白坦白抵赖抵赖坦白坦白(-8(-8，-8)-8)(0 (0，-10)-10)抵赖抵赖(-10(-10，0) 0)(-1(-1，-1)-1)博弈论的几个经典模型博弈论的几个经典模型对于两个犯罪嫌疑人总体而言，他们设想的最好的策略可能是都不交代。但任何一个犯罪嫌疑人在选择不交代的策略时，都要冒很大的风险，一旦自己不交代而另一犯罪嫌疑人交代了，自己就将可能处于非常不利的境地。对于A而言,不管B采取何种策略，他的最佳策略都是交代

7、。对于B而言也是如此。最后两人都会选择交代。博弈论的几个经典模型博弈论的几个经典模型该博弈刻划了两大难题：冲突情形下，参与人的目标是什么？是采用(作为个人)他自己的最好策略，还是采用(作为集体的一员)他们共同的最好策略？前者导致均衡策略(坦白，坦白)，支付为(-8，-8)；后者的最好策略是(抵赖，抵赖)，支付为(-1，-1)。这里反映了个体理性行为与集体理性行为之间的矛盾、冲突。此博弈只进行一次还是重复进行？如果博弈只进行一次，参与人似乎只有坦白才是最好的策略，因为没有理由相信对手会对你有信心，他总认为你自己会坦白；因此，双方都采取坦白策略。然而，若博弈进行多次，则结论将会发生变化。博弈论

8、的几个经典模型博弈论的几个经典模型囚徒困境可以用来说明许多现象。寡头定价拍卖出价推销员的努力政治上的讨价还价军备竞赛等（冲突中出现两败俱伤的情况,往往要考虑到囚徒困境） *（纯策略）纳什均衡博弈论的几个经典模型博弈论的几个经典模型某年在荷兰召开了一次“合作及社会两难困境研讨会”，与会者都是博弈论的专家。当大会结束之后，有两个学者，麦息克和路特提议大家玩一个游戏。他们将一个大信封拿出来，请在场的位专家拿出金钱装到这个信封里。如果到最后这信封里的钱超过元，麦息克和路特将自己掏腰包，退还每人元。不过，如果最后信封内的钱不足元，就统统没收，大家拿不到半毛钱。仔细想一想，如果你也在场，

9、你会奉献多少钱呢？博弈论的几个经典模型博弈论的几个经典模型什么是海萨尼转换？海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人“自然”。自然首先行动，它决定每个局中人的特征。每个局中人知道自己的特征，但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈，第一个阶段是自然N的行动选择，第二阶段是除N外的局中人的静态博弈。这种转换被称为“海萨尼转换”，这个转换把“不完全信息”转变成为完全但不完美信息，从而可以用分析完全信息博弈的方法进行分析。博弈论的几个经典模型博弈论的几个经典模型海萨尼转换的具体方法一个虚拟的参与人“自然”,自然首先决定参与人的类型，赋

10、予各参与人的类型向量，其中；自然告知参与者自己的类型，却不告诉其他参与者的类型；参与者同时选择行动,每一参与者从可行集中选择行动方案；各方得到收益。借助于第一步和第二步中虚构的参与者“自然”的行动，我们可以把一个不完全信息的博弈表述为一个不完美信息的博弈。t12(,)ntttt12(,)iiiAaaatiiA博弈论的几个经典模型博弈论的几个经典模型海萨尼转换分析海萨尼转换是处理不完全信息博弈的标准方法。一般地,“自然”在博弈开始的时候选择参与人的类型，参与人的某个类型包括表征类型的各个特征如策略空间、信息集、得益函数等，这些又称为该类型参与人所拥有的个人信息。不完全信

11、息意味着博弈各方中至少有一个参与人有多个类型。博弈论的几个经典模型博弈论的几个经典模型通过海萨尼转换，博弈开始时，所有参与人有关“自然”的行动有一致的信念，即都知道所有参与人类型的概率分布函数，此即“海萨尼公理”。博弈论的几个经典模型博弈论的几个经典模型经典案例解析例：某一市场原来被A企业所垄断。现在B企业考虑是否进入。B企业知道，A企业是否允许它进入，取决于A企业阻挠B企业进入所花费的成本。如果阻挠的成本低，那么，正如下表后两列所表示的，A企业的占优战略是阻挠，博弈有重复剔除的占优战略均衡A阻挠，B不进入。如果阻挠的成本高，那么，正如下表前两列所表示的，A企业的占优战略是默许B进入，

12、博弈有重复剔除的占优战略均衡A默许，B进入。B企业所不知道的，是A企业的阻挠成本是高是低。这里，某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在本例中，阻挠成本就是 A的私人信息。高阻挠成本和低阻挠成本则是两种不同的类型。博弈论的几个经典模型博弈论的几个经典模型海萨尼转换后的市场进入博弈： A A B B高成本高成本低成本低成本默许默许阻挠阻挠默许默许阻挠阻挠进入进入(40,50)(40,50)(-10,0)(-10,0)(30,100)(30,100)(-10,140)(-10,140)不进入不进入(0,300)(0,300)(0,3

13、00)(0,300)(0,400)(0,400)(0,400)(0,400) 显然，在这里，显然，在这里，B B所遇到的，是不确定性条件下的选择问题。所遇到的，是不确定性条件下的选择问题。因为因为B B不仅不知道不仅不知道A A的类型的类型（是高还是低），而且不知道不同（是高还是低），而且不知道不同类型的分布概率。类型的分布概率。博弈论的几个经典模型博弈论的几个经典模型按照海萨尼的方法，所有参与人的真实类型都是给定的。其他参与人虽然不清楚某一参与人的真实类型，但知道这些可能出现的类型的分布概率，而且这种概率是公共知识。用本例来说，公共知识不仅意味着B企业知道A企业高阻挠成本与低阻挠成本的

14、分布概率，而且意味着A也清楚B知道这一概率。博弈论的几个经典模型博弈论的几个经典模型N N低成本低成本高成本高成本A AB BB B(50,40)(50,40)(300,0)(300,0)(0,-10)(0,-10)(300,0)(300,0)(100,30)(100,30)(400,0)(400,0)(140,-10)(140,-10)(400,0)(400,0)A AB BB B默许默许默许默许阻挠阻挠阻挠阻挠进入进入不进入不进入进入进入进入进入进入进入不进入不进入不进入不进入不进入不进入* *贝叶斯纳什均衡贝叶斯纳什均衡博弈论的几个经典模型博弈论的几个经典模型言语博弈中的“威胁”与“

15、承诺” 在现实中，我们经常看到声称的策略决定，但是这些声称的策略可信吗？声称的策略包括“威胁”与“承诺”。在国际核武器问题上,我国及其他一些国家承诺“不首先使用核武器”就是一种言语承诺。博弈论中,经常用“可置信”和“不可置信”的“威胁”或“承诺”来区分行动者说出来的策略，我们在对动态博弈的分析中会分析什么样的策略是可置信的,什么样的策略是不可置信的。而分析“威胁”或“承诺”是可置信的还是不可置信的方法是倒推法。博弈论的几个经典模型博弈论的几个经典模型倒推法（backward induction）也叫逆向归纳法。那么什么是倒推法？要理解什么是倒推法，先来看一下商界里经常见到的博弈。在某

16、个城市假定只有一家房地产开发商A,我们知道任何没有竞争下的垄断利润是很高的，假定A此时每年的垄断利润是10亿元。博弈论的几个经典模型博弈论的几个经典模型现在假定有另外一个企业B，准备从事房地产开发。面对着B要进入其垄断的行业，A想：一旦B进入，A的利润将受损很多，B最好不要进入。所以A向B表示，你进入的话，我将阻挠你进入。假定当B进入时A阻挠的话,A的利润降低到2，B的利润是-1。而如果A不阻挠的话，A的利润是4，B的利润也是4。博弈论的几个经典模型博弈论的几个经典模型这样一个博弈可用下图表示： B B进入进入不进入不进入A AA A：1010；B B：0 0阻挠阻挠不阻挠不阻挠A A：

17、2 2；B B：1 1A A：4 4；B B：4 4博弈论的几个经典模型博弈论的几个经典模型上图称之为博弈树。由上图可见，这个博弈由两阶段构成。我们称之为动态博弈，或者两阶段的动态博弈。博弈树是表示动态博弈的一个好方法。现在让我们回到房地产开发商之间的博弈问题。A的最好结局是“B不进入”，而B的最好结局是“进入”而A“不阻挠”。这两个最好的结局不能构成均衡。那么结果是什么呢？博弈论的几个经典模型博弈论的几个经典模型A向B发出威胁：如果你进入，我将阻挠。而对B来说，如果进入，A真的阻挠的话，它将受损失-1（假定-1是它的机会成本），当然此时A也有损失。对于B来说，问题是：A的威胁可置信吗？B

18、通过分析得出：A的威胁是不可置信的。原因是：当B进入的时候，A阻挠的收益是2，而不阻挠的收益是4。42，理性人是不会选择做非理性的事情的。也就是说，一旦B进入，A的最好策略是合作，而不是阻挠。因此，通过分析，B选择了进入，而A选择了合作。双方的收益各为4。博弈论的几个经典模型博弈论的几个经典模型在这个博弈中，B采用的方法为倒推法，或者说逆向归纳法，即：当参与者作出决策时，他要通过对最后阶段的分析，准确预测对方的行为，从而确定自己的行为。在这里，双方必须都是理性的。如果不满足这个条件，就无法进行分析了。这个例子只是简单的两阶段博弈，而三阶段或更多阶段的博弈，可用同样方法加以分析。在动态博

19、弈中，涉及“威胁”与“承诺”是不是可信的问题。静态地看，一博弈存在许多均衡。博弈论的几个经典模型博弈论的几个经典模型上述“进入阻挠”问题的博弈树可用支付矩阵表示： B B A A进入进入阻挠阻挠阻挠阻挠(2 (2，-1)-1)(10(10，0) 0)不阻挠不阻挠(4 (4，4) 4)(10(10，0) 0)在这个矩阵中，纳什均衡点有两个：在这个矩阵中，纳什均衡点有两个：( (合作，进入合作，进入) )和和( (阻挠，不进入阻挠，不进入) )。我们可以验证，在这两点上谁都不愿意改变策略。然而我们可以验证，在这两点上谁都不愿意改变策略。然而( (阻挠，不阻挠，不进入进入) )这个均衡是达不到的。因

20、为这是动态博弈，在这个动态博弈这个均衡是达不到的。因为这是动态博弈，在这个动态博弈中，存在着先后策略选择顺序。中，存在着先后策略选择顺序。博弈论的几个经典模型博弈论的几个经典模型这里分析的是完全且完美信息下的动态博弈。所谓完全信息是指：博弈的支付函数是“公共知识”。本书中未涉及不完全信息的博弈问题，如囚徒困境这样的静态博弈也是完全信息博弈。完美信息是针对动态博弈而言的，指参与者知道博弈的所有历史。倒推法是动态博弈中有用的工具，它可以说是理性的人自然的推理方式。然而倒推法面临着一个困难,这就是蜈蚣博弈的悖论。博弈论的几个经典模型博弈论的几个经典模型前面我们分析了“威胁”是否可信，我们也可

21、用同样的思路分析一个“承诺”是否可信。“不首先使用核武器”的承诺可信吗？ *子博弈完美纳什均衡博弈论的几个经典模型博弈论的几个经典模型光天化日之下的违法行为为什么总能成功？人类有许多关于猴子的故事，比如朝三暮四，杀鸡给猴看。其实猴子是没有思维的,它们有一定的群体意识，但没有社会意识，人们关于它们的故事其实是说人自己的。我们这里也讲一个猴子的故事。在现实社会中，窃贼在公共场所比如公共汽车上偷东西时，车上的乘客看到了，但不敢吭声。没有被偷的人想，反正被偷的待宰猴群的结局人不是我，我反抗了，我得不到任何好处,反而遭到伤害；而不反抗虽不得益，但也不受损，我何必要反抗呢？这就是光天化日之下的偷窃行

22、为为什么总能成功的原因。博弈论的几个经典模型博弈论的几个经典模型窃贼在偷东西时发出这样的信号：如果谁反抗，将殴打谁。乘客想，窃贼的威胁是可信的：因为如果个别乘客反抗，而窃贼不殴打该乘客的话，就会有更多的乘客抓窃贼，窃贼将有可能被抓，因此窃贼必然欧打反抗的乘客。乘客的策略及可能的支付为：反抗,有可能被殴打甚至受伤；不反抗，无所得也无所失。博弈论的几个经典模型博弈论的几个经典模型乘客乘客反抗反抗不反抗不反抗偷东西偷东西窃贼窃贼窃贼窃贼殴打殴打不殴打不殴打乘客：受伤乘客：受伤窃贼：可能被抓，窃贼：可能被抓，可能逃脱可能逃脱乘客：无所得，乘客：无所得，无所失无所失窃贼：被抓窃贼：被抓窃贼窃贼

23、殴打殴打不殴打不殴打乘客：受伤乘客：受伤窃贼：得到赃物窃贼：得到赃物乘客：无所得，乘客：无所得，无所失无所失窃贼：得到赃物窃贼：得到赃物博弈论的几个经典模型博弈论的几个经典模型对于乘客来说，窃贼的威胁是可信的，因而乘客的最优策略是“不反抗”；而对于窃贼来说，乘客“不反抗”下的“不殴打”策略为最忧。这一博弈的结果是，窃贼偷东西时“乘客不反抗，窃贼不敢打”，这是一“子精炼纳什均衡”。这样一种群体不反抗的结果将使社会风气恶化，偷窃之风盛行。对个体来说，虽然这一次被偷的不是你,但下次你被偷的几率增加了。这使得我们都如同待宰的猴子，我们不知道什么时候轮到我们自己。这样，我们每个人的处境比以前更差

24、。博弈论的几个经典模型博弈论的几个经典模型如何从这种困境中摆脱出来？我们看到，使乘客采取“反抗”策略，而非“不反抗”策略在于加大采取“反抗”策略的获益，而减少不反抗的获益。当“反抗”策略下的获益大于“不反抗”策略下的获益时，乘客就会采取“反抗”的策略。加大道德宣传，培养人的道德感可以解决这个囚徒困境。博弈论的几个经典模型博弈论的几个经典模型乘客乘客反抗反抗不反抗不反抗偷东西偷东西窃贼窃贼窃贼窃贼殴打殴打不殴打不殴打乘客：受伤乘客：受伤, ,但没有但没有道德满足感道德满足感窃贼：可能被抓，窃贼：可能被抓，可能逃脱可能逃脱乘客：没有受伤乘客：没有受伤并有道德并有道德满足感满足感窃贼：被抓

25、窃贼：被抓窃贼窃贼殴打殴打不殴打不殴打乘客：受伤乘客：受伤, ,并有并有道德耻辱感道德耻辱感窃贼：得到赃物窃贼：得到赃物乘客：道德耻乘客：道德耻辱感辱感窃贼：得到赃物窃贼：得到赃物上述博弈过程为：上述博弈过程为：博弈论的几个经典模型博弈论的几个经典模型这样，当小偷偷东西时，尽管乘客认为窃贼的威胁是可信的，但是如果乘客是道德感强的人,那么博弈结果是“乘客反抗，小偷殴打”,从而小偷有可能被抓住，这也是一“子精炼纳什均衡”。博弈论对不合作的博弈结果的预测是令人悲哀的。但是，从这个例子我们看到，道德就是由群体实施的对所谓“非道德”的行为进行非强制性的惩罚机制，而法律及实施法律的国家的形成与改进

26、就是建立一个对所谓“违法行为”实施的中心惩罚机制。 *精炼贝叶斯纳什均衡；混同均衡；分离均衡博弈论的几个经典模型博弈论的几个经典模型哪种策略更能赢? 假定我们的社会已经形成约束行动者的道德规范。如果对不道德的行为不能产生即时的惩罚，不道德的行为在社会中往往能给行为者带来好处。这表现在一次性的非合作的博弈中,行为者理性地选取对自己有利的行动。但是，如果存在重复博弈，参与者之间对不合作行为就会形成惩罚机制。对囚徒困境进行无限次的重复博弈，什么样的策略会赢?博弈论的几个经典模型博弈论的几个经典模型这里涉及参与者以什么样的态度对待对方的不合作策略。在博弈论里，有两个著名的策略。如果一方采取不合

27、作的策略另一方随即也采取不合作策略并且永远采取不合作策略，在博弈论里面称之为触发策略，或称冷酷策略，英文叫trigger strategy。乙乙甲甲不合作不合作合作合作不合作不合作(1 (1，1) 1)(4 (4，0) 0)合作合作(0 (0，4) 4)(2 (2，2) 2)博弈论的几个经典模型博弈论的几个经典模型如果对方知道你的策略是触发策略，那么对方将不敢采取不合作策略，因为一旦他采取了不合作策略，双方便永远进入不合作的困境。因此，只要有人采取触发策略，那么双方均愿意采取合作策略。但是这个策略面临着这样一个问题：如果双方存在误解，或者由于一方发生选择性的错误，这个错误是无意的，那么结

28、果将是双方均采取不合作的策略。也就是说，这种策略不给对方一个改正错误或解释错误的机会。博弈论的几个经典模型博弈论的几个经典模型第二种策略是，若你采取不合作策略，我也采取不合作策略，但是如果你采取了合作策略，我也采取合作策略。这叫“一报还一报”策略，或者称之为“针锋相对”，英文叫tit-for-tat。美国密执安大学的罗伯特埃克斯罗德(Robert Axerold)主持了一次计算机比赛，看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家，他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的拉波波特写出的tit-for-tat策略。这个程序非常简单：第一步采取合作，接着对方采

29、取什么策略，他便跟着做什么。博弈论的几个经典模型博弈论的几个经典模型当然有多种策略，如对方采取了不合作,但自己永远采取合作策略，这个策略可以叫做“以德报怨”策略。这个策略对行动者最为不利，因为对方知道你采取这种策略，他会永远采取不合作的策略，因而理性的人是不会采取这种“以德报怨”策略的。然而，极端道德的人是超越理性的限制的,此时他会采取“以德报怨”策略。佛说：“我不入地狱,谁入地狱？”基督说：“爱你的敌人。”他们爱一切人而不会计算他爱的行动会给他带来利益或灾难，而是希望他的行动感化众生。博弈论的几个经典模型博弈论的几个经典模型如果是有限次的囚徒困境，那么情况就不同于上述无限次的囚徒困境的

30、重复博弈。当临近博弈的终点时，采取不合作策略的可能性加大，如果参与人以前的所有策略均为合作策略，并且被告知下一次博弈是最后一次，那么双方肯定采取不合作的策略。这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买卖机会的时候,尽量谋取高利并且带欺骗性是其特点。而靠“熟客”、“回头客”便是通过薄利行为使得双方能继续合作下去。博弈论的几个经典模型博弈论的几个经典模型非合作博弈理论把存在于如银行业经营、国际融资选择、商业周期出现、社会习俗形成和中介机构出现及制度设计等各经济领域的协调问题模型化为协调博弈，存在多个严格纳什均衡是这类博弈根本特点,协调博弈成为了继囚徒困境博弈之后又一被广泛研

31、究的博弈类型。多重均衡是对传统经济理论的一个挑战，也是非合作博弈理论致命之所在，为寻找解决协调问题的方法，学者们从理论上对协调博弈进行了广泛而深入的探讨。协调博弈理论研究有助于解决非合作博弈的多重均衡问题，在近十几年成了为学术界关注的焦点。博弈论的几个经典模型博弈论的几个经典模型对称协调博弈是指无角色区分的参与之间进行的协调博弈，它表现在支付函数的对称上，策略集是一样的。从形式上看：对称协调博弈就是博弈支付矩阵主对角线上的元素都是纳什均衡的博弈。协调博弈的均衡选择并不涉及到激励问题而依赖于参与人之间对博弈如何进行有充分相似的信念。正是由于信念形成是一个相对复杂的过程，所以对协调博弈均衡问

32、题的研究也就显得非常复杂,不同的信念形成过程动态就会产生不同的均衡。博弈论的几个经典模型博弈论的几个经典模型对称协调博弈是一类特殊的博弈，均衡选择不仅要满足预期的一致性，而且要满足行动的一致性，因此，博弈结果必定收敛到纯策略而非混合策略纳什均衡。更为重要的是，协调博弈还有策略互补性及支付外溢性这两个重要特征，它是分析协调博弈多重均衡问题的出发点。对称协调博弈分成三类：支付占优与风险占优不一致；支付占优与风险占优一致（严格纳什均衡可进行帕累托排序均衡）; 无占优性可比的协调博弈。博弈论的几个经典模型博弈论的几个经典模型支付占优与风险占优不一致的协调博弈这类博弈最典型的例子就是猎鹿博弈

33、。有两个打猎人，他们可以合作去猎鹿也可以单独去猎兔，如果合作猎鹿，那么两个都可以分得4个单位的支付；如果一个人去猎鹿而另一个人去猎兔，那么前者支付为0（因为猎鹿需要两个人合作可以成功）后者的支付为2；如果两个人不合作都去猎兔，那么他们都可以得到3单位的支付。猎鹿猎鹿猎兔猎兔猎鹿猎鹿4 4，4 40 0，2 2 猎兔猎兔2 2，0 03 3，3 3 博弈论的几个经典模型博弈论的几个经典模型显然该博弈有两个纯策略严格纳什均衡,即要么两个合作猎鹿，要么两人去猎兔与一个混合策略纳什均衡。按Harsayi and Selten(1988)的定义，纯策略猎鹿是支付占优纳什均衡、纯策略猎兔是风险占优纳

34、什均衡。猎兔策略是一个保险策略，而猎鹿博弈则是一个帕累托效率策略，但行动的不确定性使猎鹿策略具有较大的风险。因此，均衡选择取决于参与人对风险的态度。博弈论的几个经典模型博弈论的几个经典模型由于存在两个纯策略纳什均衡，现实中究竟哪个均衡会出现就是一个问题，这是多重纳什均衡下的困境。通过比较“猎鹿博弈”,明显的事实是:两人一起去猎鹿的好处比各自打兔的好处要大得多。用一个经济学术语来说,两人起去人头猎鹿比各自去打兔更符合帕累托最优原则。博弈论的几个经典模型博弈论的几个经典模型这一案例中有一个隐含的假设：两个猎人的能力和贡献差不多，所以双方均分猎物。但是实际情况显然不会这么简单。如果一个猎人

35、的能力强、贡献大，他就会要求得到较大的一份,这样分配的结果就可能是（14,6）或（15,5）。但有一点是肯定的，能力较差的猎人的所得，至少要多于他独自打猎的所获，否则他就没有合作的动机。假设猎人甲在猎鹿过程中几乎承担了全部的工作,他据此要求最后的分配结果是（17,3）。这时博弈论的几个经典模型博弈论的几个经典模型相对于分别猎兔的收益（4,4），合作猎鹿就不具有帕累托优势。虽然这样17比4多，改善了很多，17+3也比4+4大得多，猎人总体收益也改善了很多，但是由于3比4小，猎人乙的境遇不仅没有改善，反而恶化。也就是说他的收益受到了损害。所以站在乙的立场，（17,3）没有（4,4）好。如果合作结果

36、是这样，那么,乙一定不愿合作。所以，为了实现帕累托最优，就必须充分照顾到合作者的利益，使他的收益大于不合作时，他才会愿意选择合作,从而实现双赢的最佳结局。博弈论的几个经典模型博弈论的几个经典模型协调、合作与互动在许多研究中，人们通常把协调与合作看作同一个事物，容易引起混淆，但博弈论却能够很好地进行区分，下面以囚徒困境与猎鹿博弈来给予说明，支付矩阵如下表4表5：1 1，1 13 3，0 0欺骗欺骗0 0，3 32 2，2 2合作合作欺骗欺骗合作合作表表4 4：囚徒困境博弈：囚徒困境博弈3 3，3 32 2，0 0猎兔猎兔0 0，2 24 4，4 4猎鹿猎鹿猎兔猎兔猎鹿猎鹿表表5 5：猎鹿博弈

37、：猎鹿博弈博弈论的几个经典模型博弈论的几个经典模型协调博弈解决的是源于参与人之间策略不确定性以及由此引起的行为预期问题。猎鹿博弈中，如果一个参与人选择猎兔,另一个参与人选择猎鹿，那么前者得到支付2,后者得到支付0，猎兔策略不是占优策略。由于不能够确定其他参与人是否会选择猎鹿策略，尽管每个参与人都意识到这样可以带来更多的支付，但他们不会选择有较高风险的猎鹿策略，因而系统难以达到帕累托效率均衡，因此，解决协调问题就要参与人相信其他人会选择帕累托效率策略，在这里需要强化参与人之间的相互信任。博弈论的几个经典模型博弈论的几个经典模型囚徒困境博弈研究的是处于竞争关系两参与人之间的合作问题，如果一个

38、参与人选择欺骗，另一个参与人选择合作，那么前者得到支付3，后者得到支付0，欺骗策略是占优的。求解囚徒困境博弈的困难在于个人激励与群体目标并不一致，因而，要求参与人把个人目标放到第二位，而把集体目标放在第一位。博弈论的几个经典模型博弈论的几个经典模型协调博弈与囚徒困境博弈存在着两种不同形式的互动：协调互动合作互动协调互动是指一个参与人获得的支付依赖于其他参与人是否选择了相同行动，如左行右行博弈，如果两个相对而行的参与人选择不同的方向行进，那么他们会相碰，而选择相同方向则可以顺利通过。合作互动是指既存在协调又存在冲突的博弈，协调是因为两个合作互动是指既存在协调又存在冲突的博弈，协调是因为

39、两个参与同时改变行动可以变得更好，冲突是因为尽管其他参与人参与同时改变行动可以变得更好，冲突是因为尽管其他参与人承诺行动，也不一定有利于该参与人支付的增加，前者可能引承诺行动，也不一定有利于该参与人支付的增加，前者可能引起无效率，后者则意意味着无效率状态会成为均衡，起无效率，后者则意意味着无效率状态会成为均衡，博弈论的几个经典模型博弈论的几个经典模型猎鹿类型协调博弈，由策略不确定性所引起的均衡结果依赖于参与人之间的行为预期、博弈支付与策略风险；当时也是最小努力类型协调博弈支付占优与风险占优是统一的，均衡结果依赖于行为预期与博弈支付。现在进一步分析支付值x的变化对合作与协调的影响。囚徒困境博

40、弈中，随着支付值x的增加，不合作的激励就会越大，追求个人理性的参与人使系统更易于偏离集体目标。猎鹿类型博弈中，参与人对系统达到支付占优均衡的期望值会随着支付值x的增加而减少，选择合作的风险就会越来越大；最小努力类型博弈中，尽管结果（欺骗,欺骗）是一个均衡，但x的下降使欺骗策略会面临更大的风险。合作合作欺骗欺骗合作合作2 2，2 20 0， x欺骗欺骗x，0 01 1，1 1当当时就是囚徒困境博弈，个人理性并不时就是囚徒困境博弈，个人理性并不追求集体最大化目标，唯一的均衡是（追求集体最大化目标，唯一的均衡是（欺骗欺骗, ,欺骗）；当欺骗）；当时就是时就是21 x2x1x博弈论的几个经典模型博

41、弈论的几个经典模型夏普里(Shapley)值与夏普里一苏比克权力指数夏普里一苏比克权力指数是最早提出的一种权力指数，它是夏普里和苏比克在1954年的一篇文章“评价委员会中权力分布的一个方法”中提出的，而该权力指数是基于“夏普里值”之上的。如果说纳什均衡是非合作博弈中的核心概念的话，那么我们可以说，夏普里值(Shapley Value)是合作博弈(或联盟博弈)中的最重要的概念。博弈论的几个经典模型博弈论的几个经典模型考虑这样一个联盟博弈。有一个三人财产分配问题：假定财产为100万元，假定这100万元在三个人之间进行分配。a拥有50%的票力，b拥有40%的票力，c拥有10%的票力。规则规定

42、，当超过50%的票认可了某种方案时，才能获得整个财产，否则三人将一无所获。我们看到，任何单独一个人的票力都不超过50%，从而不能单独决定财产的分配。要超过50%的票力必须要形成联盟。也就是说，在这个例子中任何人的权力都不是决定性的,也没有一个人是无权力的或权力为0。博弈论的几个经典模型博弈论的几个经典模型夏普里(LSShapley)提出了一种分配方式，根据他的理论求得的联盟者的先验实力被称为夏普里值(Shapley Value)。夏普里值是这样的一个值：在各种可能的联盟次序下，参与者对联盟的边际贡献之和除以各种可能的联盟组合。在财产分配问题上，我们可以写出各种可能的联盟顺序。而边际贡献就在

43、于在这个顺序中谁是这个联盟的“关键加入者”。如果是关键加入者,那么他的边际贡献就为100万元。博弈论的几个经典模型博弈论的几个经典模型财产问题中各种排列下的关键加入者次序次序abcabcacbacbbacbacbcabcacabcabcbacba关键加入者关键加入者b bc ca aa aa aa a由上表，我们得出由上表，我们得出a a、b b、c c的夏普里值分别为：的夏普里值分别为：夏普里值是先验实力的一种度量，我们可以根据夏普里值来划夏普里值是先验实力的一种度量，我们可以根据夏普里值来划分财产。按照夏普里值我们可以将财产分为分财产。按照夏普里值我们可以将财产分为a a：2/32/3

44、，b b：1/61/6，c c：l/6l/6，单位为百万元。，单位为百万元。411 , , 666abc博弈论的几个经典模型博弈论的几个经典模型根据夏普里值定义，所有排列的顺序是等可能的。而在每一个排列下，每个参与者对这个排列的联盟有一个边际贡献。在投票博弈中,这个值反映的是参与者与其他参与者结成联盟的可能性，因此夏普里值反映的是参与者的“权力”。夏普里值用于权力分析时，使得到了夏普里一苏比克权力指数。据夏普里与苏比克的分析，美国总统与参议院及众议院的权力指数之比为2；5；5，而总统与一个参议员、一个众议员的权力比为：350：9：2。就是说，美国总统的权力几乎是一位参议员的权力指数的40

45、倍，是众议员的175倍。博弈论的几个经典模型博弈论的几个经典模型约克和汤姆结对旅游。约克和汤姆准备吃午餐。约克带了3块饼，汤姆带了5块饼。这时,有一个路人路过，路人饿了。约克和汤姆邀请他一起吃饭。路人接受了邀请。约克、汤姆和路人将8块饼全部吃完。吃完饭后，路人感谢他们的午餐,给了他们8个金币。路人继续赶路。约克和汤姆为这8个金币的分配展开了争执。汤姆说：“我带了5块饼,理应我得5个金币,你得3个金币。”约克不同意：“既然我们在一起吃这8块饼，理应平分博弈论的几个经典模型博弈论的几个经典模型这8个金币。”约克坚持认为每人各4块金币。为此，约克找到公正的夏普里。夏普里说：“孩子，汤姆给你

46、3个金币，因为你们是朋友，你应该接受它；如果你要公正的话，那么我告诉你，公正的分法是，你应当得到1个金币，而你的朋友汤姆应当得到7个金币。” 遵循的原则是：所得与自己的贡献相等。博弈论的几个经典模型博弈论的几个经典模型在荷兰召开了一次“合作及社会两难困境研讨会”，与会者都是博弈论的专家。当大会结束之后，有两个学者，麦息克和路特提议大家玩一个游戏。他们将一个大信封拿出来，请在场的位专家拿出金钱装到这个信封里。如果到最后这信封里的钱超过元，麦息克和路特将自己掏腰包，退还每人元。不过，如果最后信封内的钱不足元，就统统没收，大家拿不到半毛钱。仔细想一想，如果你也在场，你会奉献多少钱呢？博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型博弈论的几个经典模型

展开阅读全文