博弈论基础PPT精品课程课件全册课件汇总.ppt_163文库

资源描述

1、授课人：XX XX PPT内容可自行编辑博弈论基础博弈论基础精品课程精品课程策略博弈2th，阿维纳什迪克西特，苏珊斯克丝策略：博弈论导论。乔尔沃森博弈论基础罗伯特吉本斯博弈入门马丁奥斯本研究生：博弈论D.弗登博格，让梯若尔博弈论R.迈尔森博弈论教程M.奥斯本，A.鲁宾斯坦参考书在所有社会，人们经常互动。有时，互动是合作，其他的时候，互动是竞争。在这两种情况下，都可以用一个术语，即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动，必须考虑他周围的其他人会怎样选择行动。1 概述策略对于社会的运行来说，是非常基

2、本的。我们要学会了解在策略环境下，人们实际上是如何采取行动的，以及他们应该怎样采取行动。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动，必须考虑他周围的其他人会怎样选择行动。这种系统的研究形成了应该策略互动的理论。1 概述这个理论在许多方面都是有用的。首先，它提供了一种语言。其次，它提供了应该框架，能够指导我们建立策略环境模型。其三，它有助于我们追朔，对行为假设的逻辑推理过程。1 概述这个理论在许多方面都是有用的。首先，它提供了一种语言。其次，它提供了应该框架，能够指导我们建立策略环境模型。其三，它有助于我们追朔，对行为假设的逻辑推理过程。1 概述好几百年前，数学家就开始

3、研究室内游戏，试图构造最优的游戏策略。在1713年，沃尔德格雷夫就某种纸牌游戏的解决方法，与他的同事德莫特和贝努利进行交流。沃尔德格雷夫的解决方法，与现代理论的结论相一致。1 概述在19世纪的前10年，古诺对寡头模型的均衡进行了研究。而埃奇沃思解决了交易经济中的议价问题。1 概述1913年，关于博弈的第一个定理（关于象棋游戏的结论）被泽梅罗证明。接着，博雷尔开创性地提出了“策略”的概念。1 概述博弈论发展的关键事件是1944年冯诺依曼和奥斯卡摩根斯坦的著作博弈论和经济行为的出版。此书奠定了该领域的基石。接下去的几十年中，数学家和经济学家丰富了它的基础，逐步打造了社会科学最强大和最有影响力的工具

4、箱之一。1 概述1994年诺贝尔奖颁给了，在20世纪50-70年代对博弈论做出了重大贡献的3位经济学家：约翰纳什，约翰海萨尼和莱茵哈特泽尔腾。1 概述接着荣膺诺贝尔经济学奖金桂冠的经济学家有，诸如信息和合约方面的专家-威廉维克里和詹姆斯米利斯（1996年）。1 概述还有2001年获奖的米歇尔斯彭斯，约瑟夫斯蒂克利茨和乔治阿克洛夫。1 概述目前，博弈论被许多来自不同领域的专业人士使用，这些领域包括经济学、政治学、法律、生物、国际关系哲学以及数学。事实上，大多数情形即包含了冲突元素，也包含了合作的元素。我们对博弈的组成要有一个广义的理解。简而言之，博弈是策略环境的正式描述。因此，博弈论是研究相互依

5、赖情形的正式的方法论。这里，“正式”是指一种以数学化的精确，以及逻辑上的一致见长的结构。利用正确的理论工具，我们可以研究各种情况下的行为，从而更好地理解经济中的相互作用。1 概述 1.1 什么是博弈论？博弈论帮助我们理解，决策者互动的情形。Creates a double record of bank transactions.Bank reconciliation.导言MovieCricketMovie2,10,0Cricket0,01,22 扩展型在数学上，有几种方法描述一个博弈：1 博弈有一组参与人；2 对于参与人可能采取的行动的完整描述（即它们的可行行动集）；3 对于参与人采取行动时

6、，所知信息的描述；4 对于参与人的行为将如何导致博弈结果的规定；5 对于参与人对结果偏好的定义。2 扩展型迪斯尼工作室的虫子的一生和梦工场的蚂蚁。卡曾伯格被迪斯尼的老板艾斯纳从派拉蒙招贤，以重振迪斯尼动画部。卡氏于1994年8月辞职。不久，艾斯纳接受了提议，于是虫子的一生进入了制作阶段。大概同时，卡氏与斯皮尔伯格等组建了梦工场。开始制作蚂蚁。两个工作室是在决定制作两部影片之后，才得知对方的决定的。2 扩展型迪斯尼准备在1998年感恩节期间，发行虫子的一生。而这正是梦工场原定埃及艳后的上映时间。梦工场于是决定，把埃及艳后推迟到圣诞节。争取在虫子的一生上映之前，让蚂蚁上映。最后，蚂蚁为梦工场创造了

7、超过0.9亿美元的利润，而虫子的一生确保了超过1.6亿美元的利润。2 扩展型让我们用一个数学模型讲述这个故事。为了把它转化成数学的抽象语言，我们必须对故事进行适当的简化和程式化。我们的目标应该是从中分析得出一两个策略要素。这可以帮助我们从理论学者的角度，理解这个决策环境。2 扩展型 K E K K fghlmLSPNPNPNRNabcde我们可以用一个树状结构表示两个公司之间的互动。树状结构由节点和分支组成。节点表示事件的发生点，分支表示可以选择的不同的行为方案。我们用实心圆表示节点，用连接节点的箭头表示分支。这个树状结构称为扩展型表述。a称为初始点，a,b,c,d,e称为决策点。f,g,h,

8、l,m称为终止点。表示博弈的结果。2 扩展型 K E K K fghlmLSPNPNPNRNabcde我们用信息集来定义参与人在博弈中的决策节点所拥有的信息。有一些信息集只包括一个节点，例如在节点a,b。节点c,d则包含在一个信息集中。每个信息集只能做出一个决策。而正如在故事中所说的，双方都不知道对方是否制作影片之前，决定制作自己的影片。虚线表示K知道自己处于这两个节点之一，但是不能区分自己处于c还是d。即K缺乏信息。2 扩展型 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE参与人对于结果的偏好性。K是否更希望博弈终止点f而不是h上结束？我们必须知

9、道参与人关心什么，才能将终止点根据每个参与人的偏好排列。通常用数字表述参与人的偏好排序最为简便。这也称为支付(payoff)，或者效用(utilities)。2 扩展型 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE我们引入一些数学符号来考察博弈。我们来看看一个市场博弈，两个厂商通过选择高价或者低价进行竞争。我们用参与人i表示任何一个参与人的数字代码。即在一个有n个参与人的博弈中，i=1,2,n。在某些博弈中，一个参与人可以在无限多个行动中进行选择。2 扩展型 12pyesnop,100-p0,0一个简单的讨价还价模型，即最后通牒议价。假设1希望卖

10、一幅画。各方只有一次出价的机会。假设卖方先出价，买方2可以决定是否接受这个价格。如果画没有成交，双方均一无所获。如果成交，卖方获得等于价格的收益，买方获得自己的价值。2 扩展型 12pyesnop,100-p0,01.1 什么是博弈论？博弈论帮助我们理解，决策者互动的情形。Creates a double record of bank transactions.Bank reconciliation.导言MovieCricketMovie2,10,0Cricket0,01,23 策略策略是博弈中的一组参与人完整的相机的行动计划。这里的“完整的相机计划”是对一个参与人行为的完整描述。它包含了它

11、的每一个决策点上的行为。因为信息集表示的是在博弈中各个参与人的决策点，所以，一个参与人的策略描述的是，在它的每个信息集中，它所做出的决策。3 策略例如，在下面的博弈中，你的策略必须包括在所有的节点，即a,c-d,以及e的信息集中，所有选择的行动。即使你打算在节点a选择“留下”，你也必须对上述所有决策进行定义。3 策略 K K K 40,11013,1200,14080,00,0LSPNPNPNRNabcdeE例子：该图描述了一个简单的市场博弈。两个厂商为其生产的一种相同的产品，分别选择高价或者低价进行相互竞争。3 策略 1 2 HLLHHL1，10，22，01/2，1/2，正式地说，给定某个

12、博弈。我们用Si来表示参与人i的策略空间。也称为策略集合。即Si包含了参与人i的每一个可能的策略集合。对前一个博弈，参与人1的策略空间S1=H,L。而参与人2的策略空间是S2=HH,HL,LH,LL。我们用小写字母表示单个策略(即这个集合中的一个元素)，则si Si是博弈中参与人i的一个策略。例如，s1=L，s2=LH。3 策略一个策略组合是关于策略的向量，每一项表示一个参与人。在研究一个有n个参与人的博弈。一个典型的策略组合就是这样一个向量，s=(s1,s2,sn)。其中si是参与人i的策略，i=1,2,n。S表示策略组合的集合。在数学上表示为S=S1XS2XXSn。X表示笛卡尔乘积。如果

13、S1=A,B,S2=X,Y，那么，S=S1XS2=A,X),(A,Y),(B,X),(B,Y)。3 策略举个例子，我们看下图的博弈。S1=OA,OB,IA,IB，S2=O,I请注意，在这个博弈中，参与人1的策略。不仅要定义它在开始时怎么做，还要定义在第二个信息集中，它将采取什么行动。你可能会问，如果参与人1在博弈开始时选择退出，为什么它还要在第二个信息集中，决定该怎么做？3 策略 211IIOOAB2，21，33，44，2原因一是，出于理性的研究，我们需要的是对于博弈中，任意一点的最优行动的明确评估。这种评估与参与人对彼此的信念有关。原因而在于，万一参与人犯了错误，它们可能会需要一个意外状况

14、下的计划。3 策略 211IIOOAB2，21，33，44，2另外一个例子，在这个博弈树中，另外一个例子，在这个博弈树中，S S1 1=U,D=U,DS S2 2=AC,AE,BC,BE=AC,AE,BC,BES3=RP,RQ,TP,TQS3=RP,RQ,TP,TQ3 策略 1 3 9,2,52,4,40,5,43,0,0UDABRTPQ22,2,21,2,26,3,2CEPQ3 24 标准型标准型是另一种表示博弈的正式方法。在某些情况下，标准型更加简洁，可以优先使用。对于一个用扩展型表示的博弈，每一个策略组合能够告诉我们，该博弈在博弈树中所遵循的路径。同时告诉我们，在博弈结束时，终止点是哪

15、个。与每个终止点相对应的是，各个参与人的收益向量。因此需要注意的是，每一个策略组合，给出了一个收益向量。4 标准型对于每一个参与人i，我们可以定义一个函数ui=S R(该函数的定义域是策略组合的集合，值域是实数）。对于各个参与人所选择的每一个策略组合，sS，ui(s)是参与人i 在博弈中的收益。这个函数ui称为参与人i的收益函数。4 标准型举个例子，我们看下图的博弈。S1=OA,OB,IA,IB，S2=O,I该博弈的策略组合是S=(OA,O),(OA,I),OB,O),(OB,I),(IA,O),(IA,I)(IB,O),(IB,I)参与人i的收益是定义在S之上的。因此，当博弈采取策略组合

16、s时，ui(s)给出了参与人i在博弈中的收益。例如，u1=(OA,O)=2,u1(IA,I)=4,u2(IA,O)=34 标准型 211IIOOAB2，21，33，44，2对于各参与人具有的策略数量有限的两方博弈，表示各参与人的策略空间的一种简便方法，是画出它们的收益矩阵。矩阵的每一行对应参与人1的一个策略。而每一列对应参与人2的一个策略。4 标准型12IOOA2，22，2OB2，22，2IA4，21，3IB3，41，3囚徒的困境。警察逮捕了两个嫌疑犯，警察拥有的证据只能证明他们犯了较轻的罪。警察分别把他们关在不同的房间。每个囚犯都被要求高发另一个囚犯。告发对应于策略D（背叛），不告发对应于策

17、略C（指合作）。囚犯被告知，如果他们选择告发，将被免罪。他们的证据将被用于给对方定罪。如果他们都选择告发，他们都将入狱。但是他们的刑期由于合作将会较短。4 标准型局中人：两个嫌疑犯。行动：每个嫌疑犯的行动集是沉默，告密偏好：嫌疑犯1的行动组合序列是（最好到最差）：（告密，沉默），（沉默，沉默），（告密，告密），（沉默，告密）；嫌疑犯2的是：（沉默，告密），（沉默，沉默），（告密，告密），（告密，沉默）4 标准型嫌疑犯嫌疑犯12沉默沉默告密告密沉默2,20,3告密3,01,1我们研究囚徒的困境的重要性，不在于想了解囚徒的动机，而在于许多其他的情形，都具有类似的结构。每当两个局中人的任何一个，

18、有两种选择。那么囚徒的困境模拟了局中人的情形。例如：合作项目。4 标准型12努力工作努力工作游手好闲游手好闲努力工作 2,20,3游手好闲 3,01,1双寡头垄断。4 标准型12高价高价低价低价高价 1000，1000-200，1200低价 1200，-200600，600公地悲剧。4 标准型12少吃少吃多吃多吃少吃 2，20，3多吃 3，01，1在囚徒困境中，主要问题是局中人是否合作。在以下的博弈中，局中人同意合作好于不合作，但是他们在最好的结局上存在分歧。局中人：两个朋友。行动：每个嫌疑犯的行动集是沉默，告密偏好：嫌疑犯1的行动组合序列是（最好到最差）：（告密，沉默），（沉默，

19、沉默），（告密，告密），（沉默，告密）；嫌疑犯2的是：（沉默，告密），（沉默，沉默），（告密，告密），（告密，沉默）4 标准型嫌疑犯嫌疑犯12沉默沉默告密告密沉默2,20,3告密3,01,1在囚徒困境中，主要问题是局中人是否合作。在以下的博弈中，局中人同意合作好于不合作，但是他们在最好的结局上存在分歧。性别战。局中人：两个朋友。行动：两个朋友必须决定去看电影还是听歌剧。偏好：他们都愿意待在一起。但是参与人1更喜欢歌剧，参与人2更喜欢电影。4 标准型12歌剧歌剧电影电影歌剧 2，10，0电影 0，01，2斗鸡博弈。局中人：鹰和鸽。行动：保持原方向和转向。偏好：如果他们都保持原方向，就会撞车

20、。如果都转向，就都保住了面子。如果只有对方转向，就会被称为硬汉。4 标准型12保持保持转向转向保持 0，0 3，1转向 1，32，2智猪博弈。局中人：大猪和小猪。行动：按下按钮和不按。偏好：如果他们都保持原方向，就会撞车。如果都转向，就都保住了面子。如果只有对方转向，就会被称为硬汉。4 标准型12按下按下不按不按按下 4，2 2，3不按 6，-10，05 信念、混合策略和期望效用以后，我们将提出某些进行博弈的理性行为的概念。这些概念的基础想法，是通过某些过程，互相形成对方行为的信念。因为我们的目的是，建立决策的数学模型，我们需要精确地表示一个参与人的信念。我们使用概率。例如，参与人1

21、的信念，是参与人2的策略的概率分布。参与人1的信念是，参与人2以概率p选择C；以概率1-p选择D。5 信念、混合策略和期望效用让我们正式定义标准型概率的信念。在数学上，参与人i的一个信念，是其他参与人的策略的一个概率分布。我们用-i来表示这个概率分布。且有-iS-i。其中，S-i是指除了参与人i之外的所有其他参与人，所采取的策略的概率分布的集合。例如，在两方博弈中(因此有-i=j)，假设每一个参与人都有有限数量的策略。参与人i对参与人j所采取的行为的信念是一个函数-iS-i，其中，对于参与人j的每个策略sjSj，(sj)可以解释为，参与人i认为参与人j可能采取策略sj的概率。5 信念、混合策略

22、和期望效用作为一个概率分布，-i具有这样的性质，对于每个sjSj，(sj)0，且sjSj(sj)=1。一个参与人的混合策略是指，他根据一个概率分布来选择策略行为。正式地说，混合策略和信念是相似的概念，它们都是概率分布。我们一般表示参与人i的混合策略为iS-i。5 信念、混合策略和期望效用我们可以把效用函数的定义，通过一个期望值的概念，扩展到混合策略和信念中。当参与人i对其他人的策略具有信念-i，并计划选择si时，他的期望收益，等于他采取策略si，而其他人根据-i采取行动时的“平均”收益。用数学表示为5 信念、混合策略和期望效用),()(),(iiiiiSsiiissussuii以下图的博弈为例

23、。假设参与人1相信，有1/2的可能性参与人2采取策略L，有1/4的可能性采取策略M，有1/4的可能性采取策略R。即他的信念2满足2(L)=1/2，2(M)=1/4,2(R)=1/4。这个信念的常用的简写方式是(1/2,1/4,1/4)。如果参与人1选择U，那么他的期望收益是u1(U,2)=(1/2)8+(1/4)0+(1/4)4)=5 5 信念、混合策略和期望效用12LMPL8，10，24，0M3，31，20，0P5，02，38，1局中人：两个嫌疑犯。行动：每个嫌疑犯的行动集是沉默，告密偏好：嫌疑犯1的行动组合序列是（最好到最差）：（告密，沉默），（沉默，沉默），（告密，告密），（沉默，告密）

24、；嫌疑犯2的是：（沉默，告密），（沉默，沉默），（告密，告密），（告密，沉默）5 信念、混合策略和期望效用嫌疑犯嫌疑犯12沉默沉默告密告密沉默2,20,3告密3,01,1第二部分静态行为分析博弈论的要点在于，通过正式模型的使用，帮助我们理解在各种经济和社会环境中的策略要素。这些环境包括市场结构、协议、公司之间的竞争、公司的内部组织、讨价还价、政治和普遍的关系。所有这些环境的全面研究过于复杂。因此，给定特定的环境，我们将试图将某些明确的特征，加入必要简化的模型，描述为一个博弈。模型可以提供一个有用的框架，用它可以探索参与人的行为。第二部分静态行为分析在我们的博弈论研究中，我们的目标有，解

25、释和理解人们实际的行为，预测人们在特定的情况下如何行动，描述人们在特定的情况下应该如何行动。第二部分介绍研究理性行为的基本工具。这些工具将策略和收益作为基础。即使用博弈的标准型设定。这里的分析可以很容易地应用于扩展型的设定。此后，我们的分析建立在参与人都理解它们进行的博弈的假设的基础上。它们都了解该标准型。第二部分静态行为分析本章讨论策略互动理论中最基本的两个概念：占优和最优反应。这两个概念是大部分关于理性行为的概念的基础。占优。占优。观察下表的博弈。假设你是参与人1。策略U有一个有趣的特性，不管参与人2选择哪个，策略U都比策略D的收益绝对地高。用专业术语说，我们称策略D劣于策略U。所以策略

26、D永远不会被理性的参与人1采纳。注意，对于参与人2来说，两个策略中，没有一个是劣策略。6 占优与最优反应12L R U 2，35，0D 1，04，3 在以下这个博弈中，参与人1的策略D是策略M的劣策略。即不管参与人2采取哪种策略，M给参与人1带来的收益都比D高。但是，策略U不是M的劣策略。6 占优与最优反应 12LC R U 8，30，44，4M4，21，55，3D 3，70，12，0下面的博弈有更加复杂的占优关系。对于参与人1而言，没有一个纯策略是另一个纯策略的劣策略。但是，混合策略要优于D。考虑参与人1各以1/2的概率选择U和M，而以概率0选择D的策略。我们将这个策略表示为(1/2,1/2

27、,0)。如果参与人2选择L，该混合策略给参与人1的收益为：2=4(1/2)+0(1/2)+1(0)参与人1采取D的收益更低。参与人2采取R时，结果也是一样的。因此，策略D要劣于混合策略(1/2,1/2,0)。6 占优与最优反应 1212L L R R U U 4 4，1 10 0，2 2M M 0 0，0 04 4，0 0D D 1 1，3 31 1，2 2 占优的概念的正式定义如下：对于参与人i的纯策略si，有策略(不管是纯策略还是混合策略)iSi，如果对于其他参与人的所有策略组合s-iS-i均能满足ui(i,s-i)ui(si,s-i)，我们就称si劣于i。检验一个策略是否是劣策略，最好的

28、方法是首先确定它是否劣于另一个纯策略。例如，为了检验参与人1的某个策略是否占优于另一个策略，只需要逐列地比较收益矩阵中，代表这两个策略的两行。如果一个策略并不劣于其他纯策略，那么你必须比较它是否劣于某个混合策略。6 占优与最优反应当涉及混合策略时，占优关系的检验就比较棘手。但是有几条诀窍：首先要注意的是，有很多不同的混合策略可以尝试。其次，在寻找混合策略时，先观察收益矩阵中，数字的变化规律。第三，只需要找到某一个策略(不管是纯策略还是混合策略)即可。最后，要确定你所检验的收益数字是正确的。6 占优与最优反应第一类策略矛盾和囚徒的困境第一类策略矛盾和囚徒的困境。在以下的囚徒的困境的博弈中，对

29、两个参与人来说，策略C都劣于策略D。因此我们预测，他们都不会选择策略C，但是，如果人们都选择策略C，他们都会得到更好的结果。6 占优与最优反应嫌疑犯嫌疑犯12C D C 2,20,3D 3,01,1囚徒的困境反映了策略环境的一个主要矛盾：个人利益与集体利益之间的冲突。双方都认识到他们都选择C时，共同得到更好的结果。但是，每个人都有个人的动机选择背叛。因为各个参与人是同时并且独立地选择他们的策略，因此个人的动机占了上风。你甚至可以想象花了很多时间讨论采取(C,C)策略组合的优点，他们甚至达成了口头协议。但是当他们分开并采取行动时，没有一方有激励根据协议采取行动。强烈的个人动机将导致集体的损失。6

30、占优与最优反应嫌疑犯嫌疑犯12C D C 2,20,3D 3,01,1关于利益冲突，我们简单地考虑两个相关的问题。首先，要记住收益数字的含义。作为效用，这些数字只是表示个人的偏好。它们不一定表示利润或货币的数量。其次，在真实的世界中，各个参与人有时选择相互之间，达成有法律约束力的合同。例如，参与人或许可以选择签订一份合同，约束他们都选择策略C。如果这样的选择是该策略环境的关键部分，我们应该将其纳入模型。囚徒困境是一个被广泛讨论的博弈，并且为经济学、社会学、政治学、国际关系及哲学等研究领域，提供了加深认识的源泉。6 占优与最优反应效率的概念效率的概念。第一种策略矛盾与经济效率有关，这是一个重

31、要的福利标准，可以用于对博弈中的行为进行评判。假设我们想比较两个策略组合的结果，它们分别为s和s。如果所有的参与人，相当于s都更加偏好于采取s，而且至少对一个参与人是严格偏好，我们称s比s更有效率。用数学表示，如果ui(s)ui(s)，对每个参与人都成立，并且不等式至少对一个参与人是严格成立的，那么s就比s更有效率。6 占优与最优反应如果不存在其他更有效率的策略组合，我们就称这个策略组合s是有效的。即对于每一个参与人i来说，不存在其他策略组合s，对于每个参与人i都满足ui(s)ui(s)，同时对某个参与人来说uj(s)uj(s)。帕累托有效表示的是同一个意思。在囚徒的困境中，(C,C)比(D

32、,D)更有效率。而且，(C,C),(C,D),(D,C)都是有效的策略组合。6 占优与最优反应嫌疑犯嫌疑犯12C D C 2,20,3D 3,01,1最优反应最优反应。理性人会避免采取劣策略的假设似乎是合理的。占优是一个具有很好描述性和说明性的概念。但是，这仅仅是我们展开行为理论的开端。实际上，在大多数博弈中，参与人具有超过一个非劣策略。这时，人们无法根据占优的标准，预测参与人会采取怎样的行动。6 占优与最优反应理性人会思考其他参与人可能采取的行动。即人们会形成对彼此行为的一种信念。在决定自己的策略之前，先对其他参与人的行为形成观点是明智的。为了使期望获得的收益最大化，我们假定这是理性行为的

33、标志，你应该选择与你的信念相对应，从而能够产生最大期望的策略。这样一个策略就称为最优反应。正式地有：假设参与人i对其他参与人采取的策略具有信念-iS-i，如果对于任何siSi，参与人i的策略siSi都满足 ui(si,-i)ui(si,-i)，那么，si是一个最优反应最优反应。6 占优与最优反应在某个信念下，可能有超过一个最优反应。不难证明，在一个有限博弈中，每个信念至少对应一个最优反应。对于参与人i的每个信念-i，我们将最优反应的集合表示为BRi(-i)。例如，假设参与人1对参与人2的策略的信念为(1/3,1/2,1/6)。即相信参与人2有1/3的可能选择L。如果参与人1选择策略U，他所能

34、期望的收益为(1/3)2+(1/2)0+(1/6)4=8/6。其他类推。如果选M，期望收益为7/6，如果选L，则为13/6。因此，他的最优反应为策略D。我们得到BR1(1/3,1/2,1/6)=D6 占优与最优反应 12LC R U 2，60，44，4M3，30，01，5 D 1，13，5 2，3假设参与人2对参与人1采取的策略，具有信念(1/2,1/4,1/4)。如果参与人2选择策略L，他所能期望的收益为(1/2)6+(1/4)3+(1/4)1=4。如果选择C，期望收益为13/4，如果选择L，则为4。因此，他有两个最优反应，为策略L和R。我们得到BR2(1/2,1/4,1/4)=L，R6 占

35、优与最优反应 12LC R U 2，60，44，4M3，30，01，5 D 1，13，5 2，3有一点需要理解的是，根据对其他参与人行动的信念，相应地采取最优反应策略本身，并不是一个策略行为。你可以把它看作是与理性有关的一种纯粹的计算练习。形成信念才是策略中的一个更加重要的部分。有一点你必须很确定，采取行动最关键的部分是信念中包含的信息。事实上，博弈的真正艺术就在这里。6 占优与最优反应 7 可理性化和重复占优占优和最优反应的概念是理性行为理论的基础。但是我们必须认识到，理性行为包含的不仅仅是避免采取劣策略。实际上，明智的博弈参与人对博弈的基本概念很清晰，即一方的行动将影响另一方的收益，需要

36、同时站在对方的立场考虑，从而对对方的行为做出聪明的估计。7 可理性化和重复占优在以下的博弈中，假设你是参与人1，你的两个策略中没有劣策略。因此你可以根据你对对方行动的信念，理性地选择策略A或B。用p表示你认为对方会采取X，用q表示采取Y，用1-p-q表示采取Z的概率。基于你的信念，你采取策略A获得的期望收益为3p+0q+0(1-p-q)=3p。你采取B的期望收益为0p+3q+1(1-p-q)=1-p+2q。因此，当3p1-p+2q时，你的最优反应是采取A。7 可理性化和重复占优12XYZA3，30，50，4B0，03，11，2当4p0，0，Q=Q1+Q2。我们使用逆需求函数为P=a-bQ。作为

37、实例，我们偶尔会考虑a=10，b=1的特殊情况。即逆需求函数为P=10-Q。该需求曲线的图像为：10 寡头、关税、犯罪与惩罚 PQ1010 0现在假设每家公司的成本函数相同，并且单位成本不随产量而变化。即每家公司具有常数的边际成本函数：生产数量Qi的成本为cQi。其中c0，i=1,2。每家公司将生产多少？为了做出决策，每家公司必须采取两个步骤：1.对另一家公司的产量进行预测。2.决定生产的数量。10 寡头、关税、犯罪与惩罚本节我们将通过模型说明，(a)如何把一个问题的非正式化描述，转化为一个博弈的标准式表述。(b)如何通过计算解出博弈的纳什均衡。令q1、q2分别表示企业1、2的同质产品的产量

38、。令P=a-bQ 为市场出清时的价格。设企业i生产Qi的总成本ci(Qi)=cQi，企业不存在固定成本，且生产每单位产品的边际成本为常数c。根据古诺的假定，两个企业同时进行产量决策。10 寡头、关税、犯罪与惩罚为了求出古诺博弈的纳什均衡，我们首先要将其化为标准式的博弈。博弈的标准式表述包含下列要素:(1)博弈的参与人；(2)每个参与人可以选择的战略；(3)针对某一个可能出现的参与人的战略组合，每一参与人的收益。双寡头模型只有两个参与人。每一个企业可以选择的战略，是其产品的产量。我们假定产品是连续可分的。每一个企业的战略空间可以表示为Si=0,)。其中一个战略si就是企业选择的产量Qi0。要全

39、面表示一个博弈，并且求其均衡解，还需要把企业i的收益表示为两一个企业选择的策略的函数。我们假定企业的收益就是其利润额。在两个参与人的标准式博弈中，参与人i的收益ui(si,sj)就可以写为：i(Qi,Qj)=Qip(Qi+Qj)-c=Qia-b(Qi+Qj)-c10 寡头、关税、犯罪与惩罚在一个标准式的两方博弈中，一对战略(s1*,s2*)如果是纳什均衡，则对于每个参与人i，si*应该满足：ui(si*,sj*)ui(si,sj*)上式对Si中每一个可选战略si都成立。这一条件等价于，对每个参与人i，si*必须是以下最优化问题的解：在古诺双寡头模型模型中，上面的条件可以具体表述为，一对产出组

40、合(Qi*,Q2*)如果是纳什均衡，对每一个企业i，Qi*应该为下列最优化问题的解：10 寡头、关税、犯罪与惩罚),(max*jiSsssuii)(max),(max*0*0cQQbaQQQjiiQjiiQii利润是二次函数，存在一个最大产量，表示为Q1*，我们可以通过对该问题的一阶条件计算得到：a-c-bQ2*=2bQ1*或者Q1*=(a-c-bQ2*)/2b。让我们记这个最优反应函数为R1。对称的推理R2的最优反应函数也有：10 寡头、关税、犯罪与惩罚 bcabbQcabcaQR222Q2Q021)(如果如果bcabbQcabcaQR111Q2Q012)(如果如果我们把这两个最优反应函数的

41、图像进行合并。10 寡头、关税、犯罪与惩罚 Q2 Q1(a-c)/b(a-c)/2b(a-c)/b(a-c)/2b注意唯一的一对生产数量Q1*和Q2*，反应函数在该点相交。因此这是一对满足下列条件的产量：R2(Q1*)=Q2*R1(Q2*)=Q1*换言之，这一对产量就是该博弈的古诺-纳什均衡。经过计算得出如下均衡的产量、价格和利润：每家公司的生产数量价格每家公司的利润 (a-c)/3b (a/3)+(2c/3)(a-c)2/9b 10 寡头、关税、犯罪与惩罚卡特尔解。卡特尔解。作为对比，如果两家公司如卡特尔一样运作，即如果它们对各自的生产决策进行协调我们来计算它们将生产的产量。如果两个公

42、司共谋，可以合理地假设，它们以最大化它们的联合利润，设置它们的生产目标。它们预先指定生产“配额”为Q1和Q2，它们的选择是使得总利润最大化：换言之，这一对产量就是该博弈的古诺-纳什均衡。经过计算得出如下均衡的产量、价格和利润：10 寡头、关税、犯罪与惩罚)()(max2121,21QQcQQbaQiQQ卡特尔解问题与最优反应问题之间的区别在于，在此两家公司明确主张它们的利润是由它们的总产量确定的。使利润最大化的总产量也由一阶条件确定：a-c-2bQ2=2bQ1 a-c-2bQ1=2bQ2 这两个公式可以用来解卡特尔的产量、价格和利润：每家公司的生产数量价格每家公司的利润 (a-c)/4b

43、(a+c)/2 (a-c)2/8b 古诺纳什均衡：(a-c)/3b (a/3)+(2c/3)(a-c)2/9b10 寡头、关税、犯罪与惩罚卡特尔的产量、价格和利润：每家公司的生产数量价格每家公司的利润 (a-c)/4b (a+c)/2 (a-c)2/8b 古诺-纳什均衡：(a-c)/3b (a/3)+(2c/3)(a-c)2/9b注意，如果两家公司像卡特尔一样经营，它们的产量将会少一些。卡特尔产量是古诺-纳什均衡产量的75%。而在卡特尔的每家公司的利润较高。10 寡头、关税、犯罪与惩罚人们自然会提出一个问题，为什么两家公司不去通过削减产量增加利润呢？如同囚徒困境一样，答案是对群体好的事

44、情，对个体未必也好。如果公司试图像卡特尔那样生产，每家公司都将存在激励或者动机，欺骗对方，并在另一家公司蒙受损失的情况下，增加自己的利润。实际上，如果公司2生产卡特尔的产量(a-c)/4b，由公司1的反应函数计算得出，公司1的最大化产量是3(a-c)/8b。当Q1增加而Q2并不增加时，公司2毋庸置疑会变得更糟。因为，市场价格下跌了，而公司2销售了完全相同的数量。10 寡头、关税、犯罪与惩罚假如我们有规模为y的公共资源。两个参与人各可以瓜分一个非负量(c1和c2)用于消费。假设c1+c2y。当总的消费量小于y时，剩余量y-(c1+c2)是未来消费的基础。在第二周期，他们平分余下的总量，每人得到

45、y-(c1+c2)/2。参与人1的最优反应问题是：Maxc1 logc1+logy-(c1+c2)/2由一阶条件，参与人1的最优反应数量为：1/c1=1/y-(c1+c2)R1(c2)=(y-c2*)/2代入反应函数，我们可以计算得到纳什均衡为：c1*=c2*=y/3应用：公共问题社会最优性社会最优性。两个参与人的效用之和最大化，即如果它们是下述问题的解：Maxc1,c2 logc1+logc2+2logy-(c1+c2)/2这种方法可以求得社会最优解为：c1*=c2*=y/4注意，在这种情况下，正好一半资源用于第一个周期。与纳什均衡相比，那里用于第一个周期的资源，有2/3之多。在这个意义上

46、，在纳什均衡中，我们对资源存在过度的榨取，即我们经受了公地悲剧。应用：公共问题 11 混合策略纳什均衡有些博弈并不存在纳什均衡。看看以下的赌便士游戏。在这个博弈中，没有稳定的策略组合。因为每个组合都有一个“赢家”和一个“输家”。在赌便士游戏中，各个参与人随机采取策略是可行的。以1/2的概率选择每种纯策略看来似乎不错。事实上，这样的策略组合从混合策略的角度看是一个纳什均衡。在对手以相同的概率选择H和T的情况下，该参与人选择策略H和T的收益是一样的。因此，他的所有策略都是最优反应。包括在H和T之间以相同的概率进行选择的混合策略。11 混合策略纳什均衡12H T H 1，-1-1，1 T -1，1

47、 1，-1一般情况下，纳什均衡的概念可以扩展到混合策略。一个混合策略纳什均衡，是具有这样特性的一个混合策略组合，在给定其他参与人的策略的情况下，没有参与人可以通过改变策略来增加自己的收益。考虑策略组合=(1,2,n)，其中对于每一个参与人i，iSi。当且仅当ui(i,-i)ui(si,-i)对于任何siSi和每一个参与人i都成立时，组合是一个混合策略纳什均衡混合策略纳什均衡。也就是说，对于每一个参与人i来说，i是-i的最优反应。11 混合策略纳什均衡考虑两个公司之间的游说博弈。游说的成本是15。如果两个公司进行游说，或者没有公司进行游说，每个公司都获得10。如果只有公司Y进行游说，收益为30

48、。如果只有X进行游说，收益为40。可以证明这个博弈有两个纯策略纳什均衡,(N,L)和(L,N)。除了这些纯策略均衡，还存在一个混合策略均衡。11 混合策略纳什均衡XYL N L -5，-525，0 N 0，15 10，10除了这些纯策略均衡，还存在一个混合策略均衡。假设公司X混合采取L和N，通过采取L的期望收益，必须等于N取得的期望收益，否则公司X会严格偏好于选择L和N。但是，公司X的策略L和N如何能够得到同样的期望收益？一定是Y的行动导致这样的期望。因为如果Y采取纯策略，那么X一定会严格偏好一种策略。用q表示公司Y采取L的概率，即(q,1-q)是公司Y的混合策略。在这个策略下，公司X选择L可

49、以期望获得q(-5)+(1-q)(25)，而选择N时等于q(0)+(1-q)(10)。如果公司X愿意采取混合策略，则一定有25-30q=10-10q。简化可得q=3/4。11 混合策略纳什均衡XYL N L -5，-525，0 N 0，15 10，10我们继续分析Y的动机。用p表示公司X取L的概率。如果Y选择L可以期望获得p(-5)+(1-p)(15)，而选择N时等于10-10p。如果15-20p=10-10p，公司Y在两个策略之间选择，就没有差别。简化可得p=1/2。混合策略组合(1/2,1/2),(3/4,1/3)是混合策略纳什均衡。给定公司Y的混合策略的情况下，公司X的混合策略是最优反应

50、。实际上，对于公司X来说，每一个策略都是最优反应。11 混合策略纳什均衡XYL N L -5，-525，0 N 0，15 10，10我们在构建一个混合策略纳什均衡时，出现了一个有趣的新变化。我们寻找一个参与人的混合策略，使得另一个参与人对自己的各个纯策略之间的选择，没有偏好差别。这是计算混合策略均衡的最好的方法。注意，每一个纯策略的均衡，也可以看作是混合策略的均衡。因此目前分析的所有博弈，至少会有一个均衡。事实上，这是一个一般性的结论。这个结论相当有用，它保证了纳什均衡概念，为每一个有限博弈提供预测。11 混合策略纳什均衡 13 静态环境下的合同、法律和执行正如纳什均衡概念中提到的，有许多机

展开阅读全文