1、第六讲 博弈论基础一 博弈论的发展阶段1 传统阶段:Theory of Oligopoly:Cournot(1838)Betrand(1883)Theory of Bargaining:Edgeworth(1887)Hicks(1932)2 现代阶段:Von Neumann&Morgenstern(1944)John Harsanyi&John Nash&Reinhard Selten01-3-213、应用阶段(1)宏观经济学:政策动态一致性(SPNE)劳动力市场(金融)信贷市场(2)微观经济学 外部性 公共产品的投资激励 工资(薪酬)决定01-3-22应用阶段(续)(3)市场营销 Sales
2、 Force Mgt.Channel Mgt.Pricing Startegy(4)产业组织理论 市场竞争与 R&D 竞争 市场进入与反进入 广告方法选择 产业规制 01-3-23二、合作博弈 Cartel(OPEC)RJVs 合作讨价还价模型(Nash,1950):Max(X1-D1)(X2-D2)ST X1+X21 其中,D1、D2分别为 1 与 2 的初始禀赋,成为威胁点(ThreatPoint),产权配置改变 D1、D2。当 D1=D2,X1=X2=1/2 01-3-24三、非合作博弈1 引例(1)零和博弈(对抗性)猜拳 打牌、下棋(2)非零和博弈 囚犯困境 体育比赛 航空公司价格战0
3、1-3-252、博弈规则(1)参与人(Players):k=1,2,n(虚拟参与人自然)参与人是理性的(即谋求效用最大化)(2)参与人的行动集(Action Set):行动 akAK(行动集合),k=1,2,n 行动组合(Profile):a=(a1,a2,an)=(ak,a-k)Ak01-3-262、博弈规则(续)(3)行动的先后顺序 静态(Static 同时)动态(Dynamic 先后)(4)信息结构:参与人在行动时知道了什么()战略()(,)(,)01-3-272、博弈规则(续)参与人 k 的战略应说明 k 在各种可能情况下的行动方针,如:胡荣华与赵国荣下一盘象棋,胡自始至终的行动计划称
4、为“战略”;而每一步棋称为“行动”静态时,战略=行动 动态时,战略行动01-3-282、博弈规则(续)“兵来将挡、水来土掩”“以不变应万变”、“以静制动”毛主席语录:“人不犯我,我不犯人;人若犯我,我必犯人”这里,人的行动集:犯;不犯;人的战略集:犯;不犯 我的行动集:犯;不犯01-3-292、博弈规则(续)而我的战略集合:s1,s2,s3,s4 其中,s1=(犯,犯);s2=(犯,不犯)s3=(不犯,犯);s4=(不犯,不犯)上述例子,我的战略为 s2(6)支付(Payoff):UK(s1,s2,sn)=UK(sk,s-k)01-3-2102、博弈规则(续)博弈:规定谁在什么时候行动;行动时
5、知道了什么;有什么可供选择;得到多少 有限博弈:参与人有限;行动集合有限 博弈规则为共同知识的博弈称为完全信息博弈 所有参与人在行动时均知道其他参与人之前的行动的博弈称为完美信息博弈 完美完全;不完全不完美01-3-211四、博弈的表示方式1 矩阵博弈例:囚犯困境 囚犯 B C DCC -5-5 -100囚犯ADC 0-10 -2-2 01-3-212例:性别战(Battle of)新婚夫妇:Paul Opera Football OperaSandy Football 百年夫妻:Paul Opera Football OperaSandy Football2 1 0 00 0 1 22 0
6、0 20 1 1 001-3-213、博弈树例:欧盟航空公司空中争夺战 中陆¥380¥490 法航 法航 380 490 380 490 (8,8)(13,4)(4,13)(10,10)01-3-214例:囚犯两难(困境)矩阵博弈与博弈树的转换 (-5,-5)C B C DC (0,-10)A DC C (-10,0)B DC (-2,-2)01-3-215五、均衡(Equilibrium)静态 动态 完全信息 不完全信息 NE SPNE BNE PBNE01-3-216纳什均衡()1、定义:战略 S*=(s*1,s*2,s*n)为 NE 战略等价于 对 k=1,2,n,有 s*kargMax
7、Uk(s*k,s*-k)也就是说,在均衡战略下,如果他人不改变战略,任意参与人不会单方面改变战略01-3-217、的求解例 1:囚犯困境 囚犯 B C DC C囚犯 A DC 验证:s*1=(C,C);s*2=(C,C)为 NE 战略 但 Pareto 改进(-2,-2)未能自发达到外部性 个人理性与集体理性产生冲突-5 -5 0 -10-10 0 -2 -201-3-218外部协调机制 内部协调不能达到 Pareto 最优(如:Cartel 不能维持)由外部协调机制来解决,如黑社会:囚犯 B C DC C囚犯 A DC-10-10 -2 -201-3-219例 2:航空价格战 中 陆¥380
8、¥490¥380法航¥490NE:(8,8)例 3:性别战 新婚夫妇:2 个 NE:(Opera,Opera);(Football,Football)百年夫妻:纯战略 NE 不存在8 8 13 44 13 10 1001-3-2203、NE 战略存在性定理(Nash,1950):每个有限博弈至少存在一个 NE(纯战略或混合战略)混合战略(Mixed Strategy):关于纯战略集的概率向量 k=(k,1,k,2,k,nk)例:社会福利博弈 流浪汉 寻找工作 游荡 救济 政府 不救济3 2 -1 3-1 1 0 001-3-221 纯战略 NE 不存在 求混合战略 NE:设政府的混合战略 G=
9、(,1-)设流浪汉的混合战略 L=(,1-)则,VG(G,L)=VG(1,)+(1-)VG(0,)=3+(-1)(1-)+(1-)-+0(1-)=(5-1)-VL(G,L)=VL(,1)+(1-)VL(,0)=2+(1-)+(1-)3+0(1-)=-(2-1)+3 01-3-222 由 VG(G,L)=5-1-得到政府的反应对应:=0,当02;0,1,当=02;=1,当02 由 VL(G,L)=-2-1+3 得到流浪汉的反应对应:=1,当05;0,1,当=05;=0,当05 NE:(*G,L*)*G=(05,05)L*=(02,08)01-3-223 另解(支付最大法):一阶条件(FOC):d
10、VG/d=0;dVL/d=0 *=02;*=05 为什么 VG对求偏导,却得到?流浪汉的混合战略如何直观理解?(HarSanyi)设有 100 个流浪汉,则大约 20 个在寻找工作;另外的 80 个在游荡01-3-224SPNE1 引例:市场进入博弈 Entrant(E)Out I(Incumbent)(0,2)F A (-3,-1)(2,1)01-3-225 2 个纯战略 NE:Out;Fight If In;In;Accommodate If In NEOut;F If In在均衡路径上最优;但在非均衡路径上(右枝)非最优:若 E 真的 In,I 的选择将是 A Out;F If In是不
11、合理的;I 的威胁是不可置信的(In-Credible)那么,如何剔除基于不可置信威胁的不合理的 NE?Selten(1975)引进 子博弈精练纳什均衡(SPNE)的概念01-3-2262、子博弈(Sub-Game):始于单结点信息集的决策结点 包括该决策结点的所有后续结点与终结结点 不能切割信息集 例:1 2 2 3 3 3 301-3-2273、SPNE:原博弈的 NE;且在每个子博弈上均构成NE4、SPNE 的求解:例 1市场进入:SPNE:(In;A If In)例2 1 3 2 l r a b 2 -1 3 30 5 l r l r1 6 3 5 0 -2 1 4 -1 2 2 4
12、7 001-3-228 L R (-1,5,6)a b(5,4,4)(0,-1,7)L (-1,5,6)1 R (5,4,4)01-3-229 SPNE(s1,s2,s3):s1=R;s2:a If 1 Plays R;s3:=r,If 1 Plays L;=r,If L Plays R and 2 Plays a;=l,If L Plays2 Plays 均衡结果:(;)01-3-230求解的一般过程 Maxa2A2U2(a1,a2)反应函数 a2=R2(a1)Maxa1A1U1(a1,a2(a1)反应函数 a*1 得到:SPNE(a1;R2(a1);均衡结果(Outcome):(a*1;R
13、2(a*1)例:Stackelberg(1934):Leader-Follower Model01-3-231 (贝叶斯纳什均衡)BNE1 引例 t21 t22 2 L R L R 1 1 0 0 1 U 3 2 3 2 1 0 0 1 D 0 4 0 401-3-232 参与人 2 有两种类型:t21 与 t22,其战略为类型依存的,S2(t2):从类型空间到战略空间的映照 参与人 1 对参与人 2 的类型有先验概率 P(t2):(1/2,1/2)验证:(S1*,S2*)为 NE,其中 S1*=U;S2*(t2)=L,若 t2=t21;S2*(t2)=R,若 t2=t22 证明:给定 S2*
14、,求参与人 1 的期望效用:若 S1=U,则1=1/23+1/22=5/2 若 S1=D,则1=1/20+1/22=2 所以,给定 S2*,S1*=U 为参与人 1 的最优战略01-3-233 反之,给定 S1*,S(t21)=L;S(t22)=R 分别是 t21与 t22类型的参与人 2 的最优战略2Static BG 的定义:I;Si;ui();F()Si为 i 的战略空间,siSi为 i 的战略(类型依存的)=12I,而ii为 i 的类型 Ui(si;s-I;i)F()=F(1,2,I)为联合分布函数;密度函数 P(1,2,I)与条件概率 Pi(-i/i)为共同知识(KN)01-3-23
15、43BNE:Si*()iI=1满足:对任意的ii,有:Si*(i)argMaxsi(i)ui(si,s-i;i)P(-i/i)i=1,2,I01-3-235例 1:Duopoly Cournot反需求函数:,、,利润函数:()()其中设,;(低成本)();(高成本)()则;();()求01-3-236 BNE:s1=q1;s2(t2)=q2(t2)=q2H(t=3/4);q2L(t=5/4)q2(t2)argMaxq2(t2-q2-q1)q2(t2)=(t2-q1)/2 q1argMax1/2q1(1-q1-q2H)+1/2q1(1-q1-q2L)q1=(1-E(q2)/2 E(q2)=(E(
16、t2)-q1)/2=(1-q1)/2 BNE:q*1=1/3;q2L=11/24,q2H=5/2401-3-237 与完全信息情形下的比较:若 t2=5/4,q1*=1/21-q2;q2*=1/25/4-q1q1*=1/4;q2*=1/2若 t2=3/4,q1*=5/12;q2*=1/6在不完全信息下,由于企业 1 不知道企业 2 的类型,只能生产预期平均产量(1/3):高于完全信息下面对低成本企业 2 时的产量(1/4);抵于完全信息下面对高成本企业 2 的产量(5/12)q2 q1(q2)=1-E(q2)/2 5/8 11/24 NE(1/4,1/2)3/8 5/24 NE(5/12,1/
17、6)q1*=1/3 q2H(q1)q2L(q1)q101-3-238例 2R&D 投资决策博弈(骆品亮,2001)假设:企业 i=1,2;R&D 成本 C0,1;i 的类型i为0,1上均衡分布,从 R&D 中获益为i2 BNE:si(i)=1(投资),ii*;0(不投资),否则 i 投资当且仅当:i2-Ci2 Probsj(j)=1 或 iC/(1-Psj(j)=1)1/2=*i 由对称性,Psj(j)=1=1-*j*i=C/*j1/2 由对称性,*1=*2=C1/3 BNE:si(i)=1,当iC1/3;0,否则01-3-239 若只有一家企业,则投资当且仅当 i2C 或 iC 不投资概率C
18、 在两家企业下,不投资概率*2=C2/3C;但每个企业投资的可能性(1-C1/3)(1-C),即 2 个企业下,每个企业投资的可能性小于只有一家企业的情形 Free-Rider 问题,骆品亮,200101-3-240例 3Auction:一级密封拍卖模型 参与人:一个卖者();个投标者(),行动顺序:个投标者同时出价,信息结构:投标者对物品的实际评价为,上均衡分布,是私有信息 支付:出价最高者得到物品,并以其出价成交,则,(),假定()求对称的01-3-241BNE:b=b*(v)=(v-b)Probbjb+1/2(v-b)Probbj=b+0Probbjb =(v-b)Probbjb =(v
19、-b)Probb*(vj)b =(v-b)Probvj(b)=(v-b)(b)其中,(b):出价为 b 时对物品的实际评价 由 d/db=0,得到:(b)=(v-b)1(b)即:v=(b)=(v-b)dv/dbd(vb)/dv=vb=v/2所以,b1*=v1/2;b2*=v2/2为 BNE与完全信息情形相比,卖者只能得到卖者真实评价的一半 01-3-242 矫正方案:1 竞争性拍卖(增加投标者人数(n):=(v-b)jiProbbjb=(v-b)n-1(b)b=v(n-1)/nv(n)2 二级密封拍卖机制:(多人竟标)出价最高者得到物品,但以次高价成交。则:每人以其实际评价出价是占优战略,从而
20、是 NE:事实上,不妨设 0 v1 v2 vn 1 记 b*=Maxjibj,则 若 vib*,i 应得到物品,出价 bb*;但 b(b*,)对其福利无影响,取 b=vi(b*,)若 vIb*,I 不应得到物品,出价 bb*;但 b(0,b*)对其福利无影响,取 b=vi(0,b*)01-3-243 PBNE(子博弈精练贝叶斯纳什均衡)回顾:NESPNE;限定在每个子博弈上均构成 NE,以剔除基于不可置信威胁的 NE BNE:战略是类型依存的 PBNE:SPNE+BNE01-3-244一 引例 R 1 3 L p 1-p M L1 R1 L1 R1 2 0 0 0 1 0 2 101-3-24
21、5 转化为矩阵博弈 2 L1 R1 L 2 1 0 0 1 M 0 2 0 1R 1 3 1 3 纯战略 NE:(L,L1);(R,R1)由于原博弈只有一个子博弈,所以,(L,L1)与(R,R1)均为 SPNE。但是,R1是 2 的劣战略,因而,(R,R1)是不合理的 可见,SPNE 不足以剔除(R,R1),引入后续博弈(ContinuedGame)的概念:始于任意信息集(单结点或非单结点)01-3-246二PBNE 要求:在参与人 i 的每个信息集上(hiHi),i 要对处于哪个决策结点给个判断(Belief):(x)xHi,满足:xHi(x)=1 给定判断(x),战略必须是序贯理性的(Se
22、quential Rational),即在每个后续博弈上构成 BNE。例如:在上例中,(R,R1)是非序贯理性的:给定信念(p,1-p),Eu(R1)=p0+(1-p)1=1-p 而 Eu(L1)=p1+(1-p)2=2-p 所以,R1不是 2 所在后续博弈的最优战略 判断(信念)是合理的(Reasonable):判断是基于均衡战略、由 Bayes 法则修正得到的01-3-247 Bayes 法则 先验概率(Ex ante/Prior Probability)P(i)若观测到行动 ai后,修正 i 属于 类型i的概率,得到后验概率(Ex Post/Posterior):P(i/ai)由 P(i
23、,ai)=P(ai)P(i/ai)=P(i)P(ai/i)得到:P(i/ai)=P(ai/i)P(i)/P(ai)=P(ai/i)P(i)/jP(ai/j)P(j)例:P(好人/好事)=P(好事/好人)P(好人先验概率)P(好事/好人)P(好人先验概率)+P(好事/坏人)P(坏人先验概率)01-3-248三PBNE 的定义a;是以下方程组的不动点:aa*(Bay(a):给定判断,战略是最优的 Bay(a*():推断是运用 Bayes 法则,从战略与所观测到的行动得到的其中,战略组合 a=(a1,a2,aI)判断组合=(1,2,I)01-3-249四信号传递模型(Signaling Model)
24、Signaling 发送者(代理人)接收者(委托人)Screening发信号:质量:Guaranty 能力:Education(Spence,1974)成本:Limit Pricing(KWMR,1982)甄别机制:Pay For Performance 能力测试(面视/笔试)01-3-250 信号传递一般模型 参与人:Senders(S)类型 ii,i=1,2,I Receiver(R)S 发信号:mmj(j=1,2,J)R 观测到信后,行动:aak(k=1,2,K)支付:uS(i,mj,ak);uR(i,mj,ak)01-3-251PBNE:m*();a*();P(/m)满足 a*(mj)
25、argMaxakiP(i/mj)uR(i,mj,ak),mj m*(i)argMaxmjuS(i,mj,a*(mj),i P(i/mj)是依据观测到的信号 mj及 S 的最优战略依 Bayes法则修正得到01-3-252 Spence()Education 应聘者():类型(生产效率或能力),;先验概率分别为,行动:教育投资水平;教育成本:()支付:()顾主():以所观测到的行动(学历教育或教育投资)推断应聘者的劳动生产率,从而支付工资:()01-3-253问题:高能力者的教育投资至少应多大才能使其与低能力者区别开来?(即产生分离均衡 Separating Equilibrium)首先,可以证
26、明:在均衡战略下,低能力者的教育投资水平不比高能力者高,即 e1*e2*事实上,由(e1*)-e1*/1(e2*)-e2*/1及 (e2*)-e2*/2(e1*)-e1*/2有:(1/1-1/2)(e2*-e1*)0所以 e2*e1*01-3-254 在分离均衡下,由于 e1*e2*,所以,e1*=0确定 e2*,使得(e1*=0,e2*);(e1*)=1,(e2*)=2)加上 P11/e1e2*=1;P11/e2*=0成为 PBNE:由 1 2-e2*/1及 2-e2*/2 1得到:2(2-1)e 2*1(2-1)所以,有无穷多个 PBNE01-3-255结束语结束语我们还在路上,余晖消失之前都不算终点。Thank you for coming,send this sentence to you,we are still on the road,before the afterglow disappears are not the end.为方便温习本节课程内容,本课件可在下载完成后进行查阅Thank you for listening.For the convenience of reviewing the content of this course,this courseware can be viewed after downloading