1、第二十一章 博弈论2博弈论o 博弈论的发展n 早期的探索 o Waldegrave(1713)、Cournot(1838)、Zermelo(1913)、Borel(1921-27)等n基本框架的形成o John von Neumann and Oskar Morgenstern(1944)Theory of Games and Economic Behavior3博弈论o 合作博弈与非合作博弈n 合作博弈:参与者之间可以达成一个可信的联盟,大家选择一个联合战略。n 非合作博弈:参与者之间不能达成可信的联盟,各自根据自身效用最大化来行动。4博弈论o 例:古诺竞争合作解:合谋均衡非合作竞争解:古诺
2、均衡5博弈论o 非合作博弈理论的发展n Nash(1950):纳什均衡n Selton(1960):子博弈精练均衡o 动态博弈与不可信威胁n Harsanyi(1967-68):贝叶斯纳什均衡 o 不完全信息与信念的形成1994年若贝尔经济学奖6博弈论o 非合作博弈分类完全信息不完全信息静态(同时行动)完全信息静态博弈不完全信息静态博弈动态(序贯行动)完全信息动态博弈不完全信息动态博弈信息时间7纳什均衡o 博弈的表述(博弈结构)n 参与者:有谁参与?n 行动顺序:按什么顺序行动?n 战略集:当i行动时可以选择哪些行动?n 信息集:当i行动时知道什么?n 支付函数:给定每个人的选择后,每个参与者
3、能够得到什么?8纳什均衡o 标准式博弈完全信息静态博弈n 单个要素:参与者、纯战略集、支付函数。n 支付矩阵(-1,-1)(-9,0)(0,-9)(-6,-6)囚徒困境沉默招认招认沉默囚徒1囚徒2,.,1),.,(,1nissuSGnii9纳什均衡o 如何预测博弈的结果?10纳什均衡o 占优战略(Dominant Strategy)n 战略 是参与者i的占优战略,如果对于任意其他可行的战略 ,对于其他参与者的每一个战略组合,i选择 的收益都不小于选择 的收益。isiiSs isis 理性的参与者一定会选择占优战略),(),(iiissussuii iiiiSsSs,11纳什均衡o 占优战略(-
4、1,-1)(-9,0)(0,-9)(-6,-6)囚徒困境沉默招认招认沉默囚徒1囚徒2(招认,招认)12纳什均衡o 不存在占优战略:性别博弈音乐会足球音乐会足球(0,0)(0,0)(1,2)(2,1)男女13纳什均衡o 纳什均衡n 逻辑:从参与者的资源选择理论到处他们的最优战略。n 均衡的性质:每个参与者选择的战略一定是针对其他参与者战略选择的最优反应。具有战略稳定性,即,没有一个参与者愿意独自偏离他所选择的战略。14纳什均衡o 纳什均衡(定义)n 战略组合 是一个纳什均衡,如果,对于每一个参与者都有:).,.,(*1nsssi),(),(*iiissussuiiiiSs 15纳什均衡o 纳什均
5、衡(-1,-1)(-9,0)(0,-9)(-6,-6)囚徒困境沉默招认招认沉默囚徒1囚徒2(招认,招认)16纳什均衡o 基本假设n 参与者都知道博弈结构,而且知道其他参与者也都知道博弈结构n 参与者都知道其他参与者是理性的,知道别人知道自己是理性的17纳什均衡o 共同知识(Common Knowledge)n 我们说知识M是共同知识,如果每个参与者知道M,参与者知道“每个参与者知道M”,18纳什均衡o 私人信息:n 在博弈结构中或在博弈开始前,参与者i的私人信息是指他知道,但不是所有参与者的共同知识。o 完全信息:没有私人信息的博弈结构没有私人信息的博弈结构o 不完全信息:存在私人信息的博弈结
6、构存在私人信息的博弈结构19纳什均衡o 例:古诺竞争n 成本信息20纳什均衡o 信息:n 决策相关信息支付相关信息o 不完全信息:n 有些参与者不知道其他参与者的支付函数21纳什均衡o 纳什均衡:均衡的多重性o 均衡的选择问题n 习惯、社会习俗等性别博弈音乐会足球音乐会足球(0,0)(0,0)(1,2)(2,1)男女22纳什均衡o 纳什均衡:均无穷个纳什均衡分饼博弈:分饼博弈:有一单位财富在两个人之间分配,两人同时提出自己的份额si 如果s1+s21,那么两个人都一无所获。23纳什均衡o 纳什均衡:n 不存在纯战略纳什均衡(-1,1)(1,-1)(1,-1)(-1,1)正面背面正面背面猜硬币2
7、4纳什均衡o 混合战略n 参与者i的一个混合战略是指在其纯战略空间 中的一个概率分布。iS确定选采取某一个纯战略的概率。正面,背面iS)1,(ppi混合战略:1,0p纯战略空间:25纳什均衡o 纳什均衡:n 混合战略(-1,1)(1,-1)(1,-1)(-1,1)正面(z)背面(f)正面(z)背面(f)猜硬币参与者 i 选择正面的概率为P参与者 j 选择正面的概率为q参与者1参与者2),z()1(),z(),(111fuqpzpquqpu),()1)(1(),()1(11ffuqpzfqup参与者1的期望收益:26纳什均衡o 纳什均衡n 混合战略)1)(1()1()1(),(1qpqpqppq
8、qpu1422pqqppMax最优反应函数:0 1,01)(qp5.0q5.0q5.0q27纳什均衡o 混合战略1/21/2pq)(qp)(pq猜硬币)5.0,5.0(),(*qp28纳什均衡o 练习2:监督博弈:求解纳什均衡努力偷懒监督不监督(0,-h)(W-g,V-W-h)(W-g,V-W)(W,-W)代理人委托人WghW=10,g=5,h=3,v=1529完全信息动态博弈o 例:敲诈博弈n 博弈分两步:1、参与者1选择支付1000¥给参与者2,好事一分不给。2、参与者2在看到1的选择后,选择是否引爆手雷把两人一块炸死。o 参与者参与者2的威胁:不给就引爆的威胁:不给就引爆是否可信?是否可
9、信?30完全信息动态博弈o 例:敲诈博弈给不给(R,R)参与者1参与者2(0,1000)(0,1000)(R,L)(L,R)(L,L),(1000,0)(1000,0),(),(),(参与者1的战略空间:给,不给参与者2的战略空间:(R,R),(R,L),(L,R),(L,L)R:不拉;L:拉31完全信息动态博弈o 扩展式博弈n 博弈树博弈树博弈树1、结点:决策结 终点结2、枝:可行行动3、信息集32完全信息动态博弈o 敲诈博弈:参与者1给不给参与者2RRLL0100010000敲诈博完美信息:后动者能够观察到先动者的行为33完全信息动态博弈o 囚徒困境囚徒1沉默坦白囚徒2沉默坦白坦白-1-1
10、0-9沉默-90-6-6不完美信息不完美信息:不能观察到他人的行为34完全信息动态博弈o 逆向推理ABCDE510728121072251、求最后决策者在给定结点上 的最优选择2、给定最后决策者的选择,分析最后第二格决策者的最优选择最后由初始结点上的决策者决定最终结果35完全信息动态博弈o 子博弈精练均衡(非正式定义)n 由逆向推理得到的均衡解为子博弈精练均衡不包含不可置信威胁的纳什均衡36完全信息动态博弈o 子博弈精练均衡参与者1给不给参与者2RRLL0100010000敲诈博弈37完全信息动态博弈o 例:序贯谈判I:最后通牒博弈提议着1III回应者2AARR915500001、先由提议者提
11、议其中一种分配方案2、回应者看到提议后,决定是否接受 该提议,如果接受则岸提议方案分配,如果拒绝,双方都得到0。双方通过谈判决定10单位财富的分配38重复博弈o 重复博弈n 将“阶段博弈”重复进行n 一个“阶段博弈 ”构成一个完整的博弈结构阶段博弈完成后得到相应的支付。G39重复博弈o 重复博弈n 考虑“未来行动的威胁或承诺能否影响当前行动?”关键在于未来行动的威胁或承诺是否可信如:价格战威胁、合谋承诺40重复博弈o 重复两次的囚徒困境以什么来支持或激励对方合作?背叛合作背叛合作囚徒1囚徒2(0,0)(15,-5)(-5,15)(10,10)第一期背叛合作背叛合作囚徒1囚徒2(0,0)(15,
12、-5)(-5,15)(10,10)第二期逆向推理:第二期合作是否可能?41重复博弈o 有限次重复博弈n 如果阶段博弈 有唯一的纳什均衡,那么对于有限次重复博弈 由唯一的子博弈精练均衡:即将阶段博弈的纳什均衡在每阶段重复进行。G)(TG42重复博弈o 在充重复博弈中实现合作的可能性n 无限重复n 阶段博弈存在多重均衡43重复博弈o 无限重复博弈n 冷酷战略:只要对方不背叛就选择合作,如果对方背叛,那么在随后各期博弈中将永远选择背叛。背叛支付给定参与者1采取冷酷战略,参与者2:150.015)(2背叛U合作的支付:11010.101010)(22nU合作3/1只要参与者2的贴现因子:,那么参与者2就有激励合作。44重复博弈o 无名氏定理(Friedman,1971)n 设 为阶段博弈 的一个纳什均衡下的支付组合,表示 的其他可行的收益组合。如果参与者的贴现因子足够高,那么无限重复博弈 存在一个子博弈精练均衡,期平均收益可以达到),.,(21neeeG),.,(21nxxx),.,(21neee),.,(21nxxxG),(G45重复博弈o 多重均衡LNRUMD(1,1)(0,5)(0,0)(0,0)(0,0)(0,0)(4,4)(3,3)(5,0)参与者2参与者1第一期:(D,R)第二期:(M,N)均衡战略:如果第一期出现背叛,那么第二期选择(U,L)