1、第第2828章章 博弈论博弈论 博弈论关注的是对策略互动的一般性分析。博弈论关注的是对策略互动的一般性分析。第十讲 博弈论及应用28.1 28.1 博弈的收益矩阵博弈的收益矩阵 对于双人的简单博弈,我们用收益矩阵来描述博对于双人的简单博弈,我们用收益矩阵来描述博弈。此处的简单博弈指参与者的策略数量有限,且只弈。此处的简单博弈指参与者的策略数量有限,且只进行一次的博弈。进行一次的博弈。假设两人进行简单的博弈。参与人假设两人进行简单的博弈。参与人A A有两个策略:有两个策略:“上上”或或“下下”。参与人。参与人B B有两个策略:有两个策略:“左左”或或“右右”。当两个人同时行动后,二人的收益情况由
2、收益。当两个人同时行动后,二人的收益情况由收益矩阵反映,该矩阵矩阵反映,该矩阵A A、B B完全了解。完全了解。参与人B左右参与人A上1,20,1下2,11,0博弈的收益矩阵博弈的收益矩阵当当A A上上B B左时,左时,A A得得1 1B B得得2 2;当当A A下下B B右时,右时,A A得得1 1B B得得0 0。当当A A下下B B左时,左时,A A得得2 2B B得得1 1;当当A A上上B B右时,右时,A A得得0 0B B得得1 1;那么在那么在A A、B B完全了解收益矩阵的情况下,完全了解收益矩阵的情况下,A A、B B如何确如何确定自己的策略呢?定自己的策略呢?参与人B左右
3、参与人A上1,20,1下2,11,0A A的思路如下:如果的思路如下:如果B B选左,选左,我就选下(我就选下(21)21);如果;如果B B选选右,我就选下右,我就选下(10)(10)。因此,。因此,A A的最优策略的最优策略“下下”与与B B的的策略并没有关系,此时策略并没有关系,此时A A的的最优策略为最优策略为“下下”。B B做同样的思考:如果做同样的思考:如果A A选上选上,我就选左(我就选左(21)21);如果;如果A A选下,我就选左选下,我就选左(10)(10)。因此,。因此,B B决定采取决定采取“左左”。上述分析中,上述分析中,A的的“下下”、B的的“左左”被称为占优策略被
4、称为占优策略。占优策略:不论对方采取什么策略,该策略总是最优的。占优策略:不论对方采取什么策略,该策略总是最优的。显然,在博弈中,参与人如果有占优策略,他一定显然,在博弈中,参与人如果有占优策略,他一定选择占优策略。上述博弈中,选择占优策略。上述博弈中,A一定选择下,一定选择下,B一定选一定选左左。该博弈的结果一定是(该博弈的结果一定是(2,1)。)。此时,我们定义一个占优策略均衡,即双方占优策略此时,我们定义一个占优策略均衡,即双方占优策略的组合(下,左的组合(下,左)。运用该定义可以帮助我们寻找存在占运用该定义可以帮助我们寻找存在占优策略博弈的结果。优策略博弈的结果。28.2 28.2 纳
5、什均衡纳什均衡(Nash Equilibrium)(Nash Equilibrium)如果如下表所示,参与人不存在占优策略,那么该如何预如果如下表所示,参与人不存在占优策略,那么该如何预测博弈的结果呢?测博弈的结果呢?参与人B左右参与人A上2,10,0下0,01,2 A的思路如下:如果的思路如下:如果B选左,我就选上(选左,我就选上(20);如果;如果B选右,我就选下选右,我就选下(10)。因此,。因此,A没有占优策略。同样,没有占优策略。同样,B也没有占优策略。也没有占优策略。如果参与人没有占优策略,那么我们需要借助纳什均衡如果参与人没有占优策略,那么我们需要借助纳什均衡的概念寻找博弈的结果
6、。的概念寻找博弈的结果。纳什均衡纳什均衡(N.E.):如果给定:如果给定B的选择,的选择,A的选择是最优的,的选择是最优的,并且给定并且给定A的选择,的选择,B的选择也是最优的,这样的策略组合的选择也是最优的,这样的策略组合称为纳什均衡。称为纳什均衡。寡头垄断下,古诺均衡实际上就是纳什均衡。即给定寡头垄断下,古诺均衡实际上就是纳什均衡。即给定A厂商的产量,厂商的产量,B实现了利润最大化;给定实现了利润最大化;给定B厂商的产量,厂商的产量,A实现了利润最大化。实现了利润最大化。在上面收益矩阵描述的博弈中,存在四个策略组合:在上面收益矩阵描述的博弈中,存在四个策略组合:(上,左)、(上,右)、(下
7、,左)、(下,右)。(上,左)、(上,右)、(下,左)、(下,右)。参与人B左右参与人A上2,10,0下0,01,2根据根据N.E.N.E.的定义,请找出的定义,请找出N.E.N.E.借助借助N.E.预测博弈的结果,往往会遇到两个问题:预测博弈的结果,往往会遇到两个问题:1、N.E.不止一个。不止一个。2、一些博弈中不存在纳什均衡。如下面收益矩阵描述的、一些博弈中不存在纳什均衡。如下面收益矩阵描述的博弈:博弈:参与人B左右参与人A上0,00,-1下1,0-1,328.3 28.3 混合策略混合策略 而现实中,参与人完全可以随机选择策略,例如参与而现实中,参与人完全可以随机选择策略,例如参与人采
8、取抛硬币的方法确定自己的策略人采取抛硬币的方法确定自己的策略硬币正面朝上就硬币正面朝上就“上上”,反面朝上就下。该策略实际就是以,反面朝上就下。该策略实际就是以50%50%的概率选择的概率选择上,以上,以5050的概率选择下。这种随机策略称为混合策略。的概率选择下。这种随机策略称为混合策略。如果将策略扩展到混合策略,那么对于简单博弈而言,如果将策略扩展到混合策略,那么对于简单博弈而言,混合策略纳什均衡总是存在的。混合策略纳什均衡总是存在的。迄今为止,参与人的策略均为纯策略。纯策略指参迄今为止,参与人的策略均为纯策略。纯策略指参与人以与人以100100概率选择的策略。概率选择的策略。28.4 2
9、8.4 囚徒困境囚徒困境 本节通过一个例子说明纳什均衡并不一定会导致帕本节通过一个例子说明纳什均衡并不一定会导致帕累托有效率的结果。累托有效率的结果。囚徒困境:合伙犯罪的两个囚徒被分别关在两个房间囚徒困境:合伙犯罪的两个囚徒被分别关在两个房间接受审讯。每个囚徒可以选择坦白,也可以选择抵赖。如接受审讯。每个囚徒可以选择坦白,也可以选择抵赖。如果只有一人坦白,坦白者免刑,抵赖者入狱果只有一人坦白,坦白者免刑,抵赖者入狱6 6个月;如果个月;如果两人同时坦白,两人将被判入狱两人同时坦白,两人将被判入狱3 3个月;如果两个人都抵个月;如果两个人都抵赖,证据不足,两人被判入狱赖,证据不足,两人被判入狱1
10、 1个月。个月。囚徒囚徒B B:坦白也是坦白也是B B的占优策略。的占优策略。囚徒囚徒A A:如果如果B B坦白,我最好坦白(坦白,我最好坦白(-3-6)-3-6);如果;如果B B抵赖,我抵赖,我最好坦白最好坦白(0-1)(0-1)。因此,不论。因此,不论B B做什么,做什么,A A的最优选择就是坦的最优选择就是坦白。实际上,此处坦白是白。实际上,此处坦白是A A的占优策略。的占优策略。参与人B坦白抵赖参与人A坦白-3,-3 0,-6抵赖-6,0-1,-1囚徒困境 现实中囚徒困境的例子很多,例如冷战中的美苏争霸现实中囚徒困境的例子很多,例如冷战中的美苏争霸。当参与人具有占优策略时,博弈存在占
11、优策略均衡,当参与人具有占优策略时,博弈存在占优策略均衡,此处为(坦白、坦白),博弈结果为(此处为(坦白、坦白),博弈结果为(-3,-3-3,-3)。)。该结果有帕累托改进的可能,如果双方达成共识,该结果有帕累托改进的可能,如果双方达成共识,互相信任,同时抵赖,大家的境况都可以改善。互相信任,同时抵赖,大家的境况都可以改善。28.5 28.5 重复博弈重复博弈 上节中囚徒无法摆脱困境,很大程度上源于假定双方上节中囚徒无法摆脱困境,很大程度上源于假定双方是一锤子买卖,如果双方今后还要合作,即双方进行的是是一锤子买卖,如果双方今后还要合作,即双方进行的是重复博弈,那么结果可能会有所改变。重复博弈,
12、那么结果可能会有所改变。重复博弈分为有限重复博弈和无限重复博弈。重复博弈分为有限重复博弈和无限重复博弈。我们从最后一次博弈开始分析,第我们从最后一次博弈开始分析,第1010次博弈大家将面次博弈大家将面临永远不再合作的局面,那么临永远不再合作的局面,那么A A、B B均会毫不犹豫地选择坦均会毫不犹豫地选择坦白,因为这是一次囚徒博弈中的占优策略。白,因为这是一次囚徒博弈中的占优策略。第第9 9次博弈会出现什么情况呢?次博弈会出现什么情况呢?A A清楚地知道对方最后清楚地知道对方最后一次肯定选择坦白。如果本次我选抵赖,对方可以选坦白一次肯定选择坦白。如果本次我选抵赖,对方可以选坦白而获利。既然下一次
13、已经没有合作的可能,为避免单独入而获利。既然下一次已经没有合作的可能,为避免单独入狱狱6 6个月的不幸发生,个月的不幸发生,A A决定第决定第9 9次也选择坦白。当然次也选择坦白。当然B B也会也会这样推理,进而选择坦白。这样推理,进而选择坦白。有限博弈有限博弈:如果囚徒博弈进行如果囚徒博弈进行1010次,那么结果会怎样呢?次,那么结果会怎样呢?第第8 8、7.17.1次博弈中,第次博弈中,第9 9次的故事反复发生。所以次的故事反复发生。所以只要博弈重复有限次,囚徒依然无法摆脱困境。只要博弈重复有限次,囚徒依然无法摆脱困境。如果,囚徒博弈重复无数次,结果会怎样呢?如果,囚徒博弈重复无数次,结果
14、会怎样呢?当博弈没有最后一次时,双方均意识到无休止地坦当博弈没有最后一次时,双方均意识到无休止地坦白非明智之举。白非明智之举。经济学家证明:经济学家证明:“针锋相对针锋相对”的策略可以使博弈双方境的策略可以使博弈双方境况得到改善。况得到改善。“针锋相对针锋相对”的策略:第一局选择抵赖(即表明愿意与的策略:第一局选择抵赖(即表明愿意与对方合作),从第二局开始采用对方上一局的策略。例如,对方合作),从第二局开始采用对方上一局的策略。例如,如果对方第一局抵赖,那么我第二局依然抵赖;如果对方第如果对方第一局抵赖,那么我第二局依然抵赖;如果对方第一坦白,那么我第二局坦白。如果对方第二局抵赖,那么我一坦白
15、,那么我第二局坦白。如果对方第二局抵赖,那么我第三局选择抵赖,如此等等。第三局选择抵赖,如此等等。该策略该策略相当相当灵活,既可以对对方的背信进行及时惩罚,灵活,既可以对对方的背信进行及时惩罚,又体现了宽恕的一面,即对每次背信仅处罚一次。又体现了宽恕的一面,即对每次背信仅处罚一次。28.7 28.7 序贯博弈序贯博弈 迄今为止,我们考察的博弈均是两个人同时采取行动。迄今为止,我们考察的博弈均是两个人同时采取行动。本节我们学习一个人首先行动,然后,另一个人再作出反本节我们学习一个人首先行动,然后,另一个人再作出反应。第应。第2727章描述的斯塔克伯格模型就是这样的例子章描述的斯塔克伯格模型就是这
16、样的例子。一个序贯博弈的例子:第一阶段,参与人一个序贯博弈的例子:第一阶段,参与人A A选择选择“上上”或或“下下”。参与人。参与人B B观察到观察到A A的选择,再选择的选择,再选择“左左”或或“右右”,该博弈的收益矩阵如下所示:,该博弈的收益矩阵如下所示:参与人B左右参与人A上1,91,9下0,02,1 此处介绍一种寻找纳什均衡的简便方法此处介绍一种寻找纳什均衡的简便方法画线法:画线法:前者纵向比,大者下面画线;后者横向比,大者下面画线;前者纵向比,大者下面画线;后者横向比,大者下面画线;出现两条线者即纳什均衡。出现两条线者即纳什均衡。我们对收益矩阵画线,得到两个纳什均衡我们对收益矩阵画线
17、,得到两个纳什均衡:(上,左)(下,右)(上,左)(下,右)原因在于收益矩阵在描述序贯博弈时,无法体现参与双原因在于收益矩阵在描述序贯博弈时,无法体现参与双方的策略是序贯做出的,因此描述序贯博弈我们采用博弈树方的策略是序贯做出的,因此描述序贯博弈我们采用博弈树或博弈的扩展形式来描述。或博弈的扩展形式来描述。而实际上,这两个纳什均衡中有一个是不合理。而实际上,这两个纳什均衡中有一个是不合理。AB上上B左左左左右右右右下1,91,90,02,1博弈的扩展形式参与人B左右参与人A上1,91,9下0,02,1AB上上B左左左左右右右右下1,91,90,02,1序贯博弈中,先行者需要分析跟随者的反应,因
18、此,分析序贯博弈中,先行者需要分析跟随者的反应,因此,分析博弈树是由后往前推算。博弈树是由后往前推算。首先考虑首先考虑B的选择:的选择:如果如果A A选选“下下”,如果如果A A选选“上上”,那么那么B B选选“左左”或或“右右”无差异;无差异;那么那么B B选选“右右”比较明智(比较明智(1010)。)。A上上1,9下2,1经过上述分析,博弈树可变成如下形式:然后考虑然后考虑A的选择,的选择,A上上1,9下2,1如果选如果选“上上”,得,得1 1;如果选;如果选“下下”,可得,可得2 2。因此。因此A A的最优的最优选择是选择是“下下”。当先行者A选“下”,B的最优选择是“右”,因此该序贯博
19、弈的均衡为(下,右)在该序贯博弈中,我们依据收益矩阵找到的在该序贯博弈中,我们依据收益矩阵找到的N.E.N.E.(上,左)并不是合理的均衡,因为(上,左)并不是合理的均衡,因为A A选择选择“上上”是愚蠢是愚蠢的。的。从博弈的结果看,从博弈的结果看,B B非常不幸,最终他只能得到非常不幸,最终他只能得到1 1而非而非9 9。面临巨大落差,面临巨大落差,B B极有可能威胁极有可能威胁A A,声称如果声称如果A A选选“下下”,那,那他就选他就选“左左”,让大家一无所获。,让大家一无所获。AB上上B左左左左右右右右下1,91,90,02,1 A A对对B B的威胁不予理睬,因为的威胁不予理睬,因为
20、A A一旦选一旦选“下下”,B B就考虑自就考虑自己的利益,明智地选己的利益,明智地选“右右”而非而非“左左”。针对针对B B的威胁,的威胁,A A会如何反应?会如何反应?B B为了改善自己的境况,就必须让为了改善自己的境况,就必须让A A相信自己的威胁。相信自己的威胁。B B可以跟第三方签一个合约,规定如果可以跟第三方签一个合约,规定如果A A选选“下下”,B B若选若选“右右”,B B支付第三方支付第三方2 2。右右AB上上左左右右1,91,9B左左下0,02,1-2=-1若若A A知道知道B B签了类似签了类似合约,就知道如果合约,就知道如果自己选自己选“下下”,B B一一定选定选“左左
21、”(0-0-1 1),那么为避免一),那么为避免一无所获,无所获,A A就会选就会选“上上”。本章小结1、纳什均衡的概念及应用2、纳什均衡应用中的问题(不唯一、不存在、无效率)3、序贯博弈求解应用逆向归纳法。第第2929章章 博弈论的应用博弈论的应用 本章我们考察博弈论中本章我们考察博弈论中4 4个非常重要的问题个非常重要的问题合作问题、竞争问题、共存问题和承诺问题。合作问题、竞争问题、共存问题和承诺问题。首先了解一个重要的分析工具首先了解一个重要的分析工具最优反应曲线最优反应曲线(反应函数的图像)。(反应函数的图像)。29.1 29.1 最优反应曲线最优反应曲线 考虑一个双人博弈,假定你是其
22、中的一个参与人。对另考虑一个双人博弈,假定你是其中的一个参与人。对另外一人的任何选择,你的最优反应就是使你的收益最大化。外一人的任何选择,你的最优反应就是使你的收益最大化。B的选择:左的选择:左 A的选择:上的选择:上 列参与人B左右行参与人A上2,1 0,0下0,0 1,2A的最优反应:上的最优反应:上 B的最优反应:左的最优反应:左 B的选择:右的选择:右 A的最优反应:下的最优反应:下 B的最优反应:右的最优反应:右 A的选择:下的选择:下 如果行参与人如果行参与人A A的可能选择的可能选择r1r1(上)(上),r2,r2(下)(下),.,.,列参与人列参与人B B的可能选择的可能选择c
23、1c1(左)(左),c2,c2(右)(右).。对于行参对于行参与人与人A A的每一个选择的每一个选择r r,列参与人列参与人B B的最优反应函数为:的最优反应函数为:()Bbr 对于行参与人对于行参与人B B的每一个选择的每一个选择c c,行参与人行参与人A A的最优的最优反应函数为反应函数为:()Abc在上例中,列参与人在上例中,列参与人B的最优反应函数:的最优反应函数:()()BBbb上 左;下 右行参与人行参与人A的最优反应函数的最优反应函数:()()AAbb左 上;右 下列参与人B左右行参与人A上2,10,0下0,01,2纳什均衡纳什均衡是使得以下两个式子成立的一个策略组合是使得以下两
24、个式子成立的一个策略组合(,)rc()()BAcbrrbc上例中纳什均衡为(上,左)(下,右),这两个组合满足上例中纳什均衡为(上,左)(下,右),这两个组合满足:()()ABbb上 左;左 上()()ABbb下 右;右 下纳什均衡一旦实现,纳什均衡一旦实现,A、B均满意,无人愿意偏离该状态。均满意,无人愿意偏离该状态。最优反应曲线(函数)提供了一种相对简单的求解纳什均最优反应曲线(函数)提供了一种相对简单的求解纳什均衡的方法。衡的方法。在第在第27章求解古诺均衡时,实际就是最优反应曲线的应用:章求解古诺均衡时,实际就是最优反应曲线的应用:122abyyb212abyyb两个厂商的反应函数如下
25、两个厂商的反应函数如下:联立上述反应函数,得到古诺均衡(也是纳什均衡)。联立上述反应函数,得到古诺均衡(也是纳什均衡)。29.2 29.2 混合策略混合策略 本节利用最优反应曲线来寻求混合策略纳什均衡和纯本节利用最优反应曲线来寻求混合策略纳什均衡和纯策略纳什均衡。策略纳什均衡。列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2 我们令我们令A A选择上的概率为选择上的概率为r r,那么那么(1-(1-r)r)就表示选下的概率。就表示选下的概率。c c表示表示B B选择左的概率,那么选择左的概率,那么(1-(1-c)c)就表示选右的概率。当就表示选右的概率。当r r为为
26、0 0时,表示时,表示A A选下;选下;c c为为0 0时,表示时,表示B B选右。选右。参与人面临的是不确定下的选择,因此我们利用期参与人面临的是不确定下的选择,因此我们利用期望效用最大化分析双方的选择。望效用最大化分析双方的选择。A的期望收益的期望收益2rc+(1-r)(1-c)=3rc-r-c+1A的边际期望收益的边际期望收益(MR=dR/dr)3c-1列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2c1/3c1/3,MR0MR0,提高提高r r可以使收益增大,可以使收益增大,r r最大为最大为1 1。根据以上特点可以画出根据以上特点可以画出A的最优反应曲线:
27、的最优反应曲线:rc1/301A的最优反应曲线的最优反应曲线A的边际期望收益的边际期望收益(MR=dR/dr)3c-1c=1/3c=1/3,MR=0MR=0,期望收益达到最大值,期望收益达到最大值,r r为为00,11任意值任意值;c1/3c1/3,MR0MR0,降低降低r r可以使收益增大,可以使收益增大,r r最小为最小为0 0;1列参与人B左c右(1-c)行参与人A上r2,10,0下(1-r)0,01,2B的期望收益的期望收益1rc+2(1-r)(1-c)=3rc-2r-2c+2B的边际期望收益的边际期望收益(MR=dR/dc)3r-2根据以上特点可以画出根据以上特点可以画出B的最优反应
28、曲线:的最优反应曲线:102/3B的最优反应曲线B的边际期望收益的边际期望收益(MR=dR/dc)3r-2r=2/3r=2/3,MR=0MR=0,期望收益达到最大值,期望收益达到最大值,c c为为00,11任意值任意值;r2/3r2/3,MR0MR1/3r1/3,MR0MR0,提高提高c c可以使收益增大,可以使收益增大,c c最大为最大为1 1。rc将将A、B的最优反应曲线放在一个象限中:的最优反应曲线放在一个象限中:1/311c0r三个交点分别对应两个纯策略纳什均衡(下,右)、三个交点分别对应两个纯策略纳什均衡(下,右)、(上,上,左左)和一个混合策略纳什均衡(和一个混合策略纳什均衡(A以
29、以2/3的概率选上,的概率选上,B以以1/3的概率选左)的概率选左)。2/3列参与人B左c右(1-c)行参与人A上r2,1 0,0下(1-r)0,0 1,2两条最优曲线有三个交点:(两条最优曲线有三个交点:(0,00,0),(1,11,1),(2/3,1/32/3,1/3)29.3 29.3 合作博弈合作博弈 本节利用上节介绍的分析工具考察协调博弈。在该类本节利用上节介绍的分析工具考察协调博弈。在该类博弈中,当参与人能够协调他们之间的策略时,他们的收博弈中,当参与人能够协调他们之间的策略时,他们的收益就会实现最大化。益就会实现最大化。性别战性别战 男女约会看电影,男喜欢动作片,女喜欢文艺片,但
30、他男女约会看电影,男喜欢动作片,女喜欢文艺片,但他们宁愿看一部电影也不愿单独行动。他们的收益矩阵如下:们宁愿看一部电影也不愿单独行动。他们的收益矩阵如下:女孩动作片文艺片男孩动作片2,10,0文艺片0,01,2我们已经知道,该博弈有三个纳什均衡:我们已经知道,该博弈有三个纳什均衡:(动作片,动作片)、(文艺片,文艺片)、(男孩以(动作片,动作片)、(文艺片,文艺片)、(男孩以2/3的概率选动作片,女孩以的概率选动作片,女孩以1/3的概率选动作片)的概率选动作片)这取决于有关该博弈的正式描述以外的因素,例如男孩这取决于有关该博弈的正式描述以外的因素,例如男孩事先已经买好了动作片的票,于是一起看动
31、作片将是最终的事先已经买好了动作片的票,于是一起看动作片将是最终的选择。选择。当参与人完全有理由相信,其中的一个均衡相对于其他当参与人完全有理由相信,其中的一个均衡相对于其他均衡更为均衡更为“自然自然”时,这个均衡称作博弈的聚点。例如,动时,这个均衡称作博弈的聚点。例如,动作片的主演是成龙,上述博弈的结果很有可能是大家不约而作片的主演是成龙,上述博弈的结果很有可能是大家不约而同的一起看动作片。同的一起看动作片。三个纳什均衡到底哪个会发生呢?三个纳什均衡到底哪个会发生呢?囚徒困境囚徒困境参与人B坦白抵赖参与人A坦白-3,-3 0,-6抵赖-6,0-1,-1 囚徒困境也是一个协调博弈,双方如果可以
32、协调囚徒困境也是一个协调博弈,双方如果可以协调一致,共同抵赖,双方的境况均有明显改观。问题是大一致,共同抵赖,双方的境况均有明显改观。问题是大家在一次博弈中不会相互合作。家在一次博弈中不会相互合作。1、无限重复博弈、无限重复博弈2、缔结合约惩罚不合作的、缔结合约惩罚不合作的 行为行为解决问题的方式有两种:解决问题的方式有两种:保证博弈保证博弈 考虑考虑20世纪世纪50年代美苏的军事竞赛。两个国家都年代美苏的军事竞赛。两个国家都可以选择生产核弹,也可以选择不生产。双方都不生可以选择生产核弹,也可以选择不生产。双方都不生产的收益(产的收益(4,4);都生产的收益();都生产的收益(2,2);一方生
33、);一方生产时,生产者得产时,生产者得3,不生产者得,不生产者得1。收益矩阵如下:。收益矩阵如下:苏联不生产生产美国不生产4,41,3生产3,12,2画线法可知这里有两个纯策略纳什均衡画线法可知这里有两个纯策略纳什均衡:(不生产,不生产)、(生产,生产)(不生产,不生产)、(生产,生产)如果一方保证不生产,并给予充分的证据说明确实如果一方保证不生产,并给予充分的证据说明确实没有生产的话,可以确信另一方也会停止生产。例如美没有生产的话,可以确信另一方也会停止生产。例如美国保证不生产,那么苏联也会选不生产(国保证不生产,那么苏联也会选不生产(4343);如果苏);如果苏联保证不生产,那么美国也会选
34、不生产(联保证不生产,那么美国也会选不生产(3232)。)。显然(不生产,不生产)对双方均是较好的选择。问显然(不生产,不生产)对双方均是较好的选择。问题是任何一方均不知道对方的实际选择。题是任何一方均不知道对方的实际选择。斗鸡博弈斗鸡博弈 两个年轻人分别从一条街的两头,驾车驶向对方。两个年轻人分别从一条街的两头,驾车驶向对方。先躲避的颜面尽失;如果没人躲避,双方车毁人亡,收先躲避的颜面尽失;如果没人躲避,双方车毁人亡,收益矩阵如下:益矩阵如下:参与人B转向不转向参与人A转向0,0-1,1不转向1,-1-2,-2 画线法可知这里有两个纯策略纳什均衡:(画线法可知这里有两个纯策略纳什均衡:(A不
35、转向,不转向,B转向),(转向),(A转向,转向,B不转向)。不转向)。问题是哪个纯策略纳什均衡会发生呢?问题是哪个纯策略纳什均衡会发生呢?如果如果A A事先将方向盘锁住,并且让事先将方向盘锁住,并且让B B知道,那么知道,那么B B很可能就选择转向了,毕竟车毁人亡太疯狂了。很可能就选择转向了,毕竟车毁人亡太疯狂了。如何协调如何协调 通过以上的分析,在保证博弈、性别战和斗鸡博弈中某通过以上的分析,在保证博弈、性别战和斗鸡博弈中某参与人可以事先采取行动,并承诺选择某个策略来实现合作参与人可以事先采取行动,并承诺选择某个策略来实现合作共赢。共赢。囚徒困境中的参与人如果想达成合作,除了事先做出承囚徒
36、困境中的参与人如果想达成合作,除了事先做出承诺外,关键在于对双方行动的制约,例如签定惩罚合约。诺外,关键在于对双方行动的制约,例如签定惩罚合约。29.4 29.4 竞争博弈竞争博弈 与协调相对应的是竞争博弈,也称为零和博弈,即在与协调相对应的是竞争博弈,也称为零和博弈,即在博弈中,一方的收益即另一方的损失。博弈中,一方的收益即另一方的损失。实际上,大多数竞技体育项目都是零和博弈。我们通实际上,大多数竞技体育项目都是零和博弈。我们通过足球比赛中的罚点球来分析零和博弈。行参与人罚点球,过足球比赛中的罚点球来分析零和博弈。行参与人罚点球,列参与人守门。行参与人可以踢向球门的左方或右方,守列参与人守门
37、。行参与人可以踢向球门的左方或右方,守门员可能扑向左方或右方。门员可能扑向左方或右方。A A踢向左方,踢向左方,B B扑向右方,进球概率为扑向右方,进球概率为8080,B B扑向左方,进球概率为扑向左方,进球概率为5050;A A踢向右方,踢向右方,B B扑向左方,进球概率为扑向左方,进球概率为9090,B B扑向右方,进球概率为扑向右方,进球概率为2020。收益矩阵如下:收益矩阵如下:守门员B左右罚球者A左50,-5080,-80右90,-9020,-20每一方格中的总收益为每一方格中的总收益为0,这显示参与人的得分完全相反,这显示参与人的得分完全相反。在该博弈中,如果守门员能够知道罚球者的
38、踢球方向,在该博弈中,如果守门员能够知道罚球者的踢球方向,进球的概率大大降低。罚球者为使守门员猜不透自己的意图,进球的概率大大降低。罚球者为使守门员猜不透自己的意图,很可能有时踢向擅长的一方,有时踢向不擅长的一方,即采很可能有时踢向擅长的一方,有时踢向不擅长的一方,即采取混合策略。取混合策略。如果罚球者选择踢向左方的概率为如果罚球者选择踢向左方的概率为p p,那么那么B B扑向左方时,扑向左方时,A A的期望收益的期望收益=50p+90(1-p)=90-40p=50p+90(1-p)=90-40p;当当B B扑向右方时,扑向右方时,A A的期望收益的期望收益=80=80p+20(1-p)=20
39、+60pp+20(1-p)=20+60p。守门员B左右罚球者A左p50,-5080,-80右(1-p)90,-9020,-20当当B扑向左方时,扑向左方时,A的期望收益的期望收益500.5900.570当当B扑向右方时,扑向右方时,A的期望收益的期望收益800.5200.550 以上推理过程守门员一清二楚,如果罚球者踢向左方以上推理过程守门员一清二楚,如果罚球者踢向左方的概率为的概率为0.50.5,那守门员会毫不犹豫地扑向右方,因为这样,那守门员会毫不犹豫地扑向右方,因为这样罚球者的期望收益最小。罚球者的期望收益最小。守门员B左右罚球者A左0.550,-5080,-80右0.590,-9020
40、,-20 举例来说,假定罚球者踢向左方的概率为举例来说,假定罚球者踢向左方的概率为0.50.5。罚球者A该如何确定自己的策略呢?罚球者知道,守门员总是试图最小化他的期望收益。守门罚球者知道,守门员总是试图最小化他的期望收益。守门员扑向左还是右,取决于罚球者的选择(踢向左的概率员扑向左还是右,取决于罚球者的选择(踢向左的概率p)。)。给定给定p p,如果,如果90-40p20+60p90-40p20+60p(即罚球者在守门员扑向左时(即罚球者在守门员扑向左时期望收益较大),那么守门员期望收益较大),那么守门员一定扑向右,结果罚球者期望一定扑向右,结果罚球者期望收益为收益为20+60p20+60p
41、。否则,罚球者。否则,罚球者期望收益为期望收益为90-40p。pA的收益01905090-40p208020+60p红色折线即罚球者的期望收益线。显然,红色线段的最高点位于两条直线的交点处。显然,红色线段的最高点位于两条直线的交点处。50p+90(1-p)=80p+20(1-p)解得解得p=0.7 当罚球者以当罚球者以7070的概率的概率踢向左方时,此时的期望收踢向左方时,此时的期望收益益=50=50*0.7+900.7+90*0.3=620.3=62。pA的收益01905090-40p208020+60p0.762守门员B左q右(1-q)罚球者A左50,-5080,-80右90,-9020,
42、-20守门员守门员B该如何确定扑向左的概率该如何确定扑向左的概率q?当当A A踢向左时,踢向左时,A A的期望收益的期望收益5050q+80(1-q)=80-30qq+80(1-q)=80-30q;当当A A踢向右时,踢向右时,A A的期望收益的期望收益9090q+20(1-q)=20+70qq+20(1-q)=20+70q。qA的收益01209020+70q805080-30q给定给定q q,如果,如果80-30q20+70p80-30q20+70p(即罚球者踢向左时期望收(即罚球者踢向左时期望收益较大),那么益较大),那么A A一定踢向一定踢向左,结果罚球者期望收益为左,结果罚球者期望收益
43、为80-30q80-30q。否则,罚球者期望。否则,罚球者期望收益为收益为20+70q。A的期望收益线显然,下式成立时蓝色线段达到最低点。显然,下式成立时蓝色线段达到最低点。50q+80(1-q)=90q+20(1-q)解得解得q=0.6。至此,我们已经计算出了均衡策略组合至此,我们已经计算出了均衡策略组合:(:(0.7、0.6)即:(罚球者以即:(罚球者以0.7的概率踢向左方,守门员以的概率踢向左方,守门员以0.6的概率扑向的概率扑向左方)左方)守门员通过选择q使罚球者的期望收益最小(自己的期望收益最大)反应曲线法求均衡反应曲线法求均衡守门员扑向左方的收益守门员扑向左方的收益p(-50)+(
44、1-p)(-90)=40p-90-62;守门员扑向右方的收益守门员扑向右方的收益p(-80)+(1-p)(-20)=-20-60p-62,守门员的最优反应守门员的最优反应q=0,1守门员左q右罚球者左p50,-5080,-80右90,-9020,-20当罚球者踢向左方的概率当罚球者踢向左方的概率p p0.70.7时,时,守门员的最优反应守门员的最优反应q=1(扑向左扑向左)。同理,当罚球者踢向左方的概率同理,当罚球者踢向左方的概率p0.7p0.7时,时,守门员扑向左方的收益守门员扑向左方的收益p(-50)+(1-p)(-90)=40p-90-62p(-50)+(1-p)(-90)=40p-90
45、-62;守门员扑向右方的收益守门员扑向右方的收益p(-80)+(1-p)p(-80)+(1-p)(-20-20)=-20-60p-62;=-20-60p-62;0.7守门员的最优反应曲线P0.7 q=1pq罚球者踢向左的概率罚球者踢向左的概率守门员守门员扑向左扑向左的概率的概率综上:1罚球者的最优反应曲线10.6q0.6 p=0q=0.6 p=0,1qDHD时,鹰派越来越多;当时,鹰派越来越多;当HDH0.5,HD,鹰派减少,p下降。P(鹰派比例鹰派比例)期望收益期望收益4鹰派收益鹰派收益H=4-6p2鸽派收益鸽派收益D=2(1-p)1PD,鹰派增加,p上升;鹰鸽各占一半是进化的结果,相当稳定
46、。29.6 29.6 承诺博弈承诺博弈 本节我们转向序贯博弈。此类博弈的一个重要策略问题是承诺,例如斗鸡博弈中,如果一人能够强迫自己直线驾驶,那么另一人的最优选择就是转向。注意:承诺要取得预期效果,不可撤销性和可观察性是至关重要的。青蛙蝎子背不背-10,55,30,0 序贯博弈从后往前分析。该博弈树显示,一旦青蛙背上蝎子,蝎子必蛰。所以青蛙的明智选择是不背。但如果青蛙错误估计形式,低估了蝎子蛰性难改的本能,可能就会犯下致命错误。青蛙和蝎子青蛙和蝎子 青蛙与蝎子一起站在河岸上,青蛙先选择背或不背蝎子,蝎子再选择蛰或不蛰青蛙。具体收益情况由下面的博弈树描述。蛰不蛰为避免灾难发生,青蛙可事先做出承诺
47、承诺,表明已经雇佣“职业杀手”,自己若遭意外,将实行猛烈报复。善意的绑匪善意的绑匪 假定绑匪绑架了一名人质,但发现他们得不到任何赎金,假定绑匪绑架了一名人质,但发现他们得不到任何赎金,那么他们就面临释放或杀害人质的选择,如果他们释放人质,那么他们就面临释放或杀害人质的选择,如果他们释放人质,人质就存在是否揭露绑匪身份的选择。该博弈的具体收益如人质就存在是否揭露绑匪身份的选择。该博弈的具体收益如下所示下所示:绑匪人质-5,55,3揭露不揭露释放杀掉 从博弈树看,人质若被释放,一定揭露绑匪(从博弈树看,人质若被释放,一定揭露绑匪(5353),绑匪),绑匪清楚人质的选择,那么绑匪的最优选择就是杀掉人
48、质清楚人质的选择,那么绑匪的最优选择就是杀掉人质(-3-5)(-3-5)。-3,-10 显然,如果绑匪杀掉人质,这对人质而言是最糟结显然,如果绑匪杀掉人质,这对人质而言是最糟结果。人质有没有改变自己命运的策略呢?果。人质有没有改变自己命运的策略呢?托马斯托马斯.谢林建议人质可以做出这样的谢林建议人质可以做出这样的承诺承诺,让绑匪拍,让绑匪拍一些不雅照片,如果人质揭露绑匪,绑匪可以曝光这些照片。一些不雅照片,如果人质揭露绑匪,绑匪可以曝光这些照片。绑匪拿到这些照片,可能就会释放人质,因为这些照片降低绑匪拿到这些照片,可能就会释放人质,因为这些照片降低了人质揭露绑匪的收益。了人质揭露绑匪的收益。智
49、猪博弈智猪博弈 一些心理学家考察过这样的情形:一个猪圈里有两头一些心理学家考察过这样的情形:一个猪圈里有两头猪,一只大猪(支配猪),一只小猪(从属猪)。猪圈的猪,一只大猪(支配猪),一只小猪(从属猪)。猪圈的一头有一个控制杆,通过它可以将食物释放到猪圈另一头一头有一个控制杆,通过它可以将食物释放到猪圈另一头的食槽内。的食槽内。食槽控制杆心理学家感兴趣的是,哪只猪将去按控制杆,哪只猪坐享其成?心理学家感兴趣的是,哪只猪将去按控制杆,哪只猪坐享其成?实验结果表明,大猪按控制杆,小猪等待进食。小猪实验结果表明,大猪按控制杆,小猪等待进食。小猪会吃掉大部分食物,而大猪以最大可能的速度奔向食槽,会吃掉大
50、部分食物,而大猪以最大可能的速度奔向食槽,却只能吃到一小部分食物。却只能吃到一小部分食物。大小猪面临的收益矩阵:大猪不按控制杆按控制杆小猪不按控制杆0,04,1按控制杆0,52,3大猪不按控制杆按控制杆小猪不按控制杆0,04,1按控制杆0,52,3 小猪通过分析收益矩阵发现:大猪不按控制杆时,自己小猪通过分析收益矩阵发现:大猪不按控制杆时,自己按与不按无差异;大猪按控制杆时,自己最好不按(按与不按无差异;大猪按控制杆时,自己最好不按(4242)。)。因此,小猪绝不会按控制杆。因此,小猪绝不会按控制杆。大猪通过对收益矩阵的分析,清楚地知道小猪一定不按,大猪通过对收益矩阵的分析,清楚地知道小猪一定