1、12博弈论引例博弈论引例“囚徒困境囚徒困境”警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证他们的罪行。如果其中至少一人供认犯罪,就能确认罪名成证他们的罪行。如果其中至少一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押并给他立。为了得到所需的口供,警察将这两名罪犯分别关押并给他们同样的选择机会:如果他们两人都拒不认罪,则因缺乏证据,们同样的选择机会:如果他们两人都拒不认罪,则因缺乏证据,他们会被以较轻的妨碍公务罪各判他们会被以较轻的妨碍公务罪各判2年徒刑;如果他们两人中有年徒刑;如果他们两人中有一人坦白认罪,则坦
2、白者从轻处理,立即释放,而另一人则将一人坦白认罪,则坦白者从轻处理,立即释放,而另一人则将重判重判10年徒刑;如果两人同时认罪,则他们将各判年徒刑;如果两人同时认罪,则他们将各判4年徒刑。年徒刑。囚徒囚徒2 坦白坦白 不坦白不坦白 坦白坦白 -4,-4 0,-10囚徒囚徒1 不坦白不坦白 -10,0 -2,-24 5 。6 最后,让我们做一个游戏,来测试一下最后,让我们做一个游戏,来测试一下你的博弈思维能力。你的博弈思维能力。要过年了,公司要要过年了,公司要发年终奖,作为老板,你论功行赏。你发年终奖,作为老板,你论功行赏。你给每位员工一个信封,并告诉他们:每给每位员工一个信封,并告诉他们:每个
3、信封里面都有一张扑克牌,如果里面个信封里面都有一张扑克牌,如果里面装着装着1,就可以去领,就可以去领1000元奖金,是元奖金,是2则则可以领可以领2000元,依此类推,是元,依此类推,是K就可以就可以领领13000元,元,“小王小王”可以领可以领15000元,元,“大王大王”则是则是20000元元7 同时,你还告诉他们:拆开信封后,里同时,你还告诉他们:拆开信封后,里面的扑克牌只能自己看,不能告诉别人。面的扑克牌只能自己看,不能告诉别人。如果对自己的扑克牌(年终奖数额)不如果对自己的扑克牌(年终奖数额)不满意,大家可以相互自由交换,但交换满意,大家可以相互自由交换,但交换前还是不能让对方知道自
4、己的扑克牌是前还是不能让对方知道自己的扑克牌是什么。什么。问题是:会有多少人能成功与别问题是:会有多少人能成功与别人交换扑克牌,改变自己的年终奖数额?人交换扑克牌,改变自己的年终奖数额?8 答案是:一个都不会成功。答案是:一个都不会成功。让我们同样让我们同样用用“向前展望,倒后推理向前展望,倒后推理”的办法来分的办法来分析一下这个博弈:析一下这个博弈:对于拿到对于拿到“大王大王”的的人来说(估计你会把这张牌给功劳最大人来说(估计你会把这张牌给功劳最大的副总经理),他有交换和不交换两种的副总经理),他有交换和不交换两种选择,但他知道没什么牌比选择,但他知道没什么牌比“大王大王”更更大,和谁交换都
5、不合算,因此,不交换大,和谁交换都不合算,因此,不交换是是“大王大王”的占优策略。的占优策略。拿到拿到“小王小王”的人知道,除了的人知道,除了“大王大王”,他和谁交换,他和谁交换都不合算,而都不合算,而“大王大王”又不可能和其他又不可能和其他人交换,因此,人交换,因此,“小王小王”的占优策略也的占优策略也是不交换。是不交换。9 对于拿到对于拿到K的人来说,除了的人来说,除了“大王大王”和和“小王小王”,和其他任何人交换都不合算,和其他任何人交换都不合算,而可想而知,而可想而知,“大王大王”和和“小王小王”肯定肯定不会出来交换,因此,不会出来交换,因此,“K”的占优策略的占优策略也是不交换。也是
6、不交换。依此类推,连拿到依此类推,连拿到2的人也明白,即使拿的人也明白,即使拿3的人也肯定不会出的人也肯定不会出来交换,因此,来交换,因此,“2”的占优策略也是不的占优策略也是不交换。交换。最后,敢出来与别人交换年终奖最后,敢出来与别人交换年终奖的肯定是那些拿的肯定是那些拿“1”的人。的人。既然大家的既然大家的年终奖都是最少的年终奖都是最少的1000元,还交换它干元,还交换它干什么?什么?这种原理,博弈论称之为这种原理,博弈论称之为“逆向逆向选择选择”。10从游戏到博弈从游戏到博弈博弈就是博弈就是策略对抗策略对抗,或策略有关键作用的游戏,或策略有关键作用的游戏 博弈Game,博弈论Game T
7、heory,Game即游戏、竞技 游戏和经济等决策,具有竞争较量的共同特征:规则、结果、策略选择,策略和利益相互依存,策略的关键作用游戏游戏下棋、猜大小、石头剪刀布下棋、猜大小、石头剪刀布经济经济寡头产量决策、市场阻入、投标拍卖(新娘拍卖)、股票市场寡头产量决策、市场阻入、投标拍卖(新娘拍卖)、股票市场政治政治两党政治、多党政治、政党联盟两党政治、多党政治、政党联盟军事军事美国和伊拉克、印巴危机、以色列和巴勒斯坦、台海两岸(反分裂)美国和伊拉克、印巴危机、以色列和巴勒斯坦、台海两岸(反分裂)娱乐娱乐选美选美其他其他婚姻市场婚姻市场12 博弈论与最优化理论是不同的决策理论。最优化理论;博弈论。1
8、3 一个所谓博弈(一个所谓博弈(Game/游戏)至少需要三个要素:游戏)至少需要三个要素:(1)参与者参与者。就是在博弈中进行决策的个体;就是在博弈中进行决策的个体;博博弈分析假定参与者都是理性的。弈分析假定参与者都是理性的。(2)参与人的策略参与人的策略,指的是一项规则,根据该规指的是一项规则,根据该规则,参与人在博弈的每一时点上选择如何行动则,参与人在博弈的每一时点上选择如何行动;(3)支付(或结果):支付(或结果):有可评价优劣的博弈结果有可评价优劣的博弈结果(效用)。博弈论用数字表示这类结果,并称之(效用)。博弈论用数字表示这类结果,并称之为为支付支付(Payoff).2022年12月
9、28日星期三制作者:张昌廷(河北经贸大学)14博弈的简单分类博弈的简单分类 根据参与人的数量,可以分为二人博弈根据参与人的数量,可以分为二人博弈和多人博弈;根据参与人的支付情况,可分和多人博弈;根据参与人的支付情况,可分为零和博弈和非零和博弈;根据参与人拥有为零和博弈和非零和博弈;根据参与人拥有的策略的数量多少,可分为有限博弈和无限的策略的数量多少,可分为有限博弈和无限博弈;根据参与人在实施策略上是否有时间博弈;根据参与人在实施策略上是否有时间的先后,可分为同时博弈和序贯博弈。的先后,可分为同时博弈和序贯博弈。博弈树:序贯博弈 例:抛币游戏。甲乙两小孩抛硬币,甲先抛,乙后抛。若硬币同面,甲赢乙
10、一个硬币,如硬币异面,甲输乙一个硬币。甲甲正正反反乙乙乙乙正正正正反反反反(1,-1)(1,-1)(-1,1)(-1,1)图107 竞争者垄断者博弈2022年12月28日星期三制作者:张昌廷(河北经贸大学)1617支付矩阵(支付矩阵(Payoff Matrix,又称收益矩阵等),又称收益矩阵等)描述一个博弈结构。下面的支付矩阵中,描述一个博弈结构。下面的支付矩阵中,两个参两个参与者与者甲甲和和乙乙各自可以选择两种策略;数字表示双各自可以选择两种策略;数字表示双方在不同策略选择组合下得到的支付,较大数字方在不同策略选择组合下得到的支付,较大数字代表较大利益。代表较大利益。寡头间的价格竞争寡头间的
11、价格竞争 乙厂商策略乙厂商策略合作不合作甲厂商策略甲厂商策略合作5,61,5不合作7,12,3甲厂商的甲厂商的条件策略和条件策略组合条件策略和条件策略组合2022年12月28日星期三制作者:张昌廷(河北经贸大学)181.博弈均衡的概念博弈均衡的概念 当两个厂商的条件策略组合恰好相当两个厂商的条件策略组合恰好相同,同,从而,两个厂商都不再有单独改变从而,两个厂商都不再有单独改变策略的倾向时,整个博弈就达到了均衡,策略的倾向时,整个博弈就达到了均衡,即博弈均衡。即博弈均衡。博弈均衡是博弈各方最终选取的策博弈均衡是博弈各方最终选取的策略组合,是博弈的最终结果,是博弈的略组合,是博弈的最终结果,是博弈
12、的解。解。纳什均衡纳什均衡2022年12月28日星期三制作者:张昌廷(河北经贸大学)192.对纳什均衡的理解对纳什均衡的理解 一是一是“单独改变策略单独改变策略”是指任何一个参是指任何一个参与人在所有其他人都不改变策略的情况下改与人在所有其他人都不改变策略的情况下改变自己的策略。其他人也同时改变策略的情变自己的策略。其他人也同时改变策略的情况不在考虑之列。况不在考虑之列。二是二是“不会得到好处不会得到好处”是指任何一个参是指任何一个参与人在单独改变策略之后自己的支付不会增与人在单独改变策略之后自己的支付不会增加,这包括两种情况:或者支付减少,或者加,这包括两种情况:或者支付减少,或者支付不变。
13、支付不变。2022年12月28日星期三制作者:张昌廷(河北经贸大学)201.基本方法基本方法 先用下划线法分别表示甲厂商和乙厂商先用下划线法分别表示甲厂商和乙厂商的条件策略,最后确定博弈的均衡的条件策略,最后确定博弈的均衡(就是就是找找到在两个数字之下都划线的单元格即可,与到在两个数字之下都划线的单元格即可,与这些单元格相对应的策略组合就是所要求的这些单元格相对应的策略组合就是所要求的均衡策略组合均衡策略组合)。五、寻找五、寻找纳什均衡的方法纳什均衡的方法条件策略下条件策略下划线法划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)212.条件策略下划线条件策略下划线方法的方法的五
14、步法五步法第一,第一,把整个的支付矩阵分解为甲厂商的支把整个的支付矩阵分解为甲厂商的支付矩阵和乙厂商的支付矩阵付矩阵和乙厂商的支付矩阵五、寻找五、寻找纳什均衡的方法纳什均衡的方法条件策略下划线法条件策略下划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)22第十章第十章 博弈论初步博弈论初步第二节第二节 同时博弈:纯策略均衡同时博弈:纯策略均衡2.条件策略下划线条件策略下划线方法的五步法方法的五步法第二,第二,在甲厂商的支付矩阵中,找出在甲厂商的支付矩阵中,找出每一列每一列的最大者(每列的最大者可能不只一个),的最大者(每列的最大者可能不只一个),并在其下划线并在其下划线五、寻找
15、纳什均衡的方法条件策略下划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)23第十章第十章 博弈论初步博弈论初步第二节第二节 同时博弈:纯策略均衡同时博弈:纯策略均衡2.2.条件策略下划线方法的五步法条件策略下划线方法的五步法第三,第三,在乙厂商的支付矩阵中,找出在乙厂商的支付矩阵中,找出每一行每一行的最大者(每行的最大者也可能不只一个),的最大者(每行的最大者也可能不只一个),并在其下划线并在其下划线五、寻找纳什均衡的方法条件策略下划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)24第十章第十章 博弈论初步博弈论初步第二节第二节 同时博弈:纯策略均衡同时博弈:纯
16、策略均衡2.2.条件策略下划线方法的五步法条件策略下划线方法的五步法第四,将已经划好线的甲厂商的支付矩阵和第四,将已经划好线的甲厂商的支付矩阵和乙厂商的支付矩阵再合并起来,得到整个的乙厂商的支付矩阵再合并起来,得到整个的有下划线的支付矩阵有下划线的支付矩阵五、寻找纳什均衡的方法条件策略下划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)25第十章第十章 博弈论初步博弈论初步第二节第二节 同时博弈:纯策略均衡同时博弈:纯策略均衡2.2.条件策略下划线方法的五步法条件策略下划线方法的五步法第五,在带有下划线的整个的支付矩阵中,第五,在带有下划线的整个的支付矩阵中,找到两个数字之下均划
17、有线的支付组合,则找到两个数字之下均划有线的支付组合,则由该支付组合代表的策略组合就是均衡的策由该支付组合代表的策略组合就是均衡的策略组合略组合五、寻找纳什均衡的方法条件策略下划线法2022年12月28日星期三制作者:张昌廷(河北经贸大学)263.总结总结 在一个单元格中,如果两个数字之下均划有线,在一个单元格中,如果两个数字之下均划有线,则两个参与人都没有单独改变策略的动机,因为这两则两个参与人都没有单独改变策略的动机,因为这两个数字分别是列最大值和行最大值;如果两个数字之个数字分别是列最大值和行最大值;如果两个数字之下均没有线,则两个参与人都有单独改变策略的动机,下均没有线,则两个参与人都
18、有单独改变策略的动机,因为这两个数字分别不是列最大值和行最大值;如果因为这两个数字分别不是列最大值和行最大值;如果两个数字中一个下面有线一个下面没线,则有线的数两个数字中一个下面有线一个下面没线,则有线的数字所代表的参与人没有单独改变策略的动机,没线的字所代表的参与人没有单独改变策略的动机,没线的数字所代表的参与人有单独改变策略的动机。数字所代表的参与人有单独改变策略的动机。五、寻找五、寻找纳什均衡的方法纳什均衡的方法条件策略下划线法条件策略下划线法27(1)纳什均衡的存在性)纳什均衡的存在性:在同时博弈中,:在同时博弈中,(纯策略)纳什均衡可能存在,也可能不存在(纯策略)纳什均衡可能存在,也
19、可能不存在 案例案例1:没有纳什均衡的同时博弈没有纳什均衡的同时博弈B厂商策略厂商策略左右A厂商策略厂商策略上4,69,1下7,32,828(2)纳什均衡的唯一性:)纳什均衡的唯一性:如果纳什均衡存如果纳什均衡存在,那么,均衡可能是一个,也可能是多个在,那么,均衡可能是一个,也可能是多个 案例案例1:智猪博弈智猪博弈小猪策略:小猪策略:等待等待 智猪博弈智猪博弈 猪圈里有两头猪,一头大猪,一头小猪,采用猪圈里有两头猪,一头大猪,一头小猪,采用自动喂养,猪圈一头有一个猪食槽,按钮在另自动喂养,猪圈一头有一个猪食槽,按钮在另一头,控制猪食,按一下会有一头,控制猪食,按一下会有10个猪食进槽,个猪食
20、进槽,但按的成本为但按的成本为2,若大猪先到,可吃,若大猪先到,可吃9个食,小个食,小猪吃猪吃1个;若同时到,大个;若同时到,大7小小3;若小猪先到,;若小猪先到,大大6小小4。纳什均衡:大猪按,小猪等待,小猪搭便车 智猪博弈的其他含义。“小猪躺着大猪跑小猪躺着大猪跑”的现象是由于故的现象是由于故事中的事中的游戏规则游戏规则所导致的。规则的核心所导致的。规则的核心指标是:每次落下的事物数量和踏板与指标是:每次落下的事物数量和踏板与投食口之间的距离。投食口之间的距离。如果改变一下核心指标,猪圈里还如果改变一下核心指标,猪圈里还会出现同样的会出现同样的“小猪躺着大猪跑小猪躺着大猪跑”的景的景象吗?
21、试试看。象吗?试试看。30 改变方案:减量方案;增量方案。减量改变方案:减量方案;增量方案。减量加移位方案。投食仅原来的一半分量,加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收待者不得食,而多劳者多得。每次的收获刚好消费完。获刚好消费完。3132(3)纳什均衡的最优性:)纳什均衡的最优性:如果纳什均衡存如果纳什均衡存在,那么,可能是最优的,也可能不是在,那么,可能是最优的,也可能不是寡头价格联盟寡头价格联盟的不稳定性:的不稳定性:每个
22、成员都有每个成员都有强烈的降价获强烈的降价获利冲动利冲动3334 例:看芭蕾舞还是球赛?周末,壮壮喜欢去看例:看芭蕾舞还是球赛?周末,壮壮喜欢去看球赛,而他的女朋友丽丽喜欢看芭蕾舞,具体球赛,而他的女朋友丽丽喜欢看芭蕾舞,具体支付如下图,哪个是最优策略?支付如下图,哪个是最优策略?36芭芭蕾蕾足球足球男男 1,2 -1,-10,0 2,1芭蕾芭蕾足球足球女女芭蕾芭蕾足球足球女女二、序贯博弈:二、序贯博弈:情侣博弈(情侣博弈(1)男方先选男方先选博弈均衡:足球博弈均衡:足球37芭芭蕾蕾足球足球女女 2,1 -1,-10,0 1 2芭蕾芭蕾足球足球男男芭蕾芭蕾足球足球男男情侣博弈(情侣博弈(2)女
23、方先选女方先选博弈均衡:芭蕾博弈均衡:芭蕾38 支付矩阵分析:支付矩阵分析:情侣博弈情侣博弈女女足球足球芭蕾芭蕾教材第教材第314页页女女足球芭蕾男男足球2,10,0芭蕾-1,-11,2策略:策略:先下先下手为强手为强 纳税检查 假定税务机关的检查成本10,纳税人应税额为20,如果查到逃税,罚款为两倍。结果不确定:纳税机关和纳税人均没有上策 还取决于纳税机关的检查概率,比如税收机关的检查概率是20%,纳税人会选择逃税(-60*20%-20),税收机关会检查;如果概率是50%,纳税人会选择纳税(-60*50%-20),税收机关选择不检查。40教材第教材第299页页B厂商策略厂商策略q1=0.3q
24、2=0.7左右A厂商策略厂商策略p1=0.6上4,69,1p2=0.4下7,32,841 如果:如果:A、B厂商的厂商的混合策略混合策略分别是分别是(0.6,0.4)和()和(0.3,0.7),),那么:它们的组合可以记做(那么:它们的组合可以记做(0.6,0.4),(),(0.3,0.7)即:)即:混合策略组合混合策略组合B厂商策略厂商策略q1=0.3q2=0.7左右A厂商策略厂商策略p1=0.6上4,69,1p2=0.4下7,32,842在混合策略博弈中,对于每一个混合策略组在混合策略博弈中,对于每一个混合策略组合,也存在一个支付组合,其中,每一项也都是合,也存在一个支付组合,其中,每一项
25、也都是相应参与人在该混合策略组合条件下所得到的支相应参与人在该混合策略组合条件下所得到的支付。由于每个参与人都是以一定的概率来选择其付。由于每个参与人都是以一定的概率来选择其纯策略,故相应的支付也就成了纯策略,故相应的支付也就成了“期望支付期望支付”,即支付的期望值。即支付的期望值。43四种策略组合发生的概率分别是:四种策略组合发生的概率分别是:B厂商策略厂商策略q1=0.3q2=0.7左右A厂商策略厂商策略p1=0.6上4,69,1p2=0.4下7,32,812212211122122111qpqpqpqpqpqpqpqp且:右:下左:下右:上左:上44厂商厂商A的期望支付:的期望支付:122112211111qpqqpppp或或221221118316qpqpqpqpEB厂商厂商B的期望支付:的期望支付:221221112794qpqpqpqpEA45四、条件混合策略四、条件混合策略25)107()1)(1(2)1(7)1(9411111111111qqpqpqpqpqpEA221221112794qpqpqpqpEA4625)107(111qqpEA(1,0.7)47221221118316qpqpqpqpEB87)12(5)1)(1(8)1(3)1(1611111111111ppqqpqpqpqpEB4887)12(5111BppqE(0.5,1)495051