1、博弈论的发展及基本概念博弈论的发展及基本概念博弈的种类博弈的种类古语有云,世事如棋。生活中每个人如同棋古语有云,世事如棋。生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们变化多端的棋局。博弈论是研究棋手们“出出棋棋”着数中理性化、逻辑化的部分,并将其着数中理性化、逻辑化的部分,并将其系统化为一门科学。换句话说,就是研究个系统化为一门科学。换句话说,就是研究个体如何在
2、错综复杂的相互影响中得出最合理体如何在错综复杂的相互影响中得出最合理的策略。事实上,博弈论正是衍生于古老的的策略。事实上,博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化,通过建立自数学家们将具体的问题抽象化,通过建立自完备的逻辑框架、体系研究其规律及变化。完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情,以最简单的二人对这可不是件容易的事情,以最简单的二人对弈为例,稍想一下便知此中大有玄妙:若假弈为例,稍想一下便知此中大有玄妙:若假设双方都精确地记得自己和对手的每一步棋设双方都精确地记得自己和对手的每一步棋且都是最且都是最“理
3、性理性”的棋手,甲出子的时候,的棋手,甲出子的时候,为了赢棋,得仔细考虑乙的想法,而乙出子为了赢棋,得仔细考虑乙的想法,而乙出子时也得考虑甲的想法,所以甲还得想到乙在时也得考虑甲的想法,所以甲还得想到乙在想他的想法,乙当然也知道甲想到了他在想想他的想法,乙当然也知道甲想到了他在想甲的想法甲的想法 张三和李四两人偷车时被捕,警察怀疑他俩是张三和李四两人偷车时被捕,警察怀疑他俩是本市一系列偷车案的惯犯,但没有充分证据,为本市一系列偷车案的惯犯,但没有充分证据,为防止两人串供,关在两间牢房分别审问:防止两人串供,关在两间牢房分别审问:如某人坦白,另一人抵赖,并把主要罪名推给对如某人坦白,另一人抵赖,
4、并把主要罪名推给对方,轻判方,轻判2 2年,对方判年,对方判1515年年如两人均坦白,各判如两人均坦白,各判1010年年如两人拒不坦白,证据不足,罪名较轻,各判如两人拒不坦白,证据不足,罪名较轻,各判5 5年年张三和李四会坦白吗?张三和李四会坦白吗?(-5,-5)(-15,-2)(-2,-15)(-10,-10)坦白不坦白张三坦白不坦白李四李四纳什均衡一、概念:一、概念:博弈论:又称对策论,是一种分析战略博弈论:又称对策论,是一种分析战略行为的方法行为的方法博弈论是描述和研究行为者之间策略相博弈论是描述和研究行为者之间策略相互依存和相互作用的一种决策理论。互依存和相互作用的一种决策理论。o在每
5、一个博弈中,都至少有两个参与者,每在每一个博弈中,都至少有两个参与者,每一个参与者都有一组可选择的一个参与者都有一组可选择的策略策略。作为博。作为博弈的结局,每个参与者都得到各自的弈的结局,每个参与者都得到各自的报酬报酬。每个参与者的报酬都是所有参与者各自所选每个参与者的报酬都是所有参与者各自所选择的策略的共同作用的结果。择的策略的共同作用的结果。博弈方博弈方策略策略得益得益信息信息均衡均衡(-5,-5)(-15,-2)(-2,-15)(-10,-10)坦白不坦白张三坦白不坦白李四李四纳什均衡博弈均衡:博弈均衡:o博弈均衡博弈均衡指博弈中的所有参与者都不想改变指博弈中的所有参与者都不想改变自己
6、的策略的一种状态。自己的策略的一种状态。支付矩阵:支付矩阵:o支付矩阵支付矩阵(也称报酬矩阵)被用来描述和分(也称报酬矩阵)被用来描述和分析一个博弈。析一个博弈。动态博弈动态博弈 /静态博弈静态博弈单人博弈单人博弈/两人博弈两人博弈/多人博弈多人博弈零和博弈零和博弈/常和博弈常和博弈/变和博弈变和博弈有限策略博弈有限策略博弈/无限策略博弈无限策略博弈完全信息博弈完全信息博弈/不完全信息博弈不完全信息博弈非合作博弈非合作博弈 /合作博弈合作博弈静态博弈:决策选择同步进行静态博弈:决策选择同步进行动态博弈:决策选择有先后次序动态博弈:决策选择有先后次序囚徒困境:囚徒困境:o两个囚徒被指控共同参与了
7、一起犯罪活动。两个囚徒被指控共同参与了一起犯罪活动。他们被分别关押在两个相互隔离的囚室里,他们被分别关押在两个相互隔离的囚室里,并且不能通信。每个囚徒都被要求坦白所犯并且不能通信。每个囚徒都被要求坦白所犯罪行。罪行。(-5,-5)(-15,-2)(-2,-15)(-10,-10)坦白不坦白张三坦白不坦白李四李四纳什均衡占优策略均衡占优策略均衡占优策略均衡占优策略均衡对于两个囚徒而言,最好的选择是都不坦白,对于两个囚徒而言,最好的选择是都不坦白,然而实际情况是两个囚徒决策时都以自身利然而实际情况是两个囚徒决策时都以自身利益最大化为决策前提。最终两个囚徒都选择益最大化为决策前提。最终两个囚徒都选择
8、了坦白。了坦白。纳什均衡:博弈的任何一方不能够单独改变纳什均衡:博弈的任何一方不能够单独改变策略来提高收益的一组策略称为纳什均衡。策略来提高收益的一组策略称为纳什均衡。占优策略:占优策略:o无论其他参与者采取什么策略,某参与者都无论其他参与者采取什么策略,某参与者都存在唯一的最优策略选择,这一最优策略就存在唯一的最优策略选择,这一最优策略就是他的是他的占优策略占优策略。如果某个参与者具有占优策略,那么,无论如果某个参与者具有占优策略,那么,无论其他参与者选择什么策略,该参与者确信自其他参与者选择什么策略,该参与者确信自己所选择的唯一策略都是最优的。己所选择的唯一策略都是最优的。占优策略均衡:占
9、优策略均衡:o占优策略均衡占优策略均衡是由博弈中的所有参与者的占是由博弈中的所有参与者的占优策略组合所构成的均衡。优策略组合所构成的均衡。在一个博弈中,只要每个参与者都具有占优在一个博弈中,只要每个参与者都具有占优策略,那么,该博弈就一定存在占优策略均策略,那么,该博弈就一定存在占优策略均衡。衡。占优策略均衡与纳什均衡:占优策略均衡与纳什均衡:o占优策略均衡是比纳什均衡更强的一个博弈占优策略均衡是比纳什均衡更强的一个博弈均衡概念。均衡概念。o占优策略均衡一定是纳什均衡;纳什均衡不占优策略均衡一定是纳什均衡;纳什均衡不一定是占优策略均衡。一定是占优策略均衡。囚犯的困境反映了一个问题,从个人角度出
10、囚犯的困境反映了一个问题,从个人角度出发所选择的占优策略,从整体来看,却是最发所选择的占优策略,从整体来看,却是最差的结局,即差的结局,即个人理性和团体理性的冲突个人理性和团体理性的冲突。应用:应用:囚徒的困境可以应用于许多场合。前面所讲囚徒的困境可以应用于许多场合。前面所讲的寡头博弈(占优策略的均衡)就是一例。的寡头博弈(占优策略的均衡)就是一例。可口可乐的决策可口可乐的决策做做广广告告不做广告不做广告百百事事可可乐乐的的决决策策做广告做广告不不做做广广告告每家每家30亿美元的利润亿美元的利润 可口可乐得到可口可乐得到20亿美元利润亿美元利润百事可乐得到百事可乐得到50亿美元利润亿美元利润可
11、口可乐得到可口可乐得到50亿美亿美元利润元利润百事可乐得到百事可乐得到20亿美亿美元利润元利润每家都得到每家都得到40亿美元利润亿美元利润做广告博弈方的决策有先后顺序,后行动的博弈方博弈方的决策有先后顺序,后行动的博弈方在看到其他博弈方的决策选择后采取相应的、在看到其他博弈方的决策选择后采取相应的、有针对性的行动。有针对性的行动。动态博弈存在一定的不对称性,先行动者需动态博弈存在一定的不对称性,先行动者需深思熟虑深思熟虑打击打击BA(0,10)(5,5)(-2,3)不进不进打进打进和平相处和平相处o动态博弈是一种反复进行的博弈。动态博弈是一种反复进行的博弈。o重复博弈重复博弈是动态博弈的一种特
12、殊情况,在重是动态博弈的一种特殊情况,在重复博弈中,同一个博弈被重复多次。复博弈中,同一个博弈被重复多次。o在一次静态博弈的情况下,卡特尔组织中的每一个在一次静态博弈的情况下,卡特尔组织中的每一个寡头都面临着囚徒的困境。寡头都面临着囚徒的困境。o但是在重复博弈中,情况就会改变。但是在重复博弈中,情况就会改变。o首先,在无限期重复博弈中,对于任何一个参与者首先,在无限期重复博弈中,对于任何一个参与者的欺骗和违约行为,其他参与者总会有机会给予报的欺骗和违约行为,其他参与者总会有机会给予报复(复(“以牙还牙以牙还牙”策略)。策略)。在无限期重复博弈中,报复的机会总是存在在无限期重复博弈中,报复的机会
13、总是存在的,所以,每一个参与者都不会采取违约或的,所以,每一个参与者都不会采取违约或欺骗的行为,欺骗的行为,囚徒困境合作的均衡解是存在囚徒困境合作的均衡解是存在的的。有限期重复博弈:有限期重复博弈:o用逆推的方法,在有限期重复博弈中,囚犯困境博用逆推的方法,在有限期重复博弈中,囚犯困境博弈的纳什均衡是参与者的不合作。弈的纳什均衡是参与者的不合作。这是因为,在有限期的最后一期,某一成员的欺骗这是因为,在有限期的最后一期,某一成员的欺骗或违约行为是不可能背报复的,因此,单个成员的或违约行为是不可能背报复的,因此,单个成员的占优策略是不合作。占优策略是不合作。逆推到前一期,由于每个参与者知道最末一期
14、会不逆推到前一期,由于每个参与者知道最末一期会不合作,所以在这一期也不会合作。合作,所以在这一期也不会合作。如此逆推到第一期,每个参与这就会采取欺骗或违如此逆推到第一期,每个参与这就会采取欺骗或违约的不合作策略。约的不合作策略。在有限期重复博弈中,如果任何一个参与者都不能在有限期重复博弈中,如果任何一个参与者都不能准确的知道哪一期是最末一期,那么,每一个参与准确的知道哪一期是最末一期,那么,每一个参与者在每一期就一定认为在下一期还要继续交往,这者在每一期就一定认为在下一期还要继续交往,这就和无限期重复博弈没有什么差别。就和无限期重复博弈没有什么差别。所以,在不能确定终止期的有限期重复博弈的囚犯
15、所以,在不能确定终止期的有限期重复博弈的囚犯困境模型中,纳什均衡的合作解是可以存在的。困境模型中,纳什均衡的合作解是可以存在的。只有一个博弈方,一个博弈方面只有一个博弈方,一个博弈方面对一定局面如何决策的问题。个体最优化问题对一定局面如何决策的问题。个体最优化问题25万元万元-20万元10万元10万元受损事件发生受损事件发生25%受损事件不发生受损事件不发生75%自然自然存入银行存入银行投资证卷投资证卷张三张三投资证卷的期望收益投资证卷的期望收益:25 75%(20)25%13.75 10两人博弈:两人博弈:两个各自独立决策,相互具有策两个各自独立决策,相互具有策略依存关系的博弈方之间的博弈。
16、最常见,略依存关系的博弈方之间的博弈。最常见,最普通。最普通。特点:特点:两个博弈方利益可对抗,可不对抗两个博弈方利益可对抗,可不对抗掌握信息多不一定得益多掌握信息多不一定得益多个人追求利益最大化往往不能使社会利益最大化个人追求利益最大化往往不能使社会利益最大化多人博弈:多人博弈:三个或三个以上的博弈方参加。三个或三个以上的博弈方参加。特点:特点:与两人博弈类似与两人博弈类似可能存在破坏者可能存在破坏者零和博弈:各博弈方得益之和总为零。零和博弈:各博弈方得益之和总为零。“你死我活你死我活”Eg:剪刀石头布,打官司,竞选,竞标剪刀石头布,打官司,竞选,竞标常和博弈:各博弈方得益之和为非零常数。常
17、和博弈:各博弈方得益之和为非零常数。“你多我少你多我少”Eg:多人分食某物,某单位确定分配方案。多人分食某物,某单位确定分配方案。变和博弈:博弈方的得益总和可大可小,可变和博弈:博弈方的得益总和可大可小,可以变化。以变化。博弈方的得益之和大小取决于博弈方采取的博弈方的得益之和大小取决于博弈方采取的策略组合。如囚徒困境。策略组合。如囚徒困境。有限策略博弈:有限策略博弈:可供博弈方选择的策略数量可供博弈方选择的策略数量有限。有限。无限策略博弈:无限策略博弈:可供博弈方选择的策略数量可供博弈方选择的策略数量无限。无限。完全信息博弈:完全信息博弈:各博弈方都完全了解所有博各博弈方都完全了解所有博弈方各
18、种情况下得益。弈方各种情况下得益。囚徒困境囚徒困境不完全信息博弈:不完全信息博弈:至少存在部分博弈方不完至少存在部分博弈方不完全了解其他博弈方的得益。全了解其他博弈方的得益。竞标,打牌竞标,打牌合作博弈:合作博弈:各博弈方能达成某种有约束力的各博弈方能达成某种有约束力的协议,以使他们选择共同的或联合的策略,协议,以使他们选择共同的或联合的策略,从而实现利益最大化。从而实现利益最大化。非合作博弈:非合作博弈:各博弈方不存在任何有约束力各博弈方不存在任何有约束力的协议,不能的协议,不能“串通,勾结,共谋串通,勾结,共谋”,只追,只追求个人利益最大化。求个人利益最大化。猪圈里有两头猪,一头大猪,一头
19、小猪。猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹
20、。跑到食槽,争吃到另一半残羹。小猪将选择小猪将选择“搭便车搭便车”策略,也就是舒舒服策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。疲倦地奔忙于踏板和食槽之间。原因何在?因为,小猪踩踏板将一无所获,原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所板的,自己亲自去踩踏板总
21、比不踩强吧,所以只好亲力亲为了。以只好亲力亲为了。“小猪躺着大猪跑小猪躺着大猪跑”的现象是由于故事中的的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距次落下的事物数量和踏板与投食口之间的距离。离。如果改变一下核心指标,猪圈里还会出如果改变一下核心指标,猪圈里还会出现同样的现同样的“小猪躺着大猪跑小猪躺着大猪跑”的景象吗?试的景象吗?试试看。试看。改变方案一:减量方案。投食仅原来的一半改变方案一:减量方案。投食仅原来的一半分量。分量。改变方案二:增量方案。投食为原来的一倍改变方案二:增量方案。投食为原来的一倍分量。分量。改变方案三:减量加移位方案。投食仅原来改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。的一半分量,但同时将投食口移到踏板附近。