博弈论7不完全信息动态博弈资料课件.ppt

上传人(卖家):三亚风情 文档编号:2554868 上传时间:2022-05-04 格式:PPT 页数:70 大小:430.50KB
下载 相关 举报
博弈论7不完全信息动态博弈资料课件.ppt_第1页
第1页 / 共70页
博弈论7不完全信息动态博弈资料课件.ppt_第2页
第2页 / 共70页
博弈论7不完全信息动态博弈资料课件.ppt_第3页
第3页 / 共70页
博弈论7不完全信息动态博弈资料课件.ppt_第4页
第4页 / 共70页
博弈论7不完全信息动态博弈资料课件.ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

1、第七章第七章 不完全信息动态博弈不完全信息动态博弈v 至少部分博弈方没有关于得益至少部分博弈方没有关于得益全部信息的动态博弈,称全部信息的动态博弈,称“不完不完全信息动态博弈全信息动态博弈”或或“动态贝叶动态贝叶斯博弈斯博弈。v在不完全信息动态博弈中,在不完全信息动态博弈中,按照海萨尼转换,按照海萨尼转换,博弈进行的先后顺序可以描述为:博弈进行的先后顺序可以描述为:v首先,首先,“自然自然” ” 选择参与人的类型选择参与人的类型,参与人,参与人自己知道,其他参与人不知道;自己知道,其他参与人不知道;v其次,其次,参与人开始行动,参与人的行动有先参与人开始行动,参与人的行动有先有后,后行动者能观

2、测到先行动者的行动,有后,后行动者能观测到先行动者的行动,但不能观测到先行动者的类型。但不能观测到先行动者的类型。v参与人的行动是参与人的行动是类型依存类型依存的,每个参与人的的,每个参与人的行动都传递着有关行动都传递着有关自己类型自己类型的某种信息,的某种信息,v后行动者可以通过观察先行动者所选择的行后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念动来推断其类型或修正对其类型的先验信念( (概率分布概率分布) ),然后选择自己的最优行动。,然后选择自己的最优行动。v先行动者先行动者预测到自己的行动将被后行动预测到自己的行动将被后行动者所利用,者所利用,就会设法选择

3、传递对自己最就会设法选择传递对自己最有利的信息,避免传递对自己不利的信有利的信息,避免传递对自己不利的信息。息。v因此,博弈过程不仅是参与人选择行动因此,博弈过程不仅是参与人选择行动的过程,而且是参与人不断修正的过程,而且是参与人不断修正“信念信念”的过程。的过程。 v例题例题1 1:v参与人参与人i=1,2;i=1,2;v参与人参与人1 1的行动空间的行动空间A A1 1= =L,RL,Rv参与人参与人1 1的类型空间的类型空间T T1 1= =t t1111,t ,t1212v参与人参与人2 2的行动空间的行动空间A A2 2= =A,BA,Bv参与人参与人2 2的类型空间的类型空间T T

4、2 2= =t t2 2, ,单点集,因此单点集,因此参与人参与人1 1对参与人对参与人2 2的信念的信念p p1 1=1;=1;v参与人参与人2 2对参与人对参与人1 1的信念的信念p p2 2=(p,1-p);=(p,1-p);v参与人参与人1 1先行动,参与人先行动,参与人2 2后行动。后行动。按照海萨尼转换,该博弈表示为:按照海萨尼转换,该博弈表示为:LLAAN11tR12tR(2,2)(0,0)(2,2)(0,1)(1,0)(3,1)BB1122 P1P7-1图v例题例题2 2:考察一个市场进入博弈:考察一个市场进入博弈v参与人参与人i=1,2;i=1,2;v参与人参与人1 1(在位

5、者)的行动空间(在位者)的行动空间 A A1 1= =mm1 1 ( (低价格低价格),m),m2 2( (高价格高价格) )v参与人参与人1 1的类型空间的类型空间 T T1 1= =t t11 11 ( (高成本高成本),t),t12 12 ( (低成本低成本) )v参与人参与人2 2(进入者)的行动空间(进入者)的行动空间 A A2 2= a= a1 1 ( (进入进入),a),a2 2( (不进入不进入) )v参与人参与人2 2的类型空间的类型空间T T2 2= =t t2 2, ,单点集,因此参与人单点集,因此参与人1 1对参与人对参与人2 2的信念的信念p p1 1=1;=1;v参

6、与人参与人2 2对参与人对参与人1 1的信念的信念p p2 2=(p,1-p);=(p,1-p);按照海萨尼转换,该博弈表示为:按照海萨尼转换,该博弈表示为:1m2m2aN11t2m12t1m1a1122 P1P1a1a1a2a2a2a7-2图v注释:注释:v参与人参与人i i对其他参与人的类型(私人信息)对其他参与人的类型(私人信息)t t-i -i的的信念信念 称为先验概率。称为先验概率。v当参与人当参与人 i i在他的某个信息集在他的某个信息集h h上观察到其他上观察到其他n-1n-1个参与人行动组合个参与人行动组合 ,条件概率,条件概率 , , 是参与者是参与者i i在观察到在观察到

7、的情况下,的情况下,对参与者的类型对参与者的类型t t-i -i的修改,这个修正产生的修改,这个修正产生 的推断称为后验概率的推断称为后验概率hia(| )iiip tt(|)hiiip ta(|)hiiip tahiav在例在例1 1图图7-17-1中,设中,设R(tR(t1111),R(t),R(t1212) )是参与人是参与人1 1的的两个战略。从而该博弈表示为完全但不完美两个战略。从而该博弈表示为完全但不完美的动态博弈图的动态博弈图7-3 7-3 。LAA11()R tR12()R t(2,2)(0,0)(0,1)(1,0)(3,1)BB122 P1P7-3图2,22,20,00,11

8、,03,12参与人1参与人AB11() R tpL12()1R tp22( ,1-),2pppABL A对于参与人 的任何信念行动 都要弱劣与 ,因此均衡()是参与人 的不可信威胁:v但(但(L,AL,A)又排除不掉,因为没有子博弈。)又排除不掉,因为没有子博弈。v假设在参与人假设在参与人2 2的信息集的信息集h h2 2上上, ,观察到观察到R R产生产生的后验概率为的后验概率为v v这时,参与者这时,参与者2 2选择选择A A的期望收益为:的期望收益为: 0 0* *q+0q+0* *(1-q)=0(1-q)=0 选择选择B B的期望收益为:的期望收益为: 1 1* *q+1q+1* *(

9、1-q)=10(1-q)=10 所以参与人所以参与人2 2一定会选择一定会选择B.B.1112(|), (|)1,p tRq p tRq v参与人参与人1 1知道理性的参与人知道理性的参与人2 2轮到他决策轮到他决策的信息集的信息集h h2 2上会选择上会选择B B,因此参与人的最,因此参与人的最优战略就是优战略就是R(tR(t1212). ).v既然参与人既然参与人1 1决定选择决定选择R(tR(t1212) ),因此参与,因此参与人人2 2修正的信念推断是修正的信念推断是v,所以就删掉了(,所以就删掉了( L L,A A )1112(|)0, (|)1,p tRp tR7.1 7.1 精炼

10、贝叶斯纳什均衡精炼贝叶斯纳什均衡v7.1.17.1.1后续博弈后续博弈v引入精炼贝叶斯均衡的目的是:引入精炼贝叶斯均衡的目的是:v为了进一步强化为了进一步强化( (即加强对条件的要求即加强对条件的要求) )贝叶斯纳什均衡,这和子博弈精炼纳贝叶斯纳什均衡,这和子博弈精炼纳什均衡强化了纳什均衡是相同的。什均衡强化了纳什均衡是相同的。v用更为广义的用更为广义的后续博弈后续博弈的概念来代替的概念来代替子博弈子博弈,后续,后续博弈可开始于任何信息集(而不论是否单结)。博弈可开始于任何信息集(而不论是否单结)。v其后,进行相似的分析:如果参与者的战略要构成其后,进行相似的分析:如果参与者的战略要构成为博弈

11、的一个精练贝叶斯均衡,它不仅必须是整个为博弈的一个精练贝叶斯均衡,它不仅必须是整个博弈的贝叶斯纳什均衡,而且必须构成每一个后续博弈的贝叶斯纳什均衡,而且必须构成每一个后续博弈的贝叶斯均衡。博弈的贝叶斯均衡。v 例子例子 :市场进入博弈(该博弈的扩展式表述模型:市场进入博弈(该博弈的扩展式表述模型见图见图7.27.2)v如果我们将从每一个信息集开始的博弈如果我们将从每一个信息集开始的博弈的剩余部分称为一个的剩余部分称为一个“后续博弈后续博弈”(注(注意与子博弈的不同:子博弈必须开始于意与子博弈的不同:子博弈必须开始于单结信息集),一个单结信息集),一个“合理合理”的均衡应的均衡应该满足:该满足:

12、v给定每一个参与人有关其它参与人类型给定每一个参与人有关其它参与人类型的后验信息,参与人的战略组合在每一的后验信息,参与人的战略组合在每一个后续博弈上构成贝叶斯均衡。个后续博弈上构成贝叶斯均衡。 v精炼贝叶斯均衡是贝叶斯均衡、子博弈精练精炼贝叶斯均衡是贝叶斯均衡、子博弈精练均衡和贝叶斯推断的结合。它要求:均衡和贝叶斯推断的结合。它要求:v (1)(1)在每一个信息集上,决策者必须有一在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个定义在属于该信息集的所有决策结上的一个概率分布个概率分布( (信念信念) );v (2)(2)给定该信息集上的概率分布和其他参给定该信息集上的

13、概率分布和其他参与人的后续战略,参与人的行动必须是最优与人的后续战略,参与人的行动必须是最优的;的;v (3)(3)每一个参与人根据贝叶斯法则和均衡每一个参与人根据贝叶斯法则和均衡战略修正后验概率。战略修正后验概率。7.1.2 7.1.2 贝叶斯法则贝叶斯法则v 统计学上,修正之前的判断称为统计学上,修正之前的判断称为“先验概率先验概率”,修正之后的判断称为,修正之后的判断称为“后验概率后验概率”。贝叶斯法则是人们根据。贝叶斯法则是人们根据新的信息从新的信息从“先验概率先验概率”得到得到“后验概后验概率率”的基本方法。的基本方法。v一个不完全信息博弈中,假定参与人的一个不完全信息博弈中,假定参

14、与人的类型是独立分布的,参与人类型是独立分布的,参与人i i有有K K个可能个可能类型,有类型,有HH个可能行动。个可能行动。v用用t tk k和和a ah h分别代表一个特定的类型和一分别代表一个特定的类型和一个特定的行动。个特定的行动。v假定假定i i属于类型属于类型t tk k的先验概率为的先验概率为v给定给定i i属于属于t tk k,i i选择选择a ah h的条件概率为的条件概率为 v则则i i选择选择a ah h的全概率是:的全概率是:1( )0,( )1Kkkkp tp t(),()1hkhkhp a tp a t1Pr() ( )Khhkkkob ap a tp tv 根据概

15、率公式,观测到根据概率公式,观测到i i选择了行选择了行动动a ah h,i i属于类型属于类型t tk k的后验概率为:的后验概率为:v 1() ( )() ( )PrPr() ( )hkkhkkkhKhhkkkp a tp tp a tp tob taob ap a tp tv注意:注意:精炼贝叶斯均衡假定参与人是精炼贝叶斯均衡假定参与人是根据贝叶斯法则修正先验概率的。根据贝叶斯法则修正先验概率的。v不过,贝叶斯法则要求不过,贝叶斯法则要求ProbaProbah h00,即参与人即参与人i i必须以正的概率选择必须以正的概率选择a ah h,否则,后验概率没有定义。否则,后验概率没有定义。

16、v如果如果ProbaProbah h 0 0,允许,允许ProbtProbtk k|a|ah h 在在0,10,1区间取任何值,只要所取的值与区间取任何值,只要所取的值与均衡战略相容。均衡战略相容。v在动态博弈中,在动态博弈中,ProbaProbah h=0=0对应的是对应的是非均衡路径上的信息集。非均衡路径上的信息集。7.1.37.1.3精炼贝叶斯均衡精炼贝叶斯均衡v 假定有假定有n n个参与人,参与人个参与人,参与人i i的类型是是私的类型是是私人信息,人信息,vp(tp(t-i -i|t|ti i) )是属于类型是属于类型t ti i的参与人认为其他的参与人认为其他n-1n-1参与人属于

17、类型参与人属于类型t t-i -i =(t =(t1 1, t, ti-1i-1, t , t i +1i +1, , t, , tn n) )的先验概率。的先验概率。v令令S Si i是是i i的战略空间,的战略空间,s si iSSi i是一个特定战略是一个特定战略(它依赖类型它依赖类型t ti i),),va ah h-i -i =( a =( ah h1 1, a, ah hi-1i-1, a, ah hi+1i+1, , a, , ah hn n) )是在第是在第h h信信息集上参与人息集上参与人i i观测到的其他观测到的其他n-1n-1个参与人的个参与人的行动组合,它是战略组合行动

18、组合,它是战略组合s s-i -i =(s =(s1 1, s , s i -1i -1, s , s i i +1+1, , s, , sn n) )的一部分(即的一部分(即s s-i -i规定的行动),规定的行动),v定义定义:精炼贝叶斯均衡精炼贝叶斯均衡s s* *(t)=( s(t)=( s* *1 1 (t (t1 1), , s), , s* *n n (t (tn n) )是一个战略组合,和一个后验概率组合是一个战略组合,和一个后验概率组合 ,满足:,满足: ( (1) 1) 对于所有的参与人对于所有的参与人i i,在每一个信息,在每一个信息集集h h, (2) (2) 是使用贝

19、叶斯法则从先验概率是使用贝叶斯法则从先验概率p(tp(t- -i i|t|ti i) ),观测到的,观测到的a ah h-i -i和最优战略和最优战略s s* *-i -i 得到(在可能得到(在可能情况下)。情况下)。 ()hiiip ta*(, )() ( , )argmaxiihiiiiiiiiiitss stp ta u s st12(,)npp ppv上述定义中,上述定义中,v(1 1)是精炼条件,即精炼贝叶斯均衡)是精炼条件,即精炼贝叶斯均衡要求均衡战略在每一个要求均衡战略在每一个“后续博弈后续博弈”上上构成贝叶斯均衡;构成贝叶斯均衡;v条件(条件(2 2)对应的是贝叶斯法则的运用。

20、)对应的是贝叶斯法则的运用。7.1.4 7.1.4 精炼贝叶斯均衡的等价定义精炼贝叶斯均衡的等价定义v 不完全信息静态博弈的海萨尼转换也适用不完全信息静态博弈的海萨尼转换也适用于不完全信息动态博弈,经过海萨尼转换的于不完全信息动态博弈,经过海萨尼转换的不完全信息动态博弈与完全但不完美信息动不完全信息动态博弈与完全但不完美信息动态博弈没有多少差别。态博弈没有多少差别。v等价定义等价定义:精炼贝叶斯均衡是一个战略组合:精炼贝叶斯均衡是一个战略组合v和一个后验概率组合和一个后验概率组合,满足下列要求,满足下列要求R1-R4R1-R4: 12(,)npppp*1122( )( ),( ),( )nns

21、 tstststv要求要求1 1:在每一信息集中,应该行动在每一信息集中,应该行动的参与者必须对博弈进行到该信息的参与者必须对博弈进行到该信息集中的哪个节有一个推断。集中的哪个节有一个推断。v对于非单节信息集,推断是在信息对于非单节信息集,推断是在信息集中不同节点的一个概率分布;对集中不同节点的一个概率分布;对于单节的信息集,参与者的推断就于单节的信息集,参与者的推断就是到达单一决策节的概率为是到达单一决策节的概率为1 1。v要求要求2 2:给定参与者的推断,参与者的战略必须给定参与者的推断,参与者的战略必须满满足序贯理性的要求足序贯理性的要求。v即在每一个信息集中应该行动的参与者即在每一个信

22、息集中应该行动的参与者( (以及参与者以及参与者随后的战略随后的战略) ),对于,对于给定给定的该参与者在此信息集中的的该参与者在此信息集中的推断推断,以及其他参与者,以及其他参与者随后的战略随后的战略必须是最优反应。必须是最优反应。v要求要求1 1意味着如果博弈的进行达到参与者意味着如果博弈的进行达到参与者2 2的非单节的非单节信息集,则参与者信息集,则参与者2 2必须对具体到达哪一个节必须对具体到达哪一个节( (也就也就是参与者是参与者1 1选择了选择了L L还是还是R)R)有一个推断。这样的推断有一个推断。这样的推断就表示为到达这两个节的概率就表示为到达这两个节的概率p p和和1 1p

23、p。v 给定参与者给定参与者2 2的推断,的推断,v选择选择R R 的期望收益就等于的期望收益就等于p p0+(10+(1p)p)1=11=1p p。v选择选择LL的期望收益等于的期望收益等于p p1+(11+(1p) p) 2=22=2p p。v由于对任意的由于对任意的p p,都有,都有2 2p lp lp p,要求,要求2 2排除了排除了2 2选选择择RR的可能性。的可能性。v v v v v v 图7.4LMLRLR2(1,3)(2,1)(0,0)(0,2)(0,1)p1-pRv定义:定义:对于一个给定的扩展式博弈中给对于一个给定的扩展式博弈中给定的均衡,如果博弈根据均衡战略进行定的均衡

24、,如果博弈根据均衡战略进行时将时将以正的概率达到某信息集以正的概率达到某信息集,我们称,我们称此信息集处于均衡路径之上。此信息集处于均衡路径之上。v反之,如果博弈根据均衡战略进行时,反之,如果博弈根据均衡战略进行时,肯定不会达到某信息集,我们称之为处肯定不会达到某信息集,我们称之为处于均衡战略路径之外的信息集。于均衡战略路径之外的信息集。v要求要求3 3:在处于均衡路径之上的信息集中,推在处于均衡路径之上的信息集中,推断由贝叶斯法则及参与者的均衡战略给出。断由贝叶斯法则及参与者的均衡战略给出。v要求要求4 4:对处于均衡路径之外的信息集,推断对处于均衡路径之外的信息集,推断由贝叶斯法则以及可能

25、情况下的参与者的均由贝叶斯法则以及可能情况下的参与者的均衡战略决定。衡战略决定。v 在图在图7.37.3的子博弈精炼纳什均衡的子博弈精炼纳什均衡(L, L)(L, L)中,参与者中,参与者2 2的推断一定是的推断一定是p=1p=1:给定参与者:给定参与者1 1的均衡战略,参与者的均衡战略,参与者2 2知道已经到了信息集中的哪一个节。知道已经到了信息集中的哪一个节。作为要求作为要求3 3的另一种的另一种说明,设想在图说明,设想在图7.37.3中存在一个混合战略均衡,其中参与中存在一个混合战略均衡,其中参与者者1 1选择选择L L的概率为的概率为q q1 1,MM的概率为的概率为q q2 2,选择

26、,选择R R的概率为的概率为1-q1-q1 1-q-q2 2。要求。要求3 3则强制性规定参与者则强制性规定参与者2 2的推断必须是的推断必须是p= p= q q1 1/( q/( q1 1+ q+ q2 2) )。LMLRLR2(1,3)(2,1)(0,0)(0,2)(0,1)p1-pq1q27.2 7.2 例题分析例题分析v例例1 1、完全信息但不完美动态博弈如下:、完全信息但不完美动态博弈如下:(1,2)(1,2)(2,1)(2,1)(3,1)(3,1) (0,1)(0,1) (1,0)(1,0)(3,1)(3,1)1 1v求求:(1)NE; (2)SPNE;(3)PBNE:(1)NE;

27、 (2)SPNE;(3)PBNEB BA Ay y1 1x xL Ly y2 2R RMML LMMR Rv解解: : (1 1)NE (A,L), (B,R). NE (A,L), (B,R). 具体具体 略略v (2 2)无子博弈,因此为)无子博弈,因此为SPNE.SPNE.v (3 3)下面求)下面求PBNE.PBNE. 按照按照PBNEPBNE的定义,需要满足条件:的定义,需要满足条件: R1-R4.R1-R4.R1:R1: 参与人参与人1 1的信息集的信息集h1=x,h1=x,显然信念显然信念 p p1 1=1;=1;参与人参与人2 2的信息集的信息集h2=yh2=y1 1,y,y2

28、 2, , 信念信念 p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;vR2:R2:给定参与人给定参与人2 2的信念的信念p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;参与人参与人2 2选择选择L,M,RL,M,R的期望收益的期望收益为:为:E E2L2L=2=2* *p+1p+1* *(1-p)=1+p(1-p)=1+pE E2M2M=1=1* *p+0p+0* *(1-p)=p(1-p)=pE E2R2R=1=1* *p+1p+1* *(1-p)=1(1-p)=1任意的任意的0 0p p1 1,都有,都有E E2M 2M E E2R

29、 2R E E2L2L,所以所以 参与人参与人2 2的最优战略:的最优战略:s s* *2 2=L.=L.v给定参与人给定参与人2 2的最优战略:的最优战略:s s* *2 2=L.=L. 参与人参与人1 1的最优战略:的最优战略:s s* *1 1=A.=A. 所以(所以(L,AL,A)是一组均衡。)是一组均衡。vR3: R3: (L,AL,A)穿过了参与人)穿过了参与人2 2的多信息集的多信息集 由均衡(由均衡(L,AL,A)和)和BayesBayes法则有:法则有:修正的后验推断修正的后验推断1111122 ( ) ( ) ( ) ( ) ( ) ( ) ( )*1 1*1 (1)*0p

30、 A tp A A tpp A tAp A tp A A tp B tp A B tpppvR4:R4:没有多信息集在均衡路径之外,自动满没有多信息集在均衡路径之外,自动满足。足。v综上,该博弈的综上,该博弈的PBNEPBNE为:为:12( , ), 1, (1,0)A Lpp再讨论例1v用不完全信息动态博弈如下:用不完全信息动态博弈如下:(1,2)(1,2)(2,1)(2,1)(3,1)(3,1)(0,1)(0,1)(1,0)(1,0)(3,1)(3,1)N Nt t1111L L2 2R RMML LMM R RB BA A1 11 1t t1212p p1-p1-pv例例2 2、不完全信

31、息动态博弈如下:、不完全信息动态博弈如下:(4,1)(4,1)(0,0)(0,0)(3,0)(3,0)(0,1)(0,1)1 1v求求:(1)NE; (3)PBNE:(1)NE; (3)PBNEB BA AppL L1-p1-pR RL LR RC C(2,2)(2,2)v解解: : (1 1)NE (A,L), (C,R). NE (A,L), (C,R). 具体具体 略略v (2 2)下面求)下面求PBNE.PBNE. 按照按照PBNEPBNE的定义,需要满足条件:的定义,需要满足条件: R1-R4.R1-R4.R1:R1: 参与人参与人1 1的信息集是单点,的信息集是单点, p p1 1

32、=1;=1;参参与人与人2 2在信息集在信息集h2h2的信念的信念 p p2 2=(p,1-p),=(p,1-p),其其中中0 0p p1;1;vR2:R2:给定参与人给定参与人2 2的信念的信念p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;参与人参与人2 2选择选择L,RL,R的期望收益为:的期望收益为:E E2L2L=1=1* *p+0p+0* *(1-p)=p(1-p)=pE E2R2R=0=0* *p+1p+1* *(1-p)=1-p(1-p)=1-p当当1/21/2 p p1 ,都有,都有E E2R 2R E E2L2L, s s* *2 2=L.=L.

33、当当 0 0p1/2 p1/2 ,都有,都有E E2L 2L E E2R2R, s s* *2 2=R.=R.v先分析(先分析(A,LA,L)v给定参与人给定参与人2 2的最优战略:的最优战略: s s* *2 2=L ,1/2=L ,1/2 p p1. . 参与人参与人1 1的最优战略:的最优战略:s s* *1 1=A.=A. 所以(所以(L,AL,A)是一组均衡。)是一组均衡。vR3: R3: (L,AL,A)穿过了参与人)穿过了参与人2 2的多信息集的多信息集 由均衡(由均衡(L,AL,A)和)和BayesBayes法则有:法则有:修正的后验推断修正的后验推断1p vR4:R4:没有多

34、信息集在均衡路径之外,自动满没有多信息集在均衡路径之外,自动满足。足。v综上,该博弈的综上,该博弈的PBNEPBNE为:为:12( , ), 1, (1,0)A Lppv再分析(再分析(C,RC,R)v给定参与人给定参与人2 2的最优战略:的最优战略: s s* *2 2=R , 0=R , 0p1/2 .p1/2 . 参与人参与人1 1的最优战略:的最优战略:s s* *1 1=C.=C. 所以(所以(C,RC,R)是一组均衡。)是一组均衡。vR3: R3: ( C,R C,R )没有穿过参与人)没有穿过参与人2 2的多信息集的多信息集 自动满足自动满足vR4:R4:多信息集在均衡路径(多信

35、息集在均衡路径( C,R C,R )之外,)之外, 由可能的均衡路径和由可能的均衡路径和BayesBayes法则有:法则有:因为因为v如果博弈方如果博弈方1 1不选不选C C,但也不能选,但也不能选B B,因为,因为B B相对于相对于A A来说是弱劣策略,因此会选来说是弱劣策略,因此会选A A,给,给定定A A,博弈方,博弈方2 2的最优选择是的最优选择是L L。v综上,综上, ( C,R C,R )不是)不是PBNEPBNE例例2 2的另一种方法:的另一种方法:v设参与人设参与人1 1的一个混合策略为:的一个混合策略为:v注意,纯策略是混合策略的特例注意,纯策略是混合策略的特例1121212

36、( ,1),01,01. 121212 +Bayes由公式得到,参与人2的两个结点的概率为:,(4,1)(4,1)(0,0)(0,0)(3,0)(3,0)(0,1)(0,1)1 1B BA AL LR RL LR RC C(2,2)(2,2)11221212121121212,1+pp令那就回到前面的分析方法,两种思想是一致的。v例例3 3、不完全信息动态博弈如下:、不完全信息动态博弈如下:(1,2,1)(1,2,1)(2,0,0)(2,0,0)(3,3,3)(3,3,3)(0,1,2)(0,1,2)(0,1,1)(0,1,1)2 2v求求:(1)NE; (2)PBNE:(1)NE; (2)P

37、BNEB BA AL LU UV VR R1 1U UV VPP1-P1-P3 3v解解: : (1 1)NE: (A,L,U), (A,R,U).NE: (A,L,U), (A,R,U). (A,R,V), (B,L,V). (A,R,V), (B,L,V).(2 2)下面求)下面求PBNE.PBNE. 该博弈有唯一的子博弈该博弈有唯一的子博弈该博弈有唯一的子博弈该博弈有唯一的子博弈(2,1)(2,1)(3,3)(3,3)(1,2)(1,2)(1,1)(1,1)2 2L LU UV VR RU UV VPP1-P1-P有唯一有唯一NE (L,V)NE (L,V)3 3所以所以 (B,L,V)

38、(B,L,V)是唯一的是唯一的SPNESPNEv只需要检验只需要检验(B,L,V)(B,L,V)是否是是否是PBNE?PBNE?按照按照PBNEPBNE的定义,需要满足条件:的定义,需要满足条件: R1-R1-R4.-R4.R1:R1: 参与人参与人1 1的信念的信念 p p1 1=1;=1;参与人参与人2 2的信的信念念 p p2 2=1;=1;参与人参与人3 3的信念的信念 p p3 3=(p,1-p),=(p,1-p),其其中中0 0p p1;1;vR2:R2:给定参与人给定参与人3 3的信念的信念p p3 3=(p,1-p),=(p,1-p),其中其中0 0p p1;1;参与人参与人3

39、 3选择选择U,VU,V的期望收益为:的期望收益为:E E3U3U=1=1* *p+2p+2* *(1-p)=2-p(1-p)=2-pE E3V3V=3=3* *p+1p+1* *(1-p)=1+2p(1-p)=1+2p当当1/31/31/3,p=11/3,所以参与人所以参与人3 3的最优选择的最优选择是是V.(V.(相容相容). ).vR4R4:自动满足。:自动满足。 3,p (10)v综上,该博弈的综上,该博弈的PBNEPBNE为:为:123( , , ), 1, 1, (1,0)B L Vppp一个说明:一个说明:v其实,我们可以直接排除:其实,我们可以直接排除: (A,R,U) (A,

40、R,V)(A,R,U) (A,R,V)。v因为对参与人因为对参与人2 2来说,来说,R R相对于相对于L L来说,来说,是严格劣策略,所以理性的参与人不会是严格劣策略,所以理性的参与人不会选择选择R.R.v例例4 4、不完全信息动态博弈如下:、不完全信息动态博弈如下:(3,0)(3,0)(0,1)(0,1)(0,1)(0,1)(3,0)(3,0)1 1v求求:(1)NE; (3)PBNE:(1)NE; (3)PBNEMML LppLL1-p1-pRRLLRRR R(2,2)(2,2)解解: : (1 1)NE (R,(1/2.1/2), NE (R,(1/2.1/2), 具体具体 略略v注:混

41、合策略严格劣策略注:混合策略严格劣策略v(2 2)下面求)下面求PBNE.PBNE. 按照按照PBNEPBNE的定义,需要满足条件:的定义,需要满足条件: R1-R4.R1-R4.R1:R1: 参与人参与人1 1的信息集是单点,的信息集是单点, p p1 1=1;=1;参参与人与人2 2在信息集在信息集h2h2的信念的信念 p p2 2=(p,1-p),=(p,1-p),其其中中0 0p p1;1;vR2:R2:给定参与人给定参与人2 2的信念的信念p p2 2=(p,1-p),=(p,1-p),其中其中0 0p p1;1;参与人参与人2 2选择选择L,RL,R的期望收的期望收益为:益为:E

42、E2L2L=0=0* *p+1p+1* *(1-p)=1-p(1-p)=1-pE E2R2R=1=1* *p+0p+0* *(1-p)=p(1-p)=p由于由于L,RL,R对对player 2player 2无差异,所以无差异,所以p=1/2,p=1/2,给定给定,(1/2.1/2,(1/2.1/2),), player 1player 1的最优策略的最优策略是是R.R.vR3:R3:自动满足自动满足vR4:R4:混合策略混合策略(0,0,1),(1/2,1/2)(0,0,1),(1/2,1/2)处在多信处在多信息集之外,由于息集之外,由于L,RL,R对对player 2player 2无差无差异,所以异,所以 。v综上,该博弈的综上,该博弈的PBNEPBNE为:为:21 1( , )2 2p 121 11 1(0,0,1),( , ), 1, ( , )2 22 2pp练习练习v1 1、塞尔腾的马(、塞尔腾的马(SeltensSeltens horse horse)(4,4,4)(4,4,4)(1,1,1)(1,1,1)(5,5,0)(5,5,0)(2,2,2)(2,2,2)1 1v求求:(1)NE; (2)SPNE;(3)PBNE:(1)NE; (2)SPNE;(3)PBNEDDA AL LB BR RC CL LR R(3,3,0)(3,3,0)2 23 3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(博弈论7不完全信息动态博弈资料课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|