1、马尔柯夫预测法马尔柯夫(马尔柯夫(A.A Markov)预测法是应用)预测法是应用概率概率论论中马尔柯夫链的理论和方法来研究中马尔柯夫链的理论和方法来研究随机事随机事件件变化并借此分析变化并借此分析预测未来变化趋势预测未来变化趋势的一种的一种方法。方法。马尔柯夫(马尔柯夫(A.A Markov 俄国数学家)。俄国数学家)。一基本概念二稳态概率三实例第三节第三节 马尔可夫决策马尔可夫决策 例例6-7 6-7 我国出口某种设备,在国际市场上的销我国出口某种设备,在国际市场上的销售状况有两种:畅销和滞销。畅销每年可以获利售状况有两种:畅销和滞销。畅销每年可以获利100100万元,滞销时每年仅获利万元
2、,滞销时每年仅获利3030万元。以一年为一万元。以一年为一个时期,如果不采用广告推广产品或采取广告措施,个时期,如果不采用广告推广产品或采取广告措施,状态的转移矩阵分别为如表状态的转移矩阵分别为如表6-56-5、表、表6-66-6所示。所示。案例引入:实例案例引入:实例2 2:P198P198第三节第三节 马尔可夫决策马尔可夫决策 假定上一年处于畅销状态,每年的广告费为假定上一年处于畅销状态,每年的广告费为1515万元。为了保证今后万元。为了保证今后3 3年的利润最大化,是否应该年的利润最大化,是否应该采用广告措施?采用广告措施?畅销畅销滞销滞销畅销畅销0.80.80.20.2滞销滞销0.40
3、.40.60.6畅销畅销滞销滞销畅销畅销0.90.90.10.1滞销滞销0.70.70.30.3表表6-3 6-3 不采取广告措施不采取广告措施 表表6-46-4采取广告措施采取广告措施案例引入:例案例引入:例6-5P1946-5P194某企业为使技术人员具有多方面经验,实行技某企业为使技术人员具有多方面经验,实行技术人员在技术部门,生产部门和销售部门的轮术人员在技术部门,生产部门和销售部门的轮换工作制度。轮换办法采取随机形式,每半年换工作制度。轮换办法采取随机形式,每半年轮换一次,初始状态,即技术人员开始是在某轮换一次,初始状态,即技术人员开始是在某部门工作概率用部门工作概率用 表示,表示,
4、j=1j=1,2 2,;,;p pij表示表示处于第处于第i i个部门的技术人员在半年后(一步)个部门的技术人员在半年后(一步)转移到第转移到第j j个部门的概率。已知个部门的概率。已知状态转移概率状态转移概率如果某人开始在工程技术部门工作(部门如果某人开始在工程技术部门工作(部门1 1),),则经过则经过2 2次转移后它在生产部门工作(部门次转移后它在生产部门工作(部门2 2)的概率是多少?的概率是多少?111213212223313233(0)(0)(0)(0)1230.50.5000.50.50.750.250(,)PPPPPPPPPPPppp 2020世纪初,马尔科夫在研究中发现自然界
5、中有世纪初,马尔科夫在研究中发现自然界中有一类事物的变化过程仅与事物的一类事物的变化过程仅与事物的近期状况有关近期状况有关,而与事物的过去状态无关。而与事物的过去状态无关。例:设备维修和更新、人才结构变化、资金例:设备维修和更新、人才结构变化、资金流向、市场需求变化等许多经济行为都可用这流向、市场需求变化等许多经济行为都可用这一类过程来描述或近似。所谓一类过程来描述或近似。所谓马尔柯夫链马尔柯夫链,就,就是一种是一种随机时间序列随机时间序列,它在将来取什么值只与,它在将来取什么值只与它现在的取值有关,而与它过去取什么值无关,它现在的取值有关,而与它过去取什么值无关,即即无后效性无后效性。具备这
6、个性质的离散型随机过程,。具备这个性质的离散型随机过程,称为称为马尔柯夫链马尔柯夫链。一、基本概念一、基本概念一、马尔可夫链一、马尔可夫链 经济问题采取的行动已经确定,但将这个行动付诸经济问题采取的行动已经确定,但将这个行动付诸实践的过程又分为几个时期。在不同的时期,系统可以实践的过程又分为几个时期。在不同的时期,系统可以处在不同的状态,而这些状态发生的概率又可受前面时处在不同的状态,而这些状态发生的概率又可受前面时期实际所处状态的影响。期实际所处状态的影响。其中一种最简单、最基本的情形,是每一时期状态其中一种最简单、最基本的情形,是每一时期状态参数的概率分布只与这一时期的前一时期实际所处的状
7、参数的概率分布只与这一时期的前一时期实际所处的状态有关,而与更早的状态无关,这就是所谓的马尔可夫态有关,而与更早的状态无关,这就是所谓的马尔可夫链。利用马氏过程分析系统当前状态并预测未来状态的链。利用马氏过程分析系统当前状态并预测未来状态的决策方法,称为马尔可夫决策。决策方法,称为马尔可夫决策。第三节第三节 马尔可夫决策马尔可夫决策一、基本概念一、基本概念 经济学中把这种现象称为经济学中把这种现象称为“无后效性无后效性”,即,即“系统在每一时刻的状态仅仅取决于前一时刻系统在每一时刻的状态仅仅取决于前一时刻的状态的状态”。例如,池塘里有三张荷叶,编号为例如,池塘里有三张荷叶,编号为1 1,2 2
8、,3 3,假,假设有个青蛙在荷叶上随机地跳来跳去,在初始设有个青蛙在荷叶上随机地跳来跳去,在初始时刻时刻 t0 0,它在第二张荷叶上。在时刻,它在第二张荷叶上。在时刻t1 1,123123第三节第三节 马尔可夫决策马尔可夫决策一、基本概念一、基本概念它可能跳到第一张或者第三张荷叶,也可能在原地不动。它可能跳到第一张或者第三张荷叶,也可能在原地不动。我们把青蛙在某个时刻所在的荷叶称为青蛙所处的状态,我们把青蛙在某个时刻所在的荷叶称为青蛙所处的状态,这样,青蛙在未来处于什么状态,只与它现在所处的状这样,青蛙在未来处于什么状态,只与它现在所处的状态有关,与它以前所处的状态无关,这种性质就是所谓态有关
9、,与它以前所处的状态无关,这种性质就是所谓的的“无后效性无后效性”。上例中,青蛙所处的那张荷叶,称为青蛙所处的状态,上例中,青蛙所处的那张荷叶,称为青蛙所处的状态,在经济系统的研究中,一种经济现象,在某一时刻在经济系统的研究中,一种经济现象,在某一时刻 t 所所出现的某种结果,就是该系统在该时间出现的某种结果,就是该系统在该时间t 所处的状态。所处的状态。一、基本概念:状态、状态转移概率、状态转移概率矩阵、初始状态概率向量(一)、状态与状态变量(一)、状态与状态变量 状态:状态:客观事物可能出现或存在的状况。客观事物可能出现或存在的状况。如:商品可能如:商品可能畅销畅销也可能也可能滞销滞销;机
10、器运转可能;机器运转可能正常正常也也可能可能故障故障等。等。同一事物不同状态之间必须同一事物不同状态之间必须相互独立相互独立:不能同时存在不能同时存在两种状态。两种状态。客观事物的状态不是固定不变的,它可能处于这种状客观事物的状态不是固定不变的,它可能处于这种状态,也可能处于那种状态,往往条件变化,状态也会态,也可能处于那种状态,往往条件变化,状态也会发生变化。如某种产品在市场上本来是滞销的,但是发生变化。如某种产品在市场上本来是滞销的,但是由于销售渠道变化了,或者消费心理发生了变化等,由于销售渠道变化了,或者消费心理发生了变化等,它便可能变为畅销产品。它便可能变为畅销产品。用用状态变量状态变
11、量来表示状态:来表示状态:它表示随机运动系统,在时刻它表示随机运动系统,在时刻 所处的状态为所处的状态为 状态转移:状态转移:客观事物由一种状态到另一种状态的变化。客观事物由一种状态到另一种状态的变化。如:由于产品质量或替代产品的变化,市场上产品可能如:由于产品质量或替代产品的变化,市场上产品可能由由畅销畅销变为变为滞销滞销。,2,1,2,1tNiiXt),2,1(tt),2,1(Nii(二)、状态转移概率(二)、状态转移概率 客观事物可能有客观事物可能有 共共 种状态,其中种状态,其中每次只能处于一种状态,则每一状态都具有每次只能处于一种状态,则每一状态都具有 个转向个转向(包括转向自身即(
12、包括转向自身即 。由于状态转移是随机的,因此,必须用概率来描述状由于状态转移是随机的,因此,必须用概率来描述状态转移可能性的大小,将这种转移的可能性用概率描态转移可能性的大小,将这种转移的可能性用概率描述,就是述,就是状态转移概率状态转移概率NEEE,21nn12,iiiNEE EEEE概率论中的条件概率:概率论中的条件概率:P(A B)就表达了由状态)就表达了由状态 B 向向状态状态 A 转移的概率,简称为转移的概率,简称为状态转移概率状态转移概率。对于由状态对于由状态 Ei 转移到状态转移到状态Ej 的概率,称它为从的概率,称它为从 i 到到 j 的的转移概率。记为:转移概率。记为:它表示
13、由状态它表示由状态Ei 经过一步转移到状态经过一步转移到状态Ej 的概率。的概率。)()()(1ixjxPEEPEEPPnnjiijij 第三节第三节 马尔可夫决策马尔可夫决策(二(二)、状态转移概率、状态转移概率某地区有甲、乙、丙三家食品厂生产同一种食品,有某地区有甲、乙、丙三家食品厂生产同一种食品,有一千个用户(或购货点),假定在研究期间无新用户一千个用户(或购货点),假定在研究期间无新用户加入也无老用户退出,只有用户的转移,已知加入也无老用户退出,只有用户的转移,已知2009年年5月份有月份有500户是甲厂的顾客,户是甲厂的顾客,400户是乙厂的顾客,户是乙厂的顾客,100户是丙厂的顾客
14、,户是丙厂的顾客,6月份,甲厂有月份,甲厂有400户原来的顾户原来的顾客,上月的顾客有客,上月的顾客有50户转乙厂,户转乙厂,50户转丙厂;乙厂有户转丙厂;乙厂有300户原来的顾客,上月的顾客有户原来的顾客,上月的顾客有20户转甲厂,户转甲厂,80户户转丙厂;丙厂有转丙厂;丙厂有80户原来的顾客,上月的顾客有户原来的顾客,上月的顾客有10户户转甲厂,转甲厂,10户转乙厂。试求状态转移概率。户转乙厂。试求状态转移概率。第三节第三节 马尔可夫决策马尔可夫决策甲甲乙乙丙丙合计合计甲甲乙乙丙丙4004002020101050503003001010505080808080500500400400100
15、100合计合计43043036036021021010001000表表6-1 6-1 顾客顾客转移表转移表(二二)、状态转移概率、状态转移概率到到 从从 第三节第三节 马尔可夫决策马尔可夫决策(二二)、状态转移概率、状态转移概率11121321222331323340050500.80.10.150050050020300800.050.750.24004004001010800.10.10.8100100100PPPPPPPPP 1112132122233132330.80.10.10.05 0.75 0.20.10.10.8PPPPPPPPPP (三三)、状态转移概率矩阵、状态转移概率矩阵
16、将事件将事件 个状态的转移概率依次排列起来,就构个状态的转移概率依次排列起来,就构成一个成一个 N行行N 列的矩阵,这种矩阵就是列的矩阵,这种矩阵就是状态转移概状态转移概率矩阵率矩阵。通常称矩阵通常称矩阵 P 为为 状态转移概率矩阵,没有特别说状态转移概率矩阵,没有特别说明步数时,一般均为一步明步数时,一般均为一步转移概率矩阵转移概率矩阵。矩阵中的每。矩阵中的每一行称之为一行称之为概率向量概率向量。转移概率矩阵的特征转移概率矩阵的特征?111212122212NNNNNNPPPPPPPPPP n状态转移概率矩阵具有如下特征:状态转移概率矩阵具有如下特征:(1)(2)01,1,2,ijPi jN
17、111,2,NijjPiN 状态转移概率的估算状态转移概率的估算n 主观概率法主观概率法(一般缺乏历史统计资料或资料不全情况下使用)(一般缺乏历史统计资料或资料不全情况下使用)n 统计估算法。统计估算法。第三节第三节 马尔可夫决策马尔可夫决策二、马尔可夫性二、马尔可夫性111111()|()()()|()nnnnnnP x ty x txx txP x ty x tx,随机过程随机过程 如果对任意如果对任意 都存在都存在,),(TttX,21Tttttin则称则称 具有马尔可夫性。具有马尔可夫性。TttX),(第三节第三节 马尔可夫决策马尔可夫决策二、马尔可夫链与转移概率矩阵二、马尔可夫链与转
18、移概率矩阵 条件概率条件概率 称为转移概率,也称一步转移概率称为转移概率,也称一步转移概率。ixjxPnn1|各状态之间的转移概率可记为各状态之间的转移概率可记为 kkkkppppP11111,0,ijjijpiPi jP其中,对所有且对所有称 为一步转移概率矩阵。季度季度123456789101112销售销售状态状态畅畅1畅畅1滞滞2畅畅1滞滞2滞滞2畅畅1畅畅1畅畅1滞滞2畅畅1滞滞2季度季度131415161718192021222324销售销售状态状态畅畅1畅畅1滞滞2滞滞2畅畅1畅畅1滞滞2畅畅1滞滞2畅畅1畅畅1畅畅1用用“1”表示畅销表示畅销用用“2”表示滞销表示滞销季度季度12
19、3456789101112销售销售状态状态畅畅1畅畅1滞滞2畅畅1滞滞2滞滞2畅畅1畅畅1畅畅1滞滞2畅畅1滞滞2季度季度131415161718192021222324销售销售状态状态畅畅1畅畅1滞滞2滞滞2畅畅1畅畅1滞滞2畅畅1滞滞2畅畅1畅畅1畅畅1 共共24个季度数据,其中有个季度数据,其中有15个季度畅销,个季度畅销,9个季度滞销,现分个季度滞销,现分别统计出别统计出:连续畅销、由畅转滞、由滞转畅和连续滞销连续畅销、由畅转滞、由滞转畅和连续滞销的次数。的次数。以以 p11 表示表示连续畅销连续畅销的可能性,以频率代替概率,得:的可能性,以频率代替概率,得:?分子分子 7 是表中连续
20、出现畅销的次数,分母是表中连续出现畅销的次数,分母 15 是表中出现畅销的是表中出现畅销的次数,因为第次数,因为第24季度是畅销,无后续记录,故减季度是畅销,无后续记录,故减1。11750%15 1p2个状态个状态:“1”畅销畅销“2”滞销滞销季度季度123456789101112销售销售状态状态畅畅1畅畅1滞滞2畅畅1滞滞2滞滞2畅畅1畅畅1畅畅1滞滞2畅畅1滞滞2季度季度131415161718192021222324销售销售状态状态畅畅1畅畅1滞滞2滞滞2畅畅1畅畅1滞滞2畅畅1滞滞2畅畅1畅畅1畅畅1 以以 p12 表示由畅销转入滞销的可能性:表示由畅销转入滞销的可能性:分子分子 7
21、是表中由畅销转入滞销的次数。是表中由畅销转入滞销的次数。以以 p21 表示由滞销转入畅销的可能性:表示由滞销转入畅销的可能性:分子分子 7 是表中由滞销转入畅销的次数,分母数是表中由滞销转入畅销的次数,分母数 9 是表中出是表中出现滞销的次数。现滞销的次数。12750%15 1p21778%9p2个状态个状态:“1”畅销畅销“2”滞销滞销季度季度123456789101112销售销售状态状态畅畅1畅畅1滞滞2畅畅1滞滞2滞滞2畅畅1畅畅1畅畅1滞滞2畅畅1滞滞2季度季度131415161718192021222324销售销售状态状态畅畅1畅畅1滞滞2滞滞2畅畅1畅畅1滞滞2畅畅1滞滞2畅畅1畅
22、畅1畅畅1 以以 p22 表示连续滞销的可能性:表示连续滞销的可能性:分子分子 2 是表中连续出现滞销的次数。是表中连续出现滞销的次数。综上所述,得销售综上所述,得销售状态转移概率矩阵状态转移概率矩阵为:为:22222%9p111221220.50.50.780.22ppPpp第三节第三节 马尔可夫决策马尔可夫决策例:某经济系统有三种状态例:某经济系统有三种状态E1 1,E2 2,E3 3(比如(比如畅销,一般,滞销)。系统状态转移情况如表,畅销,一般,滞销)。系统状态转移情况如表,试求系统的二步状态转移概率矩阵。试求系统的二步状态转移概率矩阵。系统下步所处状态系统下步所处状态E1 1E2 2
23、E3 3系统本步系统本步所处状态所处状态E1 1E2 2E3 32121161610107 78 88 8141412122 2状态状态次数次数状态状态(二)、状态转移概率(二)、状态转移概率第三节第三节 马尔可夫决策马尔可夫决策(二)、状态转移概率(二)、状态转移概率即即0.50.1670.3330.4440.2220.3340.50.40.1PP即为一步状态转移概率矩阵,二步转移概率即为一步状态转移概率矩阵,二步转移概率矩阵可由一步转移概率矩阵求出矩阵可由一步转移概率矩阵求出1(2)NijikkjkPP P第三节第三节 马尔可夫决策马尔可夫决策(二)、状态转移概率(二)、状态转移概率111
24、212122211111211112111121212222122221221111(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)NNNNNNNNNNNNNNNNNNNPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPP 2211NNNNNPPPP 第三节第三节 马尔可夫决策马尔可夫决策(二)、状态转移概率(二)、状态转移概率于是于是20.50.1670.333(2)0.4440.2220.3340.50.40.10.490.250.260.490.260.250.480.210.31P 第三节第三节 马尔可夫决策马尔可夫决策例题:某商店在最近例题:某商店在最近20
25、20个月的商品销售量统计个月的商品销售量统计记录如下:试预测第记录如下:试预测第2121月的销售量。月的销售量。时间时间 t销售量销售量时间时间 t销售销售量量时间时间 t销售销售量量时间时间 t销售量销售量1 12 23 34 45 54040454580801201201101106 67 78 89 910103838404050506262909011111212131314141515110110130130140140120120555516161717181819192020707045458080110110120120表表6-2 6-2 商品销售量统计商品销售量统计表表 单位
26、:千件单位:千件第三节第三节 马尔可夫决策马尔可夫决策(二)、状态转移概率(二)、状态转移概率解:解:1.1.划分状态。划分状态。按盈利状况为标准选取按盈利状况为标准选取(1 1)销售量)销售量60100100千件千件 属畅销;属畅销;2.2.计算初始概率计算初始概率PiPi 为了使问题更为直观,绘制销售量散点图,为了使问题更为直观,绘制销售量散点图,并画出状态分界线并画出状态分界线,第三节第三节 马尔可夫决策马尔可夫决策第三节第三节 马尔可夫决策马尔可夫决策(二)、状态转移概率(二)、状态转移概率解:由图可以算出处于:解:由图可以算出处于:滞销状态的有滞销状态的有 M1=7M1=7一般状态的
27、有一般状态的有 M2=5M2=5畅销状态的有畅销状态的有 M3=8M3=83.3.计算状态转移概率矩阵计算状态转移概率矩阵111213212223313233340113205MMMMMMMMM 第三节第三节 马尔可夫决策马尔可夫决策(二(二)、状态转移概率、状态转移概率从而从而111213212223313233340777113555205777PPPPPPPPP 340777113555205777P所以所以第三节第三节 马尔可夫决策马尔可夫决策(二二)、状态转移概率、状态转移概率4.4.预测第预测第2121月的销售情况月的销售情况由于第由于第2020月的销售量属于畅销状态,而经由一次月
28、的销售量属于畅销状态,而经由一次转移到达三种状态的概率是:转移到达三种状态的概率是:313233205777PPP 因此,第因此,第2121月超过月超过100100(千件)的可能性最大。即(千件)的可能性最大。即预测第预测第2121月的销售状态为月的销售状态为“畅销畅销”。第三节第三节 马尔可夫决策马尔可夫决策(三三)、马尔可夫链与转移概率矩阵、马尔可夫链与转移概率矩阵 定义:如果随机过程定义:如果随机过程 满足下述性满足下述性质,则称质,则称 是一个有限状态的马尔可夫链是一个有限状态的马尔可夫链(MarkovMarkov)。)。,1,0,tXttX(1 1)具有有限种状态;)具有有限种状态;
29、(2 2)具有马尔可夫性;)具有马尔可夫性;(3 3)转移概率具有平稳性。)转移概率具有平稳性。第三节第三节 马尔可夫决策马尔可夫决策三、稳态概率三、稳态概率 称称 为稳态概率。为稳态概率。jxPPnnnjnjlimlim)(jnnnnjxPixjxPlim|lim0且且因此我们可以从因此我们可以从n n步转移矩阵的步转移矩阵的 极限极限取得稳态概率分布取得稳态概率分布 n1()1limlimnnnnnnPPPPPP第三节第三节 马尔可夫决策马尔可夫决策三、稳态概率三、稳态概率 得得111111kkkkkkP1211kkiiP 记 ,且此方程组为稳态方程此方程组为稳态方程在马尔可夫链中,已知系
30、统的在马尔可夫链中,已知系统的初始状态初始状态和和状态转状态转移概率矩阵移概率矩阵,就可推断出系统在,就可推断出系统在任意任意时刻可能所处时刻可能所处的状态。的状态。现在需要研究当现在需要研究当 k 不断增大时,不断增大时,P(k)的变化趋势。的变化趋势。如存在如存在非零向量非零向量 X=(x1,x2,xN),使得:,使得:X P=X 其中:其中:P为一概率矩阵为一概率矩阵 则称则称 X 为为 P 的固定概率向量。的固定概率向量。特别地,设特别地,设 X=(x1,x2,xN)为一为一状态状态概率向概率向量量,P为状态转移概率矩阵,若为状态转移概率矩阵,若 X P=X即:即:称称 X 为该马尔可
31、夫链的一个为该马尔可夫链的一个平稳分布平稳分布11,2,.,Niijjix pxjN若随机过程某时刻的状态概率向量若随机过程某时刻的状态概率向量 P(k)为平为平稳分布,则称过程处于平衡状态。稳分布,则称过程处于平衡状态。(X P=X)一旦过程处于平衡状态,则经过一步或多步状一旦过程处于平衡状态,则经过一步或多步状态转移之后,其状态概率分布保持不变,也就态转移之后,其状态概率分布保持不变,也就是说,过程一旦处于平衡状态后将永远处于平是说,过程一旦处于平衡状态后将永远处于平衡状态。衡状态。对于所讨论的对于所讨论的状态有限状态有限(即(即N个状态)的马尔个状态)的马尔可夫链,平稳分布必定存在。可夫
32、链,平稳分布必定存在。特别地,当状态转移矩阵为特别地,当状态转移矩阵为正规概率矩阵正规概率矩阵时,平稳时,平稳分布分布唯一唯一。正规概率矩阵?正规概率矩阵?定义定义1:如果:如果 P 为概率矩阵,且存在为概率矩阵,且存在 m0,使,使 Pm 中诸元素皆非负非零。则称中诸元素皆非负非零。则称 P 为正规概率矩阵。为正规概率矩阵。例如:例如:均为正规概率矩阵。均为正规概率矩阵。P1为正规概率矩阵是明显的(为正规概率矩阵是明显的(m=1)P2是正规概率矩阵也也易于论证:是正规概率矩阵也也易于论证:即存在(即存在(m=2),使),使 P2 的元素皆非负非零。的元素皆非负非零。120.40.601(1)
33、0.60.40.40.6PP及2201010.40.60.40.60.40.60.240.76P 是非正规概率矩阵。是非正规概率矩阵。正规概率矩阵的这一性质很有实用价值。正规概率矩阵的这一性质很有实用价值。因为在市场占有率是达到平稳分布时,顾客(或用因为在市场占有率是达到平稳分布时,顾客(或用户)的流动将对市场占有率不起影响。即各市场主户)的流动将对市场占有率不起影响。即各市场主体丧失的顾客(或用户)与争取到的顾客相抵消。体丧失的顾客(或用户)与争取到的顾客相抵消。110(2)0.50.5P 例:甲乙丙三个食品厂顾客的例:甲乙丙三个食品厂顾客的 32 步转移概率。步转移概率。323211121
34、382122233132330.80.10.10.050.750.20.10.10.8PPPPPPPPPP0.2860.2860.4290.2860.2860.4290.2860.2860.4290.2860.2860.4290.2860.2860.4290.2860.2860.429 0.2860.2860.4290.2860.2860.4290.2860.2860.429 可以看到每一列都有相同的值。可以看到每一列都有相同的值。这说明不管初始状态三个食品厂这说明不管初始状态三个食品厂占有多少顾客,经过占有多少顾客,经过32月之后处月之后处于状态于状态 j 的概率都是相同的。的概率都是相同的
35、。即:经过多次转移之后,系即:经过多次转移之后,系统存在一个处于状态统存在一个处于状态 j 的有限概率,的有限概率,此概率与系统原始状态无关。此概率与系统原始状态无关。对概率向量对概率向量 =(1,2,N),如对任意的,如对任意的 i,j S:则称则称 为稳态分布。为稳态分布。此时,不管初始状态概率向量如何,均有,此时,不管初始状态概率向量如何,均有,或或这也是称这也是称 为稳态分布的理由。为稳态分布的理由。性质?性质?()limmijjmp()()11limlim(0)(0)NNmmjiijijjmmiipppp()12limlim(),(),()mjNmmpp mp mpm 设存在稳态分布
36、设存在稳态分布 =(1,2,N),则,则由于下式恒成立:由于下式恒成立:令令k就得就得A:即有限状态马尔可夫链的稳态分布如存在,:即有限状态马尔可夫链的稳态分布如存在,那么它也是平稳分布。那么它也是平稳分布。B:当马尔科夫链的状态转移概率矩阵为:当马尔科夫链的状态转移概率矩阵为正规概正规概率矩阵率矩阵时稳态分布存在,且稳态分布和平稳分布时稳态分布存在,且稳态分布和平稳分布相同相同且均且均唯一唯一。()(1)P kP kPP2(2)20.43750.18750.3750.3750.250.3750.3750.18750.4375PP0.50.250.250.500.50.250.250.5P解解
37、:(1)P 是正规概率矩阵是正规概率矩阵即存在(即存在(m=2),使),使 P2 的元素皆非负非零。的元素皆非负非零。n11iiXPXx(2)求解如下方程组:求解如下方程组:这就是该马尔可夫链的这就是该马尔可夫链的稳态分布稳态分布,而且也是,而且也是平稳分布平稳分布。0.40.20.4X 马尔可夫链预测方法的最简单类型是预测下期最可能出现的状态。马尔可夫链预测方法的最简单类型是预测下期最可能出现的状态。步骤:步骤:第一步第一步:划分预测对象所出现的状态。:划分预测对象所出现的状态。从预测目的出发,考虑决策需要来划分现象所处的状态。从预测目的出发,考虑决策需要来划分现象所处的状态。第二步第二步:
38、计算初始概率。:计算初始概率。据实际问题分析历史资料所得的状态概率称为初始概率。据实际问题分析历史资料所得的状态概率称为初始概率。第三步第三步:计算状态转移概率:计算状态转移概率 第四步第四步:根据转移概率进行预测:根据转移概率进行预测 由状态转移概率矩阵由状态转移概率矩阵 P:如果目前预测对象处于状态:如果目前预测对象处于状态Ei,这时,这时 Pij 就描述了目前状态就描述了目前状态 Ei 在未来将转向状态在未来将转向状态 Ej(j=1,2,N)的)的可能性。可能性。按最大可能性作为选择原则:选择(按最大可能性作为选择原则:选择(Pj1,Pj2,PjN)中最)中最大者为预测结果。大者为预测结
39、果。第三节第三节 马尔可夫决策马尔可夫决策 例例6-7 6-7 我国出口某种设备,在国际市场上的销我国出口某种设备,在国际市场上的销售状况有两种:畅销和滞销。畅销每年可以获利售状况有两种:畅销和滞销。畅销每年可以获利100100万元,滞销时每年仅获利万元,滞销时每年仅获利3030万元。以一年为一万元。以一年为一个时期,如果不采用广告推广产品或采取广告措施,个时期,如果不采用广告推广产品或采取广告措施,状态的转移矩阵分别为如表状态的转移矩阵分别为如表6-56-5、表、表6-66-6所示。所示。四、马尔可夫应用实例四、马尔可夫应用实例第三节第三节 马尔可夫决策马尔可夫决策 假定上一年处于畅销状态,
40、每年的广告费为假定上一年处于畅销状态,每年的广告费为1515万元。为了保证今后万元。为了保证今后3 3年的利润最大化,是否应该年的利润最大化,是否应该采用广告措施?采用广告措施?四、马尔可夫应用实例四、马尔可夫应用实例畅销畅销滞销滞销畅销畅销0.80.80.20.2滞销滞销0.40.40.60.6畅销畅销滞销滞销畅销畅销0.90.90.10.1滞销滞销0.70.70.30.3表表6-3 6-3 不采取广告措施不采取广告措施 表表6-46-4采取广告措施采取广告措施第三节第三节 马尔可夫决策马尔可夫决策 解:这是短期经营不变策略问题,所以可以把解:这是短期经营不变策略问题,所以可以把不采用广告措
41、施和采用广告时这三年中每一年畅不采用广告措施和采用广告时这三年中每一年畅销、滞销的概率分别求出来,然后计算每一年的销、滞销的概率分别求出来,然后计算每一年的利润期望值,通过比较每种措施下三年利润期望利润期望值,通过比较每种措施下三年利润期望值总和,便可得出结论。值总和,便可得出结论。四、马尔可夫应用实例四、马尔可夫应用实例第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例230.80.20.40.60.720.280.560.440.6880.3120.6240.376 (1)不采取广告策略,令P=则第二,第三年的转移矩阵分别为 P=P=第三节第三节 马尔可夫决策马
42、尔可夫决策 由于上一时期处于畅销状态,因此,如不采取由于上一时期处于畅销状态,因此,如不采取广告措施,第一年畅销和滞销的概率分别为广告措施,第一年畅销和滞销的概率分别为0.80.8和和0.20.2,第二年畅销和滞销的概率分别为,第二年畅销和滞销的概率分别为0.720.72和和0.280.28,第三年畅销和滞销的概率分别为,第三年畅销和滞销的概率分别为0.6880.688和和0.312.0.312.所以可以算得,三年所获期望利润值总和所以可以算得,三年所获期望利润值总和四、马尔可夫应用实例四、马尔可夫应用实例第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例123(1
43、00 0.830 0.2)(100 0.7230 0.28)(100 0.68830 0.312)244.56()0.90.10.70.30.880.120.8760.1240.840.160.8680.132Q万元(2)采用广告策略时,同理,令 =则=第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例2(100 0.930 0.1)(100 0.8830 0.12)(100 0.87630 0.124)3 15230.92()Q 万元 比较两式,可知最满意的方案应该是不采取广比较两式,可知最满意的方案应该是不采取广告策略,其期望利润值总和为告策略,其期望利润值总和
44、为244.56244.56万元。万元。第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例 例例6-6 6-6 某生产商标某生产商标 为的产品的厂商为了与另为的产品的厂商为了与另外两个生产同类产品外两个生产同类产品 和和 的厂家竞争,有三的厂家竞争,有三种可供选择的措施:(种可供选择的措施:(1 1)发放有奖债券;()发放有奖债券;(2 2)开展广告宣传;(开展广告宣传;(3 3)优质售后服务。三种方案优质售后服务。三种方案分别实施以后,经统计调查可知,该类商品的市分别实施以后,经统计调查可知,该类商品的市场占有率的转移矩阵分别是场占有率的转移矩阵分别是 第三节第三节
45、 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例30.040.030.035.045.020.005.015.080.01P75.015.010.010.080.010.005.005.090.02P75.015.010.010.080.010.005.005.090.03P 已知三种商标的商品的月总销售量为一千万件,已知三种商标的商品的月总销售量为一千万件,每件可获利每件可获利1 1元。另外,三种措施的成本费分别为元。另外,三种措施的成本费分别为150150万,万,4040万,万,3030万。为长远利益考虑,生产商标万。为长远利益考虑,生产商标为为 的产品的厂商应该采取何种
46、措施?的产品的厂商应该采取何种措施?第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例1111110.80 0.15 0.05(1),(2),(3)0.20 0.45 0.35(1),(2),(3)0.30 0.40 0.30 解:由于考虑的是长期经营,而且采取的是不解:由于考虑的是长期经营,而且采取的是不变策略,所以采取三种措施的稳态状态概率进行变策略,所以采取三种措施的稳态状态概率进行决策。决策。(1 1)计算出措施)计算出措施1 1的稳态概率为:的稳态概率为:1111111111111111112220.8(1)0.2(2)0.3(3)(1)0.15(1)0.
47、45(2)0.4(3)(2)0.05(1)0.35(2)0.3(3)(3)(1)(2)(3)1(1)0.5444,(2)0.27778,(3)0.17778(1)0.5,(2)0.2857,(3)0.2同理333143(1)0.5,(2)0.2857,(3)0.2143第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例第三节第三节 马尔可夫决策马尔可夫决策 (2 2)生产商标为)生产商标为a的商标的厂商采取措施后的期的商标的厂商采取措施后的期望值为望值为1071,采取措施前后的纯利润计算如表:,采取措施前后的纯利润计算如表:措施措施市场占有率市场占有率毛利期望值毛利
48、期望值措施成本费措施成本费用用纯利润期望值纯利润期望值1 10.54440.5444544.4544.4150150394.4394.42 20.50.550050040404604603 30.50.55005003030470470表表6-4 6-4 采取措施后的纯利润采取措施后的纯利润 单位:万元单位:万元 四、马尔可夫应用实例四、马尔可夫应用实例 (3 3)计算结果表明,生产商标为)计算结果表明,生产商标为a a的商品的厂商的商品的厂商应该采用措施应该采用措施3 3。开开 回回概概 率率ABCA0.80.10.1B0.40.50.1开出C0.20.10.7第三节第三节 马尔可夫决策马尔
49、可夫决策例例6-8 6-8 在上例中,如果每年是否采取广告措施在上例中,如果每年是否采取广告措施可根据上一年的经营情况确定。那么,应该如可根据上一年的经营情况确定。那么,应该如何决策?何决策?四、马尔可夫应用实例四、马尔可夫应用实例解:这是一个短期经营可变策略问题,既不能解:这是一个短期经营可变策略问题,既不能使用稳定状态概率,也不能像例使用稳定状态概率,也不能像例6-76-7一样,这是一样,这是个三阶段决策问题,因为在三个时期中的每一个三阶段决策问题,因为在三个时期中的每一个时期都要做出一次决策。个时期都要做出一次决策。Xi-1畅销畅销 0.80.8A第第i-1个时个时期畅销期畅销用广告用广
50、告滞销滞销 0.2 0.2 Yi+30Xi+100第三节第三节 马尔可夫决策马尔可夫决策不用广告不用广告B畅销畅销 0.90.9滞销滞销 0.1 0.1 Yi+30Xi+100Yi-1畅销畅销 0.40.4C第第i-2个时个时期滞销期滞销用广告用广告滞销滞销 0.60.6Yi+30Xi+100第三节第三节 马尔可夫决策马尔可夫决策不用广告不用广告D畅销畅销 0.70.7滞销滞销 0.30.3Yi+30Xi+100第三节第三节 马尔可夫决策马尔可夫决策四、马尔可夫应用实例四、马尔可夫应用实例:0.8(100)0.2(30)0.80.286:0.9(85)0.1(15)0.90.178:0.4(1