大学精品课件：11决策论 .ppt_163文库

资源描述

1、运筹学运运筹筹学学第第11章章决策论决策论 Theory of Decision11.1 决策分析的基本问题决策分析的基本问题11.2 确定型和非确定型决策确定型和非确定型决策11.3 风险型决策风险型决策 11.4 效用理论效用理论11.5马尔可夫决策马尔可夫决策11.1 决策分析的基本问题决策分析的基本问题决策决策(Decision Making)是一种对是一种对已知目标对方案的选择过程已知目标对方案的选择过程，当人们已知需实现的目标是什么，根据一定的决策准则，在供当人们已知需实现的目标是什么，根据一定的决策准则，在供选方案中做出决策的过程。选方案中做出决策的过程。诺贝尔奖获得者诺贝

2、尔奖获得者西蒙西蒙认为，管理就是决策，他认为决策是对认为，管理就是决策，他认为决策是对稀有资源备选分配方案进行选择排序的过程。稀有资源备选分配方案进行选择排序的过程。学者学者Gregory在在决策分析决策分析中提及，决策是对决策者将采中提及，决策是对决策者将采取的行动方案的选择过程。取的行动方案的选择过程。决策科学包括决策科学包括决策心理学、决策的数量化方法、决策评价以决策心理学、决策的数量化方法、决策评价以及决策支持系统、决策自动化等及决策支持系统、决策自动化等。随着计算机和信息通信技术的发展，决策分析的研究也得到随着计算机和信息通信技术的发展，决策分析的研究也得到极大的促进，随之产生了极大

3、的促进，随之产生了计算机辅助决策支持系统计算机辅助决策支持系统（Decision Support System），），许多问题在计算机的帮助下得以解决，在许多问题在计算机的帮助下得以解决，在一定程度上代替了人们对一些常见问题的决策分析过程。一定程度上代替了人们对一些常见问题的决策分析过程。11.1 决策分析的基本问题决策分析的基本问题11.1.1 决策分析基本概念决策分析基本概念决策决策狭义决策认为决策就是作决定，单纯强调最终结果；广义狭义决策认为决策就是作决定，单纯强调最终结果；广义决策认为将管理过程的行为都纳入决策范畴，决策贯穿于整个决策认为将管理过程的行为都纳入决策范畴，决策贯穿于整个

4、管理过程中。管理过程中。决策目标决策目标决策者希望达到的状态，工作努力的目的。一般而言，决策者希望达到的状态，工作努力的目的。一般而言，在管理决策中决策者追求的当然是利益最大化。在管理决策中决策者追求的当然是利益最大化。决策准则决策准则决策判断的标准，备选方案的有效性度量。决策判断的标准，备选方案的有效性度量。决策属性决策属性决策方案的性能、质量参数、特征和约束，如技术指决策方案的性能、质量参数、特征和约束，如技术指标、重量、年龄、声誉等，用于评价它达到目标的程度和水平。标、重量、年龄、声誉等，用于评价它达到目标的程度和水平。科学决策过程科学决策过程任何科学决策的形成都必须执行科学的决

5、策程序，任何科学决策的形成都必须执行科学的决策程序，如图如图11-1所示。决策最忌讳的就是决策者拍脑袋决策，只有经历所示。决策最忌讳的就是决策者拍脑袋决策，只有经历过图过图11-1所示的所示的“预决策预决策决策决策决策后决策后”三个阶段，才有可能三个阶段，才有可能产生科学的决策产生科学的决策 11.1 决策分析的基本问题决策分析的基本问题11.1 决策分析的基本问题决策分析的基本问题调查研究调查研究确定决策目标确定决策目标搜集有关的信息资料搜集有关的信息资料预测技术预测技术预测未来的可能情况预测未来的可能情况拟订各种可行方案拟订各种可行方案可行性研究可行性研究方案评估方案评估决策准则决策准则

6、方案选择方案选择方案实施方案实施预预决决策策决决策策实实施施情情况况反反馈馈意意见见决策后决策后图图11-1 科学决策过程科学决策过程11.1 决策分析的基本问题决策分析的基本问题决策系统决策系统状态空间、策略空间、损益函数状态空间、策略空间、损益函数构成了决策系统构成了决策系统。状态空间状态空间不以人的意志为转移的客观因素，设一个状态为不以人的意志为转移的客观因素，设一个状态为Si，有有m种不同状态，其集合记为：种不同状态，其集合记为：miSSSSSSim,1,321S称状态空间，称状态空间，S的元素的元素Si称为状态变量。称为状态变量。策略空间策略空间人们根据不同的客观情况，可能做出

7、主观的选择，人们根据不同的客观情况，可能做出主观的选择，记一种策略方案为记一种策略方案为Ui，有，有n种不同的策略，其集合为：种不同的策略，其集合为：njuuuuUjn,1,21U称为策略空间；称为策略空间；U的元素的元素Uj称为决策变量。称为决策变量。损益函数损益函数当状态处在当状态处在Si情况下，人们做出情况下，人们做出Uj决策，从而产生决策，从而产生的损益值的损益值Vij，显然显然Vij是是Si，Uj的函数，即：的函数，即：njmiuSvVjiij,2,1;,2,1),(11.1 决策分析的基本问题决策分析的基本问题当状态变量是离散型变量时，损益值构成的矩阵叫损益矩阵当状态变量是离散型

8、变量时，损益值构成的矩阵叫损益矩阵 111212122212(,)(,)(,)(,)(,)(,)()(,)(,)(,)nnijm nmmmnv S Uv S Uv S Uv S Uv S Uv S UVVv SUv SUv SU上述三个主要素组成了决策系统，决策系统可以表示为三个主上述三个主要素组成了决策系统，决策系统可以表示为三个主要素的函数：要素的函数：DD（S,U,V）人们将根据不同的判断标准原则，求得实现系统目标的最优人们将根据不同的判断标准原则，求得实现系统目标的最优（或满意）决策方案。（或满意）决策方案。11.1 决策分析的基本问题决策分析的基本问题11.1.2 决策分析基本原则决

9、策分析基本原则1.最优化（满意）原则最优化（满意）原则2.系统原则系统原则3.可行性原则可行性原则4.信息对称、准全原则信息对称、准全原则11.1.3 决策分析基本分类决策分析基本分类表表111按影响范围按影响范围战略决策、战役决策、战术决策战略决策、战役决策、战术决策按状态空间按状态空间确定型决策、非确定型决策、风险型决策确定型决策、非确定型决策、风险型决策按决策时间按决策时间程序化决策、半程序化决策、非程序化决策程序化决策、半程序化决策、非程序化决策按描述方法按描述方法定性化决策、定量化决策定性化决策、定量化决策按目标数量按目标数量单目标决策、多目标决策单目标决策、多目标决策按连续性按连续

10、性单级决策、序贯决策单级决策、序贯决策按决策者数量按决策者数量个人决策、群决策个人决策、群决策按问题大小按问题大小宏观决策、微观决策宏观决策、微观决策表表112 程序化、非程序化、半程序化决策程序化、非程序化、半程序化决策决策类型决策类型传统方法传统方法现代方法现代方法程序化程序化现有的规章制度现有的规章制度运筹学、管理信息系统（运筹学、管理信息系统（MIS）半程序化半程序化经验、直觉经验、直觉灰色系统、模糊数学等方法灰色系统、模糊数学等方法非程序化非程序化经验、应急创新能力经验、应急创新能力人工智能、风险应变能力培训人工智能、风险应变能力培训11.1 决策分析的基本问题决策分析的基本问题下一

11、节：确定型和非确定型决策下一节：确定型和非确定型决策11.1 决策分析的基本问题决策分析的基本问题11.2 确定型和非确定型决策确定型和非确定型决策11.2 确定型和非确定型决策确定型和非确定型决策11.2.1 确定型决策确定型决策确定型决策确定型决策是指决策的未来状态是已知的，只需从备选的决策方是指决策的未来状态是已知的，只需从备选的决策方案中，挑选出最优方案。案中，挑选出最优方案。【例例11.1】某企业根据市场需要，需添置一台数控机床，可采某企业根据市场需要，需添置一台数控机床，可采用的方式有三种：用的方式有三种：甲方案：引进外国进口设备，固定成本甲方案：引进外国进口设备，固定成本1000

12、万元，产品每件万元，产品每件可变成本为可变成本为12元；元；乙方案：用较高级的国产设备，固定成本乙方案：用较高级的国产设备，固定成本800万元，产品每件万元，产品每件可变成本为可变成本为15元；元；丙方案：用一般国产设备，固定成本丙方案：用一般国产设备，固定成本600万元，产品每件可变万元，产品每件可变成本为成本为20元；元；试确定在不同生产规模情况下的购置机床的最优方案。试确定在不同生产规模情况下的购置机床的最优方案。【解解】此题为确定型决策利用经济学知识，选取最优决此题为确定型决策利用经济学知识，选取最优决策最优决策也就是在不同生产规模条件下，选择总成本较低策最优决策也就是在不同生产规模条

13、件下，选择总成本较低的方案各方案的总成本线如图的方案各方案的总成本线如图11.2 图图11.2TC甲甲F甲甲Cv甲甲Q100012QTC乙乙F乙乙Cv乙乙Q80015QTC丙丙F丙丙Cv丙丙Q60020Q 图中出现了图中出现了A、B、C三个交点，三个交点，其中其中A点经济意义：在点经济意义：在A点采用甲点采用甲方案与丙方案成本相同方案与丙方案成本相同TC甲甲TC丙丙，F甲甲Cv甲甲QAF丙丙Cv丙丙QA)(5012206001000万件甲丙丙甲CvCvFFQAQ5011.2 确定型和非确定型决策确定型和非确定型决策同理：同理：B点点TC乙乙TC丙丙，F乙乙Cv乙乙QBF丙丙Cv丙丙QB)(40

14、1520600800万件乙丙丙乙CvCvFFQBC点：点：TCL甲甲TC乙乙，F甲甲Cv甲甲QCF乙乙Cv乙乙QC B点经济意义为：当生产点经济意义为：当生产40万件时，采用乙方案和采用丙方案成万件时，采用乙方案和采用丙方案成本相同均为本相同均为1400万元万元（万件）甲乙乙甲320012158001000CvCvFFQC图图11.211.2 确定型和非确定型决策确定型和非确定型决策得到生产规模最优方案为：当得到生产规模最优方案为：当生产规模产量小于生产规模产量小于40万件时，万件时，采用丙方案；当生产规模产量采用丙方案；当生产规模产量大于大于40万件，小于万件，小于200/3万件万件时，采用

15、乙方案；当生产规模时，采用乙方案；当生产规模产量大于产量大于200/3万件时，采用万件时，采用甲方案甲方案其经济意义为：当生产规模为万件时，采用甲、乙方案成本相其经济意义为：当生产规模为万件时，采用甲、乙方案成本相同从图中可知：当生产规模同从图中可知：当生产规模QB时，采用丙方案；当时，采用丙方案；当QB 生生产规模产规模 QC时，采用乙方案；当时，采用乙方案；当QC 0,则对任何概率不则对任何概率不为零的事件为零的事件B，有有,2,1)|()()|()()|(mABPAPABPAPBAPiiimmm11.3 风险型决策风险型决策 niiikjjkkjNPNZPNPNZPZNP1)()()(

16、)()(njlk,2,1;,2,1更更一般地一般地此此公式为后验概率公式为后验概率11.3 风险型决策风险型决策产品需求量产品需求量x0100200300400先验概率先验概率p(xi)0.050.150.30.250.25例如，根据以往的经验，产品需求量的概率为例如，根据以往的经验，产品需求量的概率为产品进入市场产品进入市场2个月的试销后，需求量的样本信息个月的试销后，需求量的样本信息(比例比例)为为产品需求量产品需求量0100200300400需求量比例需求量比例0.050.150.350.250.20贝叶斯公式：贝叶斯公式：若若A1、A2、构成一个完备事件，构成一个完备事件，P（Ai)

17、0,则对任何概率不则对任何概率不为零的事件为零的事件B，有有,2,1)|()()|()()|(mABPAPABPAPBAPiiimmm11.3 风险型决策风险型决策【例例】盒子里有盒子里有100枚均匀的硬币，有枚均匀的硬币，有60枚是正常的，枚是正常的，40枚两面枚两面都是徽。从盒子中任取一枚让你猜是哪一类硬币。猜中得都是徽。从盒子中任取一枚让你猜是哪一类硬币。猜中得5元，元，猜不中不得钱。你猜是哪一类？猜不中不得钱。你猜是哪一类？B1(正常正常)B1(双徽双徽)3/52/5A1(猜正常猜正常)50A2(猜双徽猜双徽)05获利的期望值获利的期望值V(A1)=53/5+02/5=3V(A2)=0

18、3/5+52/5=2正确的决策是：应该选择猜正常正确的决策是：应该选择猜正常11.3 风险型决策风险型决策如果现在抛掷如果现在抛掷3次，次，3次都出现徽，你又如何猜？该硬币是正常次都出现徽，你又如何猜？该硬币是正常的概率为多少，是双徽的概率为多少。的概率为多少，是双徽的概率为多少。设设H为为3次出现反面这一随机事件，次出现反面这一随机事件，B1为硬币是正常，为硬币是正常，B2为硬币为硬币是双徽，则是双徽，则1)|(,8121)|(231BHpBHp3次都次都出现双徽的概率为：出现双徽的概率为：40195215381)()|()()|()(2211BpBHpBpBHpHp19340195381

19、)()()|()|(111HpBpBHpHBp19164019521)()()|()|(222HpBpBHpHBp11.3 风险型决策风险型决策 B1(正常正常)B1(双徽双徽)3/1916/19A1(猜正常猜正常)50A2(猜双徽猜双徽)05用用后验概率代替原来的概率，决策矩阵为：后验概率代替原来的概率，决策矩阵为：获利的期望值获利的期望值V(A1)=53/19+02/5=15/19V(A2)=03/5+516/19=80/19正确的决策是：应该选择猜双徽正确的决策是：应该选择猜双徽11.3 风险型决策风险型决策根据过去经验可知当自然状态为根据过去经验可知当自然状态为Nj条件下调查结果为条

20、件下调查结果为Zk的条件概的条件概率率njlkNZPjk,2,1;,2,1)(再利用贝叶斯公式和全概率公式，求当结果为再利用贝叶斯公式和全概率公式，求当结果为ZK的条件下自然的条件下自然状态为状态为Nj的条件概率的条件概率 niiikjjkkjNPNZPNPNZPZNP1)()()()()(njlk,2,1;,2,111.3 风险型决策风险型决策在后验分析中用在后验分析中用)(kjZNP代替先验分析中的代替先验分析中的P（Nj），），利用期望值准则计算出利用期望值准则计算出Ek再根据全概率公式，可知结果为再根据全概率公式，可知结果为Zk的概率为的概率为miiikkNPNZPZP1)()()(

21、因此，后验分析的效益期望值为因此，后验分析的效益期望值为 lkkkZPEEMV12)(lkmiZNPNSfEnjkjjiik,1;,1)(),(1，miEEijjk,1,max11.3 风险型决策风险型决策当状态只有两个时，后验概率及期望收益可用快捷公式计算。当状态只有两个时，后验概率及期望收益可用快捷公式计算。记先验概率向量为记先验概率向量为P，条件概率矩阵为条件概率矩阵为A，后验概率矩阵为后验概率矩阵为B，收益矩阵为收益矩阵为V，有有 2221212122221211112121112122121111112221121121,apapapapapapapapapapapapBaaaaA

22、ppP，则先验收益期望值向量为则先验收益期望值向量为EMV1PTV后验收益期望值矩阵为后验收益期望值矩阵为EkBV11.3 风险型决策风险型决策【例例11.6】某厂对一台机器的换代问题做决策，有三种方案：某厂对一台机器的换代问题做决策，有三种方案：A1为买另为买另一台新机器；一台新机器；A2为对老机器进行改建；为对老机器进行改建；A3是维护加强输入不同质量的是维护加强输入不同质量的原料，三种方案的收益见表原料，三种方案的收益见表11.8约有约有30%的原料是质量好的，还可以的原料是质量好的，还可以花花600元对原料的质量进行测试，这种测试可靠性见表元对原料的质量进行测试，这种测试可靠性见表11

23、.9求最优方求最优方案案11.3 风险型决策风险型决策原料的实际质量原料的实际质量N1好好N2差差测试结果测试结果Z1好好0.80.3Z2差差0.20.7原料质量原料质量Ni购新机器购新机器A1改建老机器改建老机器A2维护老机器维护老机器A3N1好（好（0.3）31.00.8N2差（差（0.7）-1.50.50.6表表11.9 测试可靠性测试可靠性表表11.8 收益表收益表(单位：万元单位：万元)()kiP Z N11.3 风险型决策风险型决策【解解】（1）若不做测试，各方案的先验收益-0.150.7(-1.5)0.331EMV65.07.05.03.00.12EMV66.07.06.03

24、.08.03EMV30.66lEMVEMV万元应选方案应选方案3，维护老机器。，维护老机器。24.03.08.0)()()(11111NPNZPZNP06.03.02.0)()()(11221NPNZPZNP(2)计算后验概率计算后验概率()kjP ZN已知已知联合概率为：联合概率为：11.3 风险型决策风险型决策 21122()()()0.3 0.70.21P N ZP Z NP N22222()()()0.7 0.70.49P N ZP ZNP N边际概率为边际概率为 45.021.024.0)()()(12111ZNPZNPZP55.049.006.0)()()(22212ZNPZNPZ

25、P代入（代入（11.2）从而可得后验概率）从而可得后验概率533.045.0/24.0)()()(11111ZPZNPZNP109.055.0/06.0)()()(22121ZPZNPZNP467.045.0/21.0)()()(11212ZPZNPZNP891.055.0/49.0)()()(22222ZPZNPZNP11.3 风险型决策风险型决策则有则有0.5330.46731.00.80.1090.8911.500.8985.50.60.76650.60.70661.00950.5545218kE6218.08985.0kE即当测试结果为原料的质量好，则购买新机器；若测试结果为即当测试

26、结果为原料的质量好，则购买新机器；若测试结果为原材料的质量差，则维护老机器。原材料的质量差，则维护老机器。747.06218.08985.055.045.02kEPEMV687.006.0747.022CEMVEMV决策为：应花决策为：应花600元进行测试，测试后若质量好，购入新机器生元进行测试，测试后若质量好，购入新机器生产；若质量差，维护老机器生产产；若质量差，维护老机器生产【例例】石油开发决策问题石油开发决策问题收益收益勘探勘探250钻探钻探150卖出收益卖出收益90有油时收益有油时收益800干涸时收益干涸时收益0自然自然状态状态先验概率先验概率好好不好不好有油有油干涸干涸勘探结果勘探结

29、干涸的概率勘探不好时干涸的概率P(D|U)=P(D)*P(U|D)/P(O)*P(U|O)+P(D)*P(U|D)=0.41/0.52=0.76920.480.5210.23076900.769231决策树参看文件：决策树参看文件：DATAchpt11ch11.xls下一节：效用理论下一节：效用理论作业：教材作业：教材P269 T3711.3 风险型决策风险型决策 11.4 效用理论效用理论Utility Theory11.4.1 效用效用贝努利贝努利(D.Berneulli)首次提出效用概念，他用图首次提出效用概念，他用图11.7表示出人表示出人们对钱财的真实价值的考虑与其钱财拥有量之间有对

30、数关们对钱财的真实价值的考虑与其钱财拥有量之间有对数关系系效用是一种相对的指标值，它的大小表示决策者对于风险的效用是一种相对的指标值，它的大小表示决策者对于风险的态度，对某事物的倾向、偏差等主观因素的强弱程度用于量态度，对某事物的倾向、偏差等主观因素的强弱程度用于量度决策者对于风险的态度度决策者对于风险的态度.效用效用U货币货币M图图117 贝努利效用曲线贝努利效用曲线11.4 效用理论效用理论Utility Theory【例例】（1）方案）方案A1；稳获稳获100元。方案元。方案B1：用抛掷硬币的方法，猜对得用抛掷硬币的方法，猜对得250元，猜错不得钱。元，猜错不得钱。（2）方案）方案A2；

31、稳获稳获100元。方案元。方案B2：用抛掷硬币的方法，直到出用抛掷硬币的方法，直到出现正面为止，第现正面为止，第n 次出现正面得到次出现正面得到2n元。元。大多数选择大多数选择A1、A2.通过计算有通过计算有E(B1)E(A1)，E(B2)E(A2)一般来说效用值在一般来说效用值在0,1之间取值之间取值.凡是决策者最看好、最倾凡是决策者最看好、最倾向、最愿意的事物（事件）的效用值可取向、最愿意的事物（事件）的效用值可取1；反之，效用；反之，效用值取值取0当各方案期望值相同时，一般用最大效用值决策当各方案期望值相同时，一般用最大效用值决策准则，选择效用值最大的方案准则，选择效用值最大的方案 11

32、.4 效用理论效用理论Utility Theory通过效用指标将某些难于量化、有质的区别的事件给予量化，通过效用指标将某些难于量化、有质的区别的事件给予量化，得到各方案的综合效用值，选择效用值最大的方案作为决策准得到各方案的综合效用值，选择效用值最大的方案作为决策准则。则。11.4.2 效用曲线效用曲线确定效用曲线的基本方法有两种：一种是直接确定效用曲线的基本方法有两种：一种是直接提问法提问法，需要决，需要决策者回答提问，主观衡量应用较少；第二种是策者回答提问，主观衡量应用较少；第二种是对比提问法对比提问法，此法使用较多此法使用较多设现有设现有A0，A1两种方案供选两种方案供选A0表示决策者

33、不需要花费任何风表示决策者不需要花费任何风险可获益险可获益x0；而；而A1有两种自然状态，可以概率有两种自然状态，可以概率P获得收益获得收益x1，以以概率（概率（1P）获得收益获得收益x2；且；且x1x0 x2 令令yi表示效益表示效益xi的效用值则的效用值则x0，x1，x2的效用值分别表示为的效用值分别表示为y0，y1，y2 若在某条件下，决策者认为若在某条件下，决策者认为A0,A1两方案等价，则有：两方案等价，则有：021)1(yyPPy11.4 效用理论效用理论Utility Theory4个数个数p，x0，x1，x2中中给定给定3个，提问第个，提问第4个变量由决策者确定，个变量由决策者

34、确定，求出效用值。求出效用值。一般采用改进一般采用改进VM(Von NeumannMorgenstern)方法，固定方法，固定P0.5，x1，x2改变改变x0三次，得出相应的三次，得出相应的y的值，确定三点，作出效用的值，确定三点，作出效用曲线曲线)()(5.0)(5.0021xyxyxy11.4 效用理论效用理论Utility Theory)()(5.0)(5.0021xyxyxy【例例11.7】x1=100，x2=400,取取y(x1)=0,y(x2)=1-100400第一次提问：第一次提问：x0为何值时，上式成立？答：为何值时，上式成立？答：“0”y(0)=0.50+0.510.51(0

35、,0.5)第二次提问：第二次提问：x0为何值时，上式成立？答：为何值时，上式成立？答：“200”y(200)=0.5y(0)+0.51 =0.50.5+0.510.75第三次提问：第三次提问：x0为何值时，为何值时，上式成立？答：上式成立？答：“100”y(100)=0.5y(0)+0.5y(200)=0.50.5+0.50.750.625(200,0.75)(100,0.625)100200 300011.4 效用理论效用理论Utility Theory不同决策者对待风险态度不同，因而会得到不同形状的效用曲不同决策者对待风险态度不同，因而会得到不同形状的效用曲线一般可分为保守型线一般可分为保

36、守型、中间型、中间型、风险型、风险型，如下图，如下图 y1IIIx(Xmax,1)(Xmin,0)XmaxXmin011.4.3 效用曲线类型效用曲线类型图中图中I为保守型，其特点为：当收益为保守型，其特点为：当收益值较小时，效用值增加较快；随收值较小时，效用值增加较快；随收益值增大时，效用值增加速度变慢，益值增大时，效用值增加速度变慢，表明决策者不求大利，谨慎小心，表明决策者不求大利，谨慎小心，保守保守图中图中II为中间型，其特点为：收为中间型，其特点为：收益值和效用值成正比，表明决策益值和效用值成正比，表明决策者完全按机遇办事，心平气和者完全按机遇办事，心平气和图中图中III为风险型，其特

37、点为与为风险型，其特点为与I保守型恰好相反，当收益值较小保守型恰好相反，当收益值较小时，效用值增加较慢；随收益值时，效用值增加较慢；随收益值增大时，效用值增加速度变快，增大时，效用值增加速度变快，表明决策者对增加收益反应敏感，表明决策者对增加收益反应敏感，愿冒较大风险，谋求大利，不怕愿冒较大风险，谋求大利，不怕冒险冒险 III11.4 效用理论效用理论Utility Theory常用的效用函数：常用的效用函数：11.4 效用理论效用理论Utility Theory11.4.4 效用值的应用效用值的应用【例例11.8】若某决策若某决策问题的决策树如下图所问题的决策树如下图所示，其决策者的效用期示

38、，其决策者的效用期望值同时附在效益期望望值同时附在效益期望值后，请做出决策值后，请做出决策 E(2)=0.53000.5(200)=50 E(3)0.52000.5(100)=50 根据最大效益期望值准则，无法判断优劣根据最大效益期望值准则，无法判断优劣 y2=0.510.500.5，y3=0.50.9+0.50.3=0.6 解：解：(1）计算效益期望值分别为）计算效益期望值分别为11.4 效用理论效用理论Utility TheoryA2方案效用值方案效用值A1方案效用值，因此取方案效用值，因此取A2方案为决策方案方案为决策方案绘制效用曲线图见下图，可知，该决策者偏向于保守型，不求大绘制效用曲

39、线图见下图，可知，该决策者偏向于保守型，不求大利，谨慎小心利，谨慎小心 11.4 效用理论效用理论Utility Theory-20030010100200-100yx11.5 马尔可夫决策马尔可夫决策 Markov Decision11.5马尔可夫决策马尔可夫决策 Markov Decision11.5.1 马尔可夫链马尔可夫链用用X(t)表示随机系统在时刻表示随机系统在时刻t 的状态，状态序列的状态，状态序列TttX);(为一随机过程，如果系统当前的转移概率只与当前的运行状为一随机过程，如果系统当前的转移概率只与当前的运行状态有关，而与以前的状态无关，即：对随机过程态有关，而与以前的状态

40、无关，即：对随机过程 TttX);(若对任意的若对任意的0t1t2tntn+1及及tiT，X（tn+1）关于关于X（t1）,X（tn）的条件概率恰好等于的条件概率恰好等于X（tn+1）关于关于X（tn）的条件概率，的条件概率，用数学符号表示为：用数学符号表示为：,)()(;,)()()(1)(1ninnnnninnnUitXjtXPtUitXjtXP策以前各时期的状态和决则称则称具有马尔可夫性随机过程称为马尔可夫过程。具有马尔可夫性随机过程称为马尔可夫过程。TttX);(所有可能的全体取值称为过程的状态空间。所有可能的全体取值称为过程的状态空间。TttX);(若马氏过程的状态空间为非负整数集

41、若马氏过程的状态空间为非负整数集E0，1，2，称为马称为马氏链。例如，今天下雨这一状态用氏链。例如，今天下雨这一状态用“0”表示，不下雨用表示，不下雨用“1”表表示，则状态空间为示，则状态空间为 E0，1。天气变化过程符合马天气变化过程符合马Markov性。性。11.5.2 转移概率转移概率记记Pij为从状态为从状态X(n)=i转移到下一个状态转移到下一个状态X（n+1）=j 的概率，一的概率，一步转移概率矩阵为步转移概率矩阵为mmmmmmPPPPPPPPPP21222211121111.5马尔可夫决策马尔可夫决策 Markov Decision【例例11.9】有有3家电器公司分别生产三种不

42、同牌子的空调。各自家电器公司分别生产三种不同牌子的空调。各自开展广告攻势促销本公司产品。各公司所占的市场比例是随时开展广告攻势促销本公司产品。各公司所占的市场比例是随时间变化的。间变化的。XXn，n0构成一个以构成一个以E1,2,3为为状态空间的状态空间的Markov链。假设在任一时刻，公司链。假设在任一时刻，公司1能留住它的能留住它的1/2的老顾客，其余的则的老顾客，其余的则对半购买另两个公司的产品；公司对半购买另两个公司的产品；公司2的一半顾客能留下，其余转的一半顾客能留下，其余转向公司向公司1；公司；公司3有有3/4能留下，其余流向公司能留下，其余流向公司2。Markov链的转链的转移

43、概率矩阵和转移图：移概率矩阵和转移图：4341002121414121P1/21/41/41/21/21/43/411.5马尔可夫决策马尔可夫决策 Markov Decision求求n期后公司期后公司i的市场占有率，的市场占有率，n时的时的市场占有率。市场占有率。记记Pj(n)=P(Xn=j)为为Markov链链X时刻时刻n处于状态处于状态j的概率，的概率，P为初为初始分布。始分布。【定理定理】XXn，n0为一个为一个Markov链，则有链，则有112111220,12(1)(,|)(2)(1)()(3)()(0),(0)(,)nnnni ii iiinmP Xi XiXiXipppP nP

44、n PG nGP Gg gg为初始状态，是行向量对对任意任意m，n0，有有)()()(nPmPnmP对对任意任意i，jE，有有Ekkjikijnpmpnmp)()()(此此方程称为方程称为Champan-Kolmogorov方程，简称方程，简称CK方程方程11.5.3 转移状态转移状态 11.5马尔可夫决策马尔可夫决策 Markov Decision【例例11.10】假设假设3个公司开始的市场占有率为个公司开始的市场占有率为(0.3，0.35，0.35),求求5个月后的市场占有率个月后的市场占有率(状态状态)。【解解】P0(0.3，0.35，0.35)5()0()5(PGG)3375.0,33

45、75.0,325.0(75.025.0005.05.025.025.05.0)35.0,35.0,3.0()0()1(PGG)33408.0,33262.0,3333.0(75.025.0005.05.025.025.05.0)35.0,35.0,3.0()0()5(55PGG11.5马尔可夫决策马尔可夫决策 Markov Decision遍历性：如果一个齐次的马尔可夫链遍历性：如果一个齐次的马尔可夫链X(n),n=1,2,的的n步转移步转移概率为概率为Pij(n)，对于一切状态对于一切状态i,j，存在着不依赖于初始状态存在着不依赖于初始状态i的常的常数数Pj，使得使得 jijnpnp)(li

46、m成立，则称此马尔可夫链具有遍历性也就是说，一个具有遍成立，则称此马尔可夫链具有遍历性也就是说，一个具有遍历性的马尔可夫链，当转移的次数历性的马尔可夫链，当转移的次数n极大时，此系统转移到状极大时，此系统转移到状态态j的概率为一个常数的概率为一个常数Pj，而与初始状态无关而与初始状态无关 nnPlim求求【引理引理】设设m 阶矩阵阶矩阵P具有具有m个线性无关的特征向量个线性无关的特征向量 B(b1,b2,bm)对应的特征值为对应的特征值为1，2，m，则，则B可逆且有可逆且有PBB1，Pn=BnB1.其中其中diag(1，2，m)11.5马尔可夫决策马尔可夫决策 Markov Decision上

47、例中，求上例中，求Pn及及nnPlim求转移概率矩阵求转移概率矩阵P的特征值及特征向量。由的特征值及特征向量。由|IP|=0得得0)25.0)(5.0)(1(75.025.0005.05.025.025.05.0特征值及特征向量矩阵为特征值及特征向量矩阵为313132101313131,111211101412111BB，11.5马尔可夫决策马尔可夫决策 Markov Decision1141211BBBBPnnnnnnnnnnnnnnnnn)41(31)21(31)41(3131)41(32)21(31)41(32)21(31)41(3231)41(34)21(31)41(3131)41(3

48、131)41(3231则有则有11.5马尔可夫决策马尔可夫决策 Markov Decision313131313131313131limnnP31,31,31lim)35.0,35.0,3.0(lim)0()(limnnnnnPPGnGG长期后市场占有率各占长期后市场占有率各占1/3PnGnG)()1(GPGPnGnGnn，)(lim)1(lim由由得得解解方程得到稳定状态的概率方程得到稳定状态的概率G11.5马尔可夫决策马尔可夫决策 Markov Decision【例例11.10】设某公司有两种状态：设某公司有两种状态：1和和2，1为盈利，为盈利，2为亏为亏损当其处于损当其处于1时，下一年仍

49、为时，下一年仍为1的概率是的概率是1/2，因此下一年转为，因此下一年转为2的概率也是的概率也是1/2当公司处于状态当公司处于状态2时，下一年经过努力回到状态时，下一年经过努力回到状态1的概率为的概率为2/5，仍处于亏损状态的概率为，仍处于亏损状态的概率为3/5若公司现处于状若公司现处于状态态1，问经过，问经过n年后该公司处于状态年后该公司处于状态1和和2的概率各是多少？的概率各是多少？解解：显然，系统有两个状态，设显然，系统有两个状态，设S为状态空间，则：为状态空间，则：S=i,j=1,2此处，此处，p11=1/2,p12=1/2,p21=2/5,p22=3/5因此因此 53522121222

50、11211ppppP设设G(g1，g2)，由，由GGP11.5马尔可夫决策马尔可夫决策 Markov Decision设设G(g1，g2)，由，由GGP5352212122211211ppppP53522121),(),(2121gggg1,5321,522121212211gggggggg95,9421gg11.5马尔可夫决策马尔可夫决策 Markov Decision11.5.4 收益预测模型收益预测模型),(nnif 设系统在第设系统在第n个时期处于状态个时期处于状态X(n)=i，转移到过程终结时的总期转移到过程终结时的总期望收益为望收益为 ,2,1;,2,1),(),(111nmijf

展开阅读全文