1、*第六讲马尔可夫型决策数学人教B版高中选修4-9风险与决策教学目标知识与能力知识与能力 熟悉马尔可夫型决策,能够独立地对马尔可熟悉马尔可夫型决策,能够独立地对马尔可夫型决策进行某一时间段和短期的风险决策夫型决策进行某一时间段和短期的风险决策.过程与方法过程与方法 通过对普通风险决策的回顾,对马尔可夫通过对普通风险决策的回顾,对马尔可夫链做进一步理解,结合前面的风险型决策对比链做进一步理解,结合前面的风险型决策对比的学习马尔可夫型决策的学习马尔可夫型决策.情感态度与价值观情感态度与价值观 通过与普通风险决策比较的学习,使学生能通过与普通风险决策比较的学习,使学生能够迅速的接受和理解马尔夫型决策够
2、迅速的接受和理解马尔夫型决策.重点:重点:转移概念矩阵,平均收益矩阵转移概念矩阵,平均收益矩阵.难点:难点:马尔可夫型决策案例分析马尔可夫型决策案例分析.教学重难点教学重难点案例案例4 某工厂的一台自动加工机有某工厂的一台自动加工机有2种工作状态种工作状态:正正常状态和故障状态常状态和故障状态.在每个整数钟点的起始时刻检查在每个整数钟点的起始时刻检查机器的工作情况机器的工作情况,若机器处于正常状态若机器处于正常状态,则让它继则让它继续工作续工作;若机器处于故障状态若机器处于故障状态,则对他进行检修则对他进行检修.假设假设处于正常状态的机器处于正常状态的机器,在一小时后发生故障的概率在一小时后发
3、生故障的概率为为0.05,对于故障机器有,对于故障机器有2种检种检案例分析修方案可供选择,修方案可供选择,一种是加急检修,在一种是加急检修,在一小时内一小时内排除故排除故障的概率为障的概率为0.9;一种是一种是常规检修常规检修,在一小时内排除故障,在一小时内排除故障的概率为的概率为0.6.已知这台机器正常工作一小时可已知这台机器正常工作一小时可收益收益10元,加急检元,加急检修修1小时费用为小时费用为9元,常规检修一小时费用为元,常规检修一小时费用为6元,若机元,若机器出现故障,该选择哪种方案?器出现故障,该选择哪种方案?先写出行动方案和可能状态先写出行动方案和可能状态 决策目标是使机器产生收
4、益最大,可供选择的行动决策目标是使机器产生收益最大,可供选择的行动方案有:方案有:加急检修,加急检修,:常规检修常规检修.机器在任意时刻可能所处的状态:机器在任意时刻可能所处的状态:正常状态,正常状态,:故障状态故障状态.1d2d1h2h 机器在第机器在第n小时的工作状态小时的工作状态 与时间有关与时间有关,显然显然 是一个马尔可夫链是一个马尔可夫链,状态分布列随着状态分布列随着时间的变化也在不断变化时间的变化也在不断变化.普通风险决策分布列保持不变可表示为普通风险决策分布列保持不变可表示为nXnXhp1-p()P h1h2h行动方案行动方案d1 转移概率矩阵为转移概率矩阵为行动方案行动方案d
5、2的转移概率矩阵为的转移概率矩阵为10.950.05P=,0.90.120.950.05P=,0.60.4然后写出状态转移矩阵然后写出状态转移矩阵 设定时间段设定时间段 ,则收益,则收益矩阵为矩阵为,1n n 1010,96Q 假设机器最开始为正常工作状态,假设机器最开始为正常工作状态,则初始分布则初始分布为为(0)(0)12(10),pp写出收益矩阵,初始分布写出收益矩阵,初始分布时刻时刻n的分布和时刻的分布和时刻n+1的分布的关系?的分布的关系?想一想想一想(1)(1)()()1212nnnnppppP在行动方案在行动方案d1下,时刻下,时刻1的分布的分布时刻时刻2的分布的分布(1)(1)
6、12pp=(0.950.05)(2)(2)(1)(1)12121pp=ppP0.950.05=0.950.050.90.1=0.94750.0525时刻时刻n的分布为的分布为(n)(n)(0)(0)n12121npp=ppP0.950.05=0.950.050.90.1在行动方案在行动方案d2下,时刻下,时刻n的分布的分布(n)(n)(0)(0)n12122npp=ppP0.950.05=0.950.050.60.4 假设初始状态为正常状态,行动假设初始状态为正常状态,行动d1在时间段在时间段 内的平均收益为内的平均收益为行动方案行动方案d2在时间段在时间段 内的平均收益为内的平均收益为(0)
7、(0)n1121n10Q(d,n)=ppP-90.950.0510=(10)0.90.1-9(0)(0)n2122n10Q(d,n)=ppP-60.950.0510=(10)0.60.4-6 ,1n n,1n n3写出平均收益矩阵写出平均收益矩阵 不设定初始情况不设定初始情况,则行动方案则行动方案d1在时间段在时间段 内的平均收益为内的平均收益为(0)(0)1120.95 0.0510(,).0.90.19nQ d npp 行动方案行动方案d2在时间段在时间段 内的平均收益为内的平均收益为(0)(0)2120.95 0.0510(,).0.60.46nQ d npp ,1n n,1n n 假设
8、初始状态为正常状态,则两行动假设初始状态为正常状态,则两行动方案前方案前10个时间段平均收益为个时间段平均收益为时间段9.05009.20009.0258.92009.0018.82209.00008.76931,22,33,41 0,1 11(,)Q d n2(,)Q dn 最后,根据题目要求选择最大收益决策,最后,根据题目要求选择最大收益决策,当确定某一确定时刻当确定某一确定时刻n,在时间段在时间段 内内进行决策进行决策时时,这类这类问题是短期准则下的马尔可夫问题是短期准则下的马尔可夫型决策型决策,当在时间段内当在时间段内 进行决策时进行决策时,我们我们称为长期准则下的马尔可夫型决策称为长期准则下的马尔可夫型决策,这类这类问题问题将在下一节中讲将在下一节中讲.0,n0,The EndThe End