贝叶斯决策理论课件.ppt_163文库

资源描述

1、第二章第二章2.1 引言引言2.2几种常用的决策规则几种常用的决策规则2.3正态分布时的统计决策正态分布时的统计决策2.4关于分类器的错误率问题关于分类器的错误率问题u模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去。u例：医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。u两类的识别问题。2.1 引引言言l根据医学知识和以往的经验医生知道：患病的人，白细胞的浓度服从均值2000，方差1000的正态分布；未患病的人，白细胞的浓度服从均值7000，方差3000的正态分布；一般人群中，患病的人数比例为0.5%。l 一个人的白细胞浓度是3100，医生应该做出怎样的

2、判断？l贝叶斯决策理论方法的假设：各类别总体的概率分布是已知的；要决策分类的类别数是一定的。l在连续情况下，假设要识别的对象有d种特征量x1，x2，xd，这些特征的所有可能的取值范围构成了d维特征空间，称 x=x1，x2，xdT 为d维特征向量。2.1 引引言言假设说明假设说明l假设要研究的分类问题有c个类别i，i=l，2，c；对应于各个类别i出现的先验概率P(i)及类条件概率密度函数p(x/i)是已知的。l如果在特征空间已观察到某一向量x，lx=x1，x2，xdTl那么应该把x分到哪一类去才是最合理呢？l这就是本章所要研究的主要问题。2.1 引引言言2.2 u基于最小错误率的贝叶斯决策

3、u基于最小风险的贝叶斯决策 u在限定一类错误率条件下使另一类错误率为最小的两类别决策u极小化极大决策u序贯分类方法 2.2.1基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策利用概率论中的贝叶斯公式，得出使错误率为最小的分类规则，称之为基于最小错误率的贝叶斯决策。2.2 举例说明举例说明以鱼分类为例说明解决问题的过程。假设已抽取出d个表示鱼的特征，成为一个d维空间的向量x，目的是要将x分类为鲈鱼或者鲑鱼。如果用表示状态，就是将x归类于两种可能的自然状态之一，则=1 表示鲈鱼=2 表示鲑鱼2.2.1基于最小错误率的贝叶斯决策只以先验概率决策存在问题只以先验概率决策存在问题假设已知出现

4、鲈鱼的先验概率为P(1)和出现鲑鱼的先验概率为P(2)。在两类别问题中存在 P(1)+P(2)=12.2.1基于最小错误率的贝叶斯决策只以先验概率决策存在问题只以先验概率决策存在问题若P(1)P(2)，=1；P(1)P(2)，出现的鱼归为鲈鱼。如果仅做一次判别，这种分类可能是合理的；如果多次判别，则根本未达到要把鲈鱼与鲑鱼区分开的目的。2.2.1基于最小错误率的贝叶斯决策解决方法解决方法利用对鱼观察到的光泽度提高分类器的性能。不同的鱼产生不同的光泽度，将其表示为概率形式的变量，设x是连续的随机变量，其分布取决于类别状态，表示为p(x|)，即类条件概率分布(class-condition

7、对上式的l(x)取自然对数的负值，可写为 1若)()()|()|()(1221PPxpxpxl，则x2若h(x)=lnl(x)=lnp(x|1)+lnp(x|2)则 x举例举例假设在某个局部地区细胞识别中正常(1)和异常(2)两类先验概率分别为正常状态：P(1)=0.9；异常状态：P(2)=0.1。现有一待识的细胞，其观察值为x，从类条件概率密度分布曲线上查得p(x|1)=0.2，p(x|2)=0.4。试对该细胞x进行分类。2.2.1基于最小错误率的贝叶斯决策解：利用贝叶斯公式，分别计算出1及2的后验概率。818.01.04.09.02.09.02.0)()|()()|()x|(21111

8、jjjPxpPxpPP(2|x)=1 P(1|x)=10.818=0.182根据贝叶斯决策规则(2)，有P(1|x)=0.818 P(2|x)=0.182所以合理的决策是把 x 归类于正常状态。归类于正常状态。2.2.1基于最小错误率的贝叶斯决策从这个例子可见，决策结果取决于实际观察到的类条件概率密度p(x|i)和先验概率P(i)两者。在这个例子中由于状态1的先验概率比2的先验概率大好几倍，使先验概率在做出决策中起了主导作用。2.2.1基于最小错误率的贝叶斯决策最小错误率贝叶斯决策规则证明最小错误率贝叶斯决策规则证明错误率平均错误率，以P(e)来表示，其定义为 )|()|()|()|()

9、|()|()|(212121xPxPxPxPxPxPxeP，当，当dxxpxePdxxePeP)()|(),()(2.2.1基于最小错误率的贝叶斯决策)|(),|(min)|(12xPxPxePdxxpxePdxxePeP)()|(),()(2.2.1基于最小错误率的贝叶斯决策多类别决策多类别决策在多类决策的最小错误率贝叶斯决策规则。如果cj,2,1maxP(i|x)=P(j|x)，则xi p(x|i)P(i)=p(x|j)P(j)，则xi cj,2,1max2.2.1基于最小错误率的贝叶斯决策多类别决策多类别决策多类别决策过程中，要把特征空间分割成R1，R2，Rc个区域，可能错分的情况

11、ision Theory(General)Generalize Bayes Decision Theory by 允许使用多于一个的特征(allowing to use multi features)允许多于两种类别状态(allowing to use more that two states)允许有其他行为而不仅仅是判定类别(allowing actions rather than choosing states)引入损失函数代替误差概率(introducing a loss function rather than probability of error)2.2.1基于最小错误率的贝叶斯

12、决策 2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策 nx:feature vector(d1)x=x1，x2，xdT n状态空间states(classes)由c个自然状态(c类)组成。=1，2，cnactions(allows possibility of rejection)A=，12in loss for taking action i for state j ),(ji2.2 2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策根据贝叶斯公式，后验概率为)()()|()|(xxxpPpPjjjcjjjPpp1)()|()(xx其中 2.2.2基于最小风险的贝叶斯决

13、策基于最小风险的贝叶斯决策对于给定的x如果采取决策如果采取决策，从决策表可见，对应于决策，可以在c个，j=1，c值中任取一个，其相应概率为P(j|x)。因此在采取决策情况下的条件期望损失R(|x)为 ii),(jiii)|(),(),()|(1xxjjicjjiiPERi=1，2，a 2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策定义期望风险R为 xxxxdpRR)()|)(期望风险R反映对整个特征空间上所有x的取的取值采取相应的决策值采取相应的决策所带来的平均风险；)(x只是反映了对某一只是反映了对某一x的取值采取决策的取值采取决策所带来的风险。所带来的风险。i如

14、果在采取每一个决策或行动时，都使其条件风险最小，则对所有的x做出决策时，其做出决策时，其期望风险也必然最小。期望风险也必然最小。2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策最小风险贝叶斯决策规则为最小风险贝叶斯决策规则为如果 aiikRR,2,1)|(min)|(xx则 k最小风险贝叶斯决策的实现步骤：最小风险贝叶斯决策的实现步骤：2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策在已知P(j)，p(x|j)，j=1，2，c及给出待识别的x的情况下，根据贝叶斯公式计算出的情况下，根据贝叶斯公式计算出后验概率：后验概率：ciiijjiPpPpP1)()|()()|()

15、|(xxxj=1，2，c2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策利用计算出的后验概率及决策表，按(2-15)计算出采取，i=1，2，a的条件风险R(|x)ii)|(),()|(1xxjjicjiPRi=1，2，a2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策对中得到的a个条件风险值R(|x)，i=1，2，a 进行比较，找出使条件风险最小的决策，即ik即就是最小风险贝叶斯决策。k)|(min)|(,2,1xxicikRR2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策举例举例例2.2假设在某个局部地区细胞识别中正常(1)和异常(2)两类先验概率

16、分别为正常状态：P(1)=0.9；异常状态：P(2)=0.1。现有一待识的细胞，其观察值为x，从类条件概率密度分布曲线上查得p(x|1)=0.2，p(x|2)=0.4。损失函数分别为，。试对该细胞x按最小风险贝叶斯决策进行分类。0116121210222.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策当x1时决策为x1的损失，11当x1时决策为x2的损失，21当x2时决策为x2的损失，22当x2时决策为x1的损失。122.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策举例举例解：已知条件为P(1)=0.9，P(2)=0.1，p(x|1)=0.2，p(x|2)=0.4，c=

17、2，。011612121022根据例2.1的计算结果可知后验概率为P(1|x)=0.818，P(2|x)=0.1822.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策再按下式计算出条件风险092.1)|()|()|(212111xxxPPRjcjj818.0)|()|(1212xxPR由于 818.0)|(092.1)|(21xxRR2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策 x2最小错误率和最小风险贝叶斯决策规则的关系。设损失函数为01损失函数jijiji，10),(i，j=1，2，c 2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策条件风险为)|(1)

18、|()|(),()|(11xxxxicijjjjjicjiPPPRcijjjP1)|(x表示对x采取决策采取决策i的条件错误概率2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策)|(min)|(,2,1xxicikRR的最小风险贝叶斯决策就等价于的最小错误率贝叶斯决策。cijjjcickjjjPP1,11)|(min)|(xx由此可见，最小错误率贝叶斯决策就是在01损失函数条件下的最小风险贝叶斯决策。前者是后者的特例。在0 1损失函数时，使2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策)|()|()|(2121111xxxPPR有大量的方式来表述最小风险决策规则，每种都有

19、自己的优点。用后验概率的形式表述为，如果那么判决为1。2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策两类分类问题的最小风险贝叶斯决策两类分类问题的最小风险贝叶斯决策)|()|()|(2221212xxxPPR)|()()|()(2221211121xxPP 通常，一次错误判决所造成的损失比正确判决要大，且因子21-11和12-22都是正的。实践中，尽管必须通过损失函数的差别对后验概率作调整，但是判决通常是依据最可能的类别状态来决定的。利用贝叶斯公式，也可用先验概率和条件密度来表示后验概率，这种等价规则为：如果那么判决为1。2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策

20、两类分类问题的最小风险贝叶斯决策两类分类问题的最小风险贝叶斯决策)()|()()()|()(222212111121PpPpxx另一种表示方法是，在合理假设2111的条件下，如果下式成立，则判决为1。这种判决规则的形式主要依赖于x的概率密度。2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策两类分类问题的最小风险贝叶斯决策两类分类问题的最小风险贝叶斯决策)()()()()|()|(111212221221PPppxx2.2.2基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策 2.2.3 在限定一类错误率条件下使另一在限定一类错误率条件下使另一类错误率为最小的两类别决策类错误率为最小

21、的两类别决策在两类别决策问题中，有犯两种错误分类的可能性：(1)在采取决策1时其实际自然状态为2；(2)在采取决策2时其实际自然状态为1，这两种错误的概率分别是P(2)P2(e)和P(1)P1(e)。最小错误率贝叶斯决策是使这两种错误率之和P(e)为最小。2.2 2.2.3 在限定一类错误率条件下使另一在限定一类错误率条件下使另一类错误率为最小的两类别决策类错误率为最小的两类别决策由于先验概率P(1)和P(2)对具体问题来说往往是确定的，所以一般称P1(e)，P2(e)为两类错误率。实际中，有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能地小。2.2 2.2.3 在限定一

22、类错误率条件下使另一在限定一类错误率条件下使另一类错误率为最小的两类别决策类错误率为最小的两类别决策例如在癌细胞识别中，把异常误判为正常的损失更为严重，所以常希望这种误判的错误率P2(e)很小，即P2(e)=0，0是一个很小的常数，在这种条件下再要求P1(e)尽可能地小。这样的决策可看成是在P2(e)=0条件下，求P1(e)极小值的条件极值问题。2.2 2.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策可以用求条件极值的拉格朗日(Lagrange)乘子法解决。拉格朗日乘子法是一种在等式约束条件下的优化算法。基本思想是将等

23、式的约束问题转化为无约束问题。拉格朗日乘子法为：2.2 )()(),(xxxgfL=02.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策按Lagrange乘子法建立数学模型为)()(021ePeP2.2 目的是求的极小值已知xxdpeP)|()(112xxdpeP)|()(221 根据类条件概率密度的性质，有xxxxdpdp)|(1)|(11122.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策则2.2 xxxxxxxdppdpdp)|()|()1(

24、)|()|(120021112对x和和求导得 0)|()|(12xxxpp0)|(120 xxdp)|()|(21xxpp02)|(1xxdp2.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策2.2 )|()|(21xxpp02)|(1xxdp满足左式的最佳及满足右式的边界面就能使极小。此时其决策规则可以写为如果，则x)|()|(12xxpp21或如果，则)|()|(21xxpp2x12.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策与最小

25、错误率贝叶斯决策规则对比2.2 这种在限定一类错误率为常数而使另一类错误率最小的决策规则也称Neyman-Pearson决策规则。21)()()|()|(1221PPppxx则x1 2 2.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策2.2 可以看出Neyman-Pearson决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的，所不同的只是最小错误率决策用的阈值是先验概率之比P(2)/P(1)，而Neyman-Pearson决策用的阈值则是Lagrange乘子，类似地，最小风险贝叶斯决策规则可以写成似然比形式：即

26、)()()()()|()|(111212221221PPppxx2.2.3 在限定一类错误率条件下使另一类在限定一类错误率条件下使另一类错误率为最小的两类别决策错误率为最小的两类别决策0022)|()(dllpeP2.2 但在高维时，求解边界面是不容易的，这时可利用似然比密度函数来确定。似然比为l(x)=p(x|1)/p(x|2)，似然比密度函数为p(l|2)，求解)|()|(21xxpp的显式解不容易求出。2.2.4 极小化极大决策极小化极大决策2.2 从最小错误率或最小风险贝叶斯决策中可以看出其决策都是与先验概率P(i)有关的。如果对给定的x，其P(i)不变，按照贝叶斯决策规则，可以使错

27、误率或风险最小。2.2.4 极小化极大决策极小化极大决策2.2 但如果P(i)是可变的，或事先对先验概率毫无所知，若再按某个固定的P(i)条件下的决策规则来进行决策就往往得不到最小错误率或最小风险。极小化极大决策就是在考虑P(i)变化的情况下，如何使最大可能的风险为最小，也就是在最差的条件下争取最好的结果。2.2.4 极小化极大决策极小化极大决策2.2 通常做出错误决策总是比做出正确决策所带来的损失要大，即1121及 2212再假定决策域R1和R2已确定，则风险R可按式得出xxxxdpRR)()|)(2.2.4 极小化极大决策极小化极大决策2.2 则xxxxxxxxxxxxxxxxdpPpPd

28、pPpPdpRdpRdpRR)|()()|()()|()()|()()()|()()|()()|)(22221121221211112121212.2.4 极小化极大决策极小化极大决策2.2 目的是要分析风险R与先验概率P(1)之间的关系。两类情况下P(1)与P(2)应满足下式P(1)+P(2)=1 xxxxdpdp)|(1)|(1112 目的是要分析风险R与先验概率P(1)之间的关系。两类情况下P(1)与P(2)应满足下式2.2.4 极小化极大决策极小化极大决策2.2 一旦R1和R2被确定，风险R就是先验概率P(1)的线性函数，即R=a+b P(1)121)|()()|()()()|()(2

29、221211121221112221222xxxxxxdpdpPdpR2.2.4 极小化极大决策极小化极大决策2.2 其中 1)|()(2221222xxdpa12)|()()|()()(22212111212211xxxxdpdpb=Rmm，极小化极大风险=0，对于极小化极大求解2.2.4 极小化极大决策极小化极大决策2.2 在已知类概率密度函数，损失函数及某个确定的先验概率P(1)时，可以按最小风险贝叶斯决策找出两类的分类决策面，把特征空间分割成两部分R1和R2，使其风险为最小。2.2.4 极小化极大决策极小化极大决策2.2 在(0，1)区间内，对先验概率P(1)取若干个不同的值，分别按最

30、小风险贝叶斯决策确定其相应的决策域，从而计算出其相应的最小风险R，这样就得出最小贝叶斯风险R与先验概率P(1)的关系曲线，如图2.4的曲线部分所示。2.2.4 极小化极大决策极小化极大决策2.2 在(0，1)区间内，*aR)(1*aP对应直线方程：R=a+b P(1)，风险值在(a，a+b)的范围变化，其最大风险为a+b。R*a2.2.4 极小化极大决策极小化极大决策2.2 在(0，1)区间内，那么风险R就为如果在某个P(1)情况下，能找出其决策域使P(1)的系数b=0，即0)|()()|()()(1222212111212211xxxxdpdpadpR1)|()(2221222xx2.2.4

31、极小化极大决策极小化极大决策2.2 在(0，1)区间内，红线表明不管P(1)作什么变化，其风险都不再变化，其最大风险也等于a，这时就使最大风险最小。R*b2.2.4 极小化极大决策极小化极大决策2.2 结论：在作最小风险贝叶斯决策时，若考虑P(1)有可能改变或对先验概率毫无所知的情况，则应选择使最小贝叶斯风险R*为最大值时的P*(1)来设计分类器，即对应于图2.4(b)中的B点，其风险Rb*相对于其他的P(1)为最大，而能保证在不管P(1)如何变化时，使最大风险将为最小，将这样的决策称为极小化极大决策。极小化极大决策。2.2.4 极小化极大决策极小化极大决策2.2 因此，极小化极大决策的任务

32、就是寻找使贝叶斯风险为最大时的决策域R1和R2，它对应于积分方程的解。用极小化极大决策进行分类是偏于保守的分类方法。2.2.5序贯分类方法序贯分类方法 2.2 前面所讲方法中都认为d个特征都同时给出且不考虑获取特征所花的代价。有些实际问题(如医疗诊断)中特征的获取要花一定代价，这样除了错分会造成损失外还应考虑获取特征所花的代价。可能会有这样的情况，获取了k个特征(kgj(x)对一切ji成立，则将x归于i类。2.2 u贝叶斯分类器可以简单自然地表示成这种形式：在最小错误率的情况下，gi(x)可定义为：gi(x)=P(i|x)gi(x)=p(x|i)P(i)gi(x)=lnp(x|i)+lnP(i

33、)2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面多类情况多类情况决策面方程各决策域Ri被决策面所分割，这些决策面是特征空间中的超曲面，相邻的两个决策域在决策面上其判别函数值是相等的，如图2-5所示。如果Ri和Rj是相邻的，则分割它们的决策面方程应满足 gi(x)=gj(x)2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面多类情况多类情况图2.5(a)一维情况决策面为分界点p(x|1)P(1)p(x|2)P(2)p(x|3)P(3)xR1R3R2R3决策边界2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面决策面方程多类情况多类情况2.2.6 分类器、判别

34、函数及判定面分类器、判别函数及判定面决策面方程决策面方程多类情况多类情况图2-6在这个二维的两类问题的分类器中，概率密度为高斯分布，判决边界由两个双曲线构成，因此判决区域R2并非是简单的连通的。椭圆轮廓线标记出1/e乘以概率密度的峰值分类器设计分类器设计分类器可看成是由硬件或软件组成的一个“机器”。它的功能是先计算出c个判别函数gi，再从中选出对应于判别函数为最大值的类作为决策结果，下图用框图形式表示了这种分类器。很多由软件组成的分类器已经模块化。2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面多类情况多类情况2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面分类器设计

35、分类器设计多类情况多类情况分类器的网络结构两类问题两类问题判别函数判别函数在两类情况下。仅定义一个判别函数 g(x)=g1(x)g2(x)并将决策规则表示为如果 g(x)0，则决策1；g(x)0，则决策2。显然，可定义出如下的判别函数：g(x)=P(1|x)P(2|x)g(x)=p(x|1)P(1)p(x|2)P(2)()(ln)|()|(ln)(1221PPppgxxx 2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面决策面方程决策面方程决策面方程 g(x)=0 相应于前面(2)的决策面方程为p(x|1)P(1)p(x|2)P(2)=0 其它可类似得出。2.2.6 分类器

36、、判别函数及判定面分类器、判别函数及判定面两类问题两类问题分类器设计分类器设计两类分类器可看作只是计算判别函数g(x)的一个机器。它根据计算结果的符号将x分类，其结构框图如2.7所示。判别计算阈值单元gx1x2xd+1 11 2决策图 2.7+1-12.2.6 分类器、判别函数及判定面分类器、判别函数及判定面两类问题两类问题例例2.3 对例对例2.1，2.2分别写出其判别分别写出其判别函数和决策面方程。函数和决策面方程。解:对例2.1利用前面式中的(2)g(x)=p(x|1)P(1)p(x|2)P(2)其对应的判别函数为g(x)=0.9p(x|1)0.1p(x|2)决策面方程为g(x)=

37、0即9p(x|1)p(x|2)=0 2.2.6 分类器、判别函数及判定面分类器、判别函数及判定面对例2.2，判别函数可定义为)()|()()|()|()|()|()|()(2212112121212112PxpPxpxPxPxRxRxg故其判别函数为121612而 g(x)=0.9p(x|1)0.6p(x|2)决策面方程为g(x)=0即9p(x|1)6p(x|2)=02.2.6 分类器、判别函数及判定面分类器、判别函数及判定面练习题在两类问题中，遵循贝叶斯规则的条件误差率由式(7)P(error|x)=minP(1|x)，P(2|x)给出，尽管后验概率是连续的，当用式(5)2.2.1基于最

38、小错误率的贝叶斯决策计算总误差时，这种形式的条件误差率实际将导致一个不连续的被积函数。xxxxxdperrorPderrorPerrorP)()|(),()(a)证明对任意密度，可将(7)式替换成P(error|x)=2P(1|x)P(2|x)的积分，且可获得总误差率的上界。(b)证明如果对任给1，使用P(error|x)=P(1|x)P(2|x)，那么将不能保证此积分可以得到一个误差率的下界。2.2.1基于最小错误率的贝叶斯决策解：解：(a)假设没有一般的损失，对于给定的x，P(2|x)P(1|x)，则P(error|x)=P(1|x)，因为P(1|x)1P(2|x)，意味着P(2|x)

39、1/2或2P(2|x)1，2P(2|x)P(1|x)P(1|x)=P(error|x)则对于任意x，遵从积分2.2.1基于最小错误率的贝叶斯决策所以2P(1|x)P(2|x)为P(error|x)提供了上界。xxxxxderrorPdPP)|()|()|(212 解：解：(b)从(a)知P(2|x)1/2，对于2，P(2|x)不大于1/。如4/3、P(1|x)0.4和P(2|x)=0.6。此时P(error|x)P(1|x)0.4。则 P(1|x)P(2|x)4/30.40.6=0.32 P(error|x)故对于所有的P(1|x)值没有提供一个上界。(c)令P(error|x)=P(1|x

40、)，此时对于所有的x，有P(2|x)P(1|x)1，如3，P(2|x)1/3，同(b)中假设P(1|x)0.4和P(2|x)=0.6。此时P(error|x)P(1|x)0.4。则 P(1|x)P(2|x)30.40.6=0.72 P(error|x)所以不能得到一个误差率的下界。2.2.1基于最小错误率的贝叶斯决策假设两个等概率的一维密度具有如下形式：对任给i=1，2及0bi，2.2.1基于最小错误率的贝叶斯决策(a)写出每个密度的解析表达式，即对任意的ai和正的bi，将每一个函数归一化。(b)计算似然比，作为4个变量的函数。(c)绘出在a1=0，b11，a21，b22时的似然比p(x|1

41、)/p(x|2)的曲线图。iibaxiexp/|)|(解解：设给定的概率密度形式是：2.2.1基于最小错误率的贝叶斯决策 (a)为了求k假设概率密度函数是归一化的，并设函数的积分是1。1/)exp(/)exp(iiaiiaiidxbaxdxbaxk 结果为2bik1或k=1/(2bi)。注意归一化与ai无关。iibaxiexp/|)|(解解：因此分布为2.2.1基于最小错误率的贝叶斯决策 (b)似然比可以直接写为(c)对于a1=0，b11，a21，b22时的似然比为22111221exp)|()|(baxbaxbbxpxp1 21 0 20 2)|()|(2/)1(2/)31(2/)1(21x

42、exexexpxpxxxiibaxiiebxp/|21)|(解解：曲线如图所示：2.2.1基于最小错误率的贝叶斯决策 012x0.511.522.533.54p(x|1)p(x|2)考虑0-1损失函数的极小化极大原则，即，11=22=0且12=21=1。(a)证明在这种情况下判决区域将满足2.2.1基于最小错误率的贝叶斯决策 12)|()|(21xxxxdpdp(b)此解是否总是唯一的？如果不是，请构造一个简单的反例。解：使用标准的0-1损失函数11=22=0且12=21=1进行讨论。(a)假设先验概率为P(1)和P(2)=1-P(1)。Bayes风险由教材(12)、(13)式给出2.2.1基

43、于最小错误率的贝叶斯决策 xxxxdpRR)()|)()|(),(),()|(1xxjjicjjiiPER12)|()(1()|()()(21111xxxxdpPdpPPR (12)(13)解：为了获得最小风险的先验概率，对上式求P(1)的微分，并令其为零2.2.1基于最小错误率的贝叶斯决策 0)|(1)|()()(122111xxxxdpdpPRdPd12)|()|(21xxxxdpdp 解：(b)此解并不总是唯一的，给出一个简单的反例(counterexample)。令P(1)=P(2)=0.5且2.2.1基于最小错误率的贝叶斯决策 otherwisexxp 05.05.0 1)|(1therwisexxp 010 1)|(2 容易验证决策域R1=-0.5，0.25和R1=0，0.5满足(a)中的等式，这样解就不是唯一的。

展开阅读全文