1、第五章判别分析第五章判别分析 优选1 判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测数据属于那一类的统计分析方法。优选2 判别准则:判别准则:用于衡量新样品与各已知组别接近程度的思路原则。判别函数:判别函数:基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的描述指标。按照判别准则来分有 距离判别、费希尔判别与贝叶斯判别。优选3距离判别法距离判别法 判别准则:对于任给一次观测值,若它与第 类的重心距离最近,就认为它来自于第 类。ii马氏距离马氏距离)()(),(2YXYXYXd1)()(),(2
2、XXGXd1优选41222222121GdGdGGdGdG,如,如,yyyyyy1、协方差相等 两总体的距离判别两总体的距离判别 先考虑两个总体的情况,设有两个协差阵相同的p维正态总体 和 ,对给定的样本Y Y,判别一个样本Y Y到底是来自哪一个总体,一个最直观的想法是计算Y Y到两个总体的距离。我们用马氏距离来指定判别规则,有:1G2G优选5因此有。)(如,)(如,0021yyyyWGWG)yyy()()(W)()(111pppyayay2121,0GGGGWyyy相反则,则)(如果221其中),()(21paaa211 判别函数:判别函数:优选6 2、当总体的协方差已知,但不相等、当总体的
3、协方差已知,但不相等1222222121GdGdGGdGdG,如,如,yyyyyy)()()()(),(),(111121221222yyyyyyGdGd优选7 3、当总体的协方差未知时,用样本的离差阵代替,步骤如下:(1)分别计算各组的离差矩阵 和 ;(2)计算 (3)计算类的均值 (4)计算 (5)计算 (6)生成判别函数,将检验样本代入,判类。22121nnAA2,2121121,)(211判别函数的系数)(221121)判别函数的常数项(1A2A优选8多总体的距离判别法多总体的距离判别法)(min)(22XdXdiil则lGX 设有 个 元总体 ,分别有均值向量 和协方差阵 ,对任给的
4、 元样品 ,判断它来自哪个总体ikikGG,1mmX计算 到 个总体的马氏距离,比较后,把 判归给距离最小的那个总体,若XkX优选9错判概率错判概率 由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。)(1)(2)(221xxW221其中设两总体 ,分别服从 其线性判别函数为:AGBG不妨设 ,则当 时,21xAGX 优选10)2()2()(2122221222XPXPXP)2(2122XP)2(121优选11 当两总体靠得比较近时,即两总体的均值差异较小时,无论用何种判别方法,判错的概率都比较大,这时的判别分析也是没有意义的,因此只有当两总体的均值有明显差异时,进行
5、判别分析才有意义,为此,要对两总体的均值差异性进行检验.练习:练习:P211:5-1P211:5-1优选12 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。贝叶斯判别法贝叶斯判别法一一 、标准的、标准的Bayes判别判别优选13做好事)坏人/(P18.02.05.09.05.02.05.0做好事)好人/(P82.02.05.09.05.09.05.0)
6、/()()/(/坏人做好事坏人好人做好事好人好人做好事好人PPPPPP)/()()/(/坏人做好事坏人好人做好事好人坏人做好事坏人PPPPPP优选14 一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,贝叶斯(BayesBayes)判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式)()|()()|()|(iiiiiBPBAPBPBAPABP 距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。优选15)()()|(000 xfqxfqxGP
7、jjiii)()()|(000 xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则 判给 ,在正态的假定下,为正态分布的密度函数。0 xlG)(xfi 设有总体 ,具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求 属于某类的概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0 x),2,1(kiGi0 x判别规则优选16),(max)(010 xfqxfqiikill则 判给 。0 xlG)()(21exp)2(1)()(1)(21iiiiixxxf若)()(21exp)2(1)(,)(1)(21iiiiiiixxqxfq
8、则上式两边取对数下面讨论总体服从正态分布的情形)(ln(xfqii|ln212ln21lniiq)()(21)(1)(iiixx优选17问题转化为若 ,则判 。)(max)(1xZxZikillGx当协方差阵相等时 k1即|ln21lniiq)()(21)(1)(iiixx)(xzi去掉与i无关的项,等价的判别函数为:判别函数退化为优选18iiqxzln)()(21(i)1(i)(x)xiqln221)(i)1(i)(x)x令)(i)1(i)(x)(xiiqxFln2)(问题转化为若 ,则判 。)(min)(1xPxPikillGx(i)1)(i1)(ix2ln2)(iiqxP(i)1(i)(
9、i)11(i)1xxxxiqln2令 优选19 xx1)(i(i)1)(i21ln)(iiqm完全成为距离判别法。令)(xmi(i)1(i)21x1(i)有)21(ln2)(xx1(i)(i)1(i)iiqP问题转化为若 ,则判 。)(max)(1xmxmikillGxkqqk11当先验概率相等,即 时优选20二、二、考虑错判损失的考虑错判损失的Bayes判别分析判别分析 设有总体 ,具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 ,。iG)(xfiiGiq),2,1(kiGi)1(1kqqD1,D2,Dk是R(p)的一个分划,判别法则为:关键的问题是寻找D1,D2,Dk分划
10、,这个分划应该使平均错判率最小。iDX ki,3,2,1当样品X落入Di时,判 优选21【定义定义】(平均错判损失)(平均错判损失)jDiijdxxfGDXPijp)()/()/(ji C(j/i)表示相应错判所造成的损失。则平均错判损失为:kiijiijPijCqECM1)/()/(使ECM最小的分划,是Bayes判别分析的解。用 表示将来自总体Gi的样品错判到总体Gj的条件概率。)/(ijp优选22【定理定理】且相应的密度函数为 ,损失为 时,划分的贝叶斯解为kiqi,3,2,1,)(xfi)/(ijCkihhDjkjii,3,2,1,)(min)(|1xxxkiiijfijCqh1)()
11、/()(xx若总体G1,G2,Gk的先验概率为其中优选23 含义是:当抽取了一个未知总体的样品值x,要判别它属于哪个总体,只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定样品属于该总体。kiiijfijCqh1)()/()(xx下面在k=2的情形下,计算作为例子,我们讨论。优选24 12)()2/1()()1/2(),(221121DDdxxfCqdxxfCqDDECMdxxfCqdxxfCqDRD11)()2/1()()1/2(22111)()1/2()1/2(111DdxxfCqCq1)()2/1(22DdxxfCq)1/2(1Cq1)()1/2()()
12、2/1(1122DdxxfCqxfCq优选25 由此可见,被积函数在D1是负数时,可使ECM最小,则有分划0)()1/2()()2/1(|11221xfCqxfCqxD0)()1/2()()2/1(1122xfCqxfCq)2/1()1/2()()(1221CqCqxfxfBayes判别准则为:dxvGxdxvGx)()(21若若)()()(21xfxfxW)1/2()2/1(12CqCqd 令 优选26特别地,若特别地,若kiiijfijCqh1)()/()(xxjijiijC01)/(kjiiijfqh)()(xxkijjiijfqfqh1)()()(xxx越小kijjiijfqfqh1)
13、()()(xxx越大)(xjjfq),(max)(1kiiillfqfqxx则 判给 。与标准Bayes判别等价xlG优选27当错判概率当错判概率广义平方距离法广义平方距离法),()()()(2122igigXdXDiiki,1 其中 定义样品X到总体Gi的广义平方距离为:全相等;若各组的协方差阵,不全相等,若各组的协方差阵iii1 0|,|ln)(SigjijiijC01)/(若先验概率全相等;,若先验概率不全相等,0|,|ln2)(i2qig),1,()()(22kiilXDXDil时当,lGX 判判别准则:判别准则:优选28 练习:设三个总体 的分布分别为 按广义平方距离准则判断样品 应判归哪一类.321,GGG)5.0,2(2N)2,0(2N)1,3(2N5.2x)(取jijiijCqqq,0,1)|(,31321优选29