1、第三章第三章 判别分析与聚类分析判别分析与聚类分析 在多元统计分析中,广泛使用一种统计应在多元统计分析中,广泛使用一种统计应用方法,即根据表征某一事物或现象类型的用方法,即根据表征某一事物或现象类型的随机变量的取值样本分布,将事物或现象划随机变量的取值样本分布,将事物或现象划分为若干类型。例如,在气候分析中,需将分为若干类型。例如,在气候分析中,需将气候划分成若干类型,干旱气候,湿润气候,气候划分成若干类型,干旱气候,湿润气候,半干旱气候等,究竟划分几类?选择湿度、半干旱气候等,究竟划分几类?选择湿度、相对湿度、降水量、蒸发量等气候要素为指相对湿度、降水量、蒸发量等气候要素为指标,根据样品的相
2、近程度,划分为若干种类标,根据样品的相近程度,划分为若干种类型,这称为型,这称为聚类分析;聚类分析;数量统计上,数量统计上,即分析即分析众多的样本众多的样本 划分确认来自几个不同的总体划分确认来自几个不同的总体。另外,气候分析中,类型分类已知,介另外,气候分析中,类型分类已知,介于两者之间的某站,则需根据两种类型(总于两者之间的某站,则需根据两种类型(总体)的特征和该站要素(样本)来判断该站体)的特征和该站要素(样本)来判断该站的属类;在天气预报中,有时需要根据前期的属类;在天气预报中,有时需要根据前期的样本观测值来判断哪种现象(晴,阴,雨)的样本观测值来判断哪种现象(晴,阴,雨)或现象等级(
3、火险等级或现象等级(火险等级1、2.5)将出现,则)将出现,则称为称为判别分析判别分析,也称为,也称为统计分辨法统计分辨法。判别分析与聚类分析均属数字分类。判别分析与聚类分析均属数字分类。3.1 费歇(费歇(Fisher)判别准则)判别准则与分析与分析一、一、Fisher判别准则判别准则 判别分析是已知有两个或更多的总体(类判别分析是已知有两个或更多的总体(类型),并且获得每个总体中的若干样本,根据型),并且获得每个总体中的若干样本,根据这些总体中的样本特征去建立一种判别规则,这些总体中的样本特征去建立一种判别规则,使我们能将某个使我们能将某个新的个体新的个体归属正确的归属正确的总体总体,而,
4、而事先并不知道该个体来自哪个总体。事先并不知道该个体来自哪个总体。若需要判别的对象有两种可能的结局,若需要判别的对象有两种可能的结局,则称为则称为二级判别二级判别;有两种以上可能结局,则;有两种以上可能结局,则称为多级判别。二级判别又称称为多级判别。二级判别又称简单判别简单判别。设设x x为与天气状况有关的变量,而天气状况为与天气状况有关的变量,而天气状况分为分为A A与与B B两种状况(晴,阴雨)两种状况(晴,阴雨),x,x的样本空间的样本空间由有利由有利A A的样本集合与有利的样本集合与有利B B的样本集合组成。的样本集合组成。SBRARmm)()()/()/(xBPxAP 越大时,判别效
5、果越好,错判率越低。越大时,判别效果越好,错判率越低。作为判别指标,作为判别指标,)()()/()/()/()/()()()()()/()/()()()/()/()()/()()/(xfAPBxfAxfxBPxAPBPAPBPxfBxfxBPAPxfAxfxAPAdxPAxfdxxfxAP ,有有当当同同理理根根据据概概率率乘乘法法定定理理有有)/()/(BxfAxf 而而取决于下列因素取决于下列因素BAmm )/()/(BxfAxf 1 1、指标、指标x x在两总体的期望值差异在两总体的期望值差异 越大,则越大,则越大,判别时,错判概率越小越大,判别时,错判概率越小2、x的离散程度越小,的离
6、散程度越小,x来自两不同总体的概率差来自两不同总体的概率差 越大。越大。)/()/(BxfAxf 综上所述,综上所述,离散程度小,期望值差异大,离散程度小,期望值差异大,表明两总体样本重叠部分少,表明两总体样本重叠部分少,x出现时事件出现时事件(类型)的出现概率差就大,以指标判别类(类型)的出现概率差就大,以指标判别类型时,错判率自然小,即两总体最大分离的型时,错判率自然小,即两总体最大分离的原则,这就是费歇判别准则原则,这就是费歇判别准则:希望用一个综合指标希望用一个综合指标y,它在两总体中方差它在两总体中方差最小,而条件期望值差异最大最小,而条件期望值差异最大。max)(minmax,)(
7、)()()(BxAxBABxAxBASSxxSSxx2 影响因子是复杂的,单个气象要素指标效果不佳影响因子是复杂的,单个气象要素指标效果不佳,可采用多个,可采用多个的要素线性组合成一个综合指标:的要素线性组合成一个综合指标:ppxcxcxcy 2211称为称为Fisher判别函数判别函数,iC称为判别系数。称为判别系数。利用历史资料,根据利用历史资料,根据Fisher准则,推断判别系准则,推断判别系数。数。以以2211xcxcy 为例,说明其几何意义为例,说明其几何意义212112211xcccyxxcxcycc/1、2两总体均存在较大重叠部分,若将样本两总体均存在较大重叠部分,若将样本投影到
8、直线投影到直线l上,则两总体重叠部分显著减少,上,则两总体重叠部分显著减少,能相对最大分离。能相对最大分离。在两总体的样本空间寻找一个最在两总体的样本空间寻找一个最佳投影方向,将样本在该方向投影佳投影方向,将样本在该方向投影后,两总体能够最大分离。后,两总体能够最大分离。二、线性二、线性Fisher判别方程的建立判别方程的建立设有设有A出现条件下,出现条件下,X1xm的的N1次观测值,次观测值,B出现条件下,出现条件下,X1xm的的N2次观测值次观测值构造判别方程构造判别方程按照按照Fisher准则,应有:准则,应有:mmxcxcy 11maxmax)()()(FEyyyyyyNiBBiNiA
9、AiBA2121122 kkkkkkcFcEFcFEcEFcmkc 10102,将BmmBBBmimBiBiAmmAAAmimAiAixcxcyxcxcyxcxcyxcxcy 11111111,代入代入mkddcdccExxddcdcxxcxxcyyEkmmkBkAkkmmBmAmmBABA121121121112 ,)()(,)()()()()()()()()()()()(kmmkBkBkiBmBmimBBiAkAkiAmAmimAAikBmBmimBNiBiNiAmAmimAAiwcwcxxxxcxxcxxxxcxxccFxxcxxcxxcxxcF111111112121112111222
10、 kkmmkmmkkkBkBkilBliAkAkiAlAliklBdddcdcwcwccFcExxxxxxxxw )()()(11111由由其其中中 B与标号与标号k无关,在方程组中是一个常数比例因子,仅无关,在方程组中是一个常数比例因子,仅起到使方程组同倍比放大或缩小的作用,不影响起到使方程组同倍比放大或缩小的作用,不影响Ck之间的之间的相对比例,因而不影响判别效果,故可令相对比例,因而不影响判别效果,故可令B=1。此时方程。此时方程组为:组为:mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw 22112222212111212111 求解方程组,解得判别系数,即可得求解方程组
11、,解得判别系数,即可得FIsher判别函数:判别函数:mmxcxcy 11DCW 建立判别函数后,可分别计算建立判别函数后,可分别计算A A、B B出现时,判别函出现时,判别函数数的平均值:的平均值:BjjBAjjAxcyxcy以它们的加权平均值以它们的加权平均值2121NNyNyNyBAc 作为判别事件作为判别事件A A或或B B 出现的临界值;出现的临界值;出出现现的的判判断断作作出出时时则则当当若若A,cBAyyyy 反之亦然。反之亦然。三、判别临界值的确定三、判别临界值的确定3.1)()(BAwww111111 klw)()(BAwww121212 )()(BAwww131313 )(
12、)(BAwww222222 )()(BAwww232323 )()(BAwww333333 100343395528631026001550028686859713960163125971333065321321321.ccccccccc解得解得078100498053320321.ccc四、判别效果的显著性检验四、判别效果的显著性检验 在多因子判别中,要选择若干分辨能力强在多因子判别中,要选择若干分辨能力强的变量组成判别函数,判别分析的基础是假的变量组成判别函数,判别分析的基础是假设两组样品取自不同的总体,如果两组多元设两组样品取自不同的总体,如果两组多元变量在统计上差异不显著,判别就没有价
13、值,变量在统计上差异不显著,判别就没有价值,因此因此判别效果显著性检验就是检验判别因子判别效果显著性检验就是检验判别因子在各两总体的差异是否显著在各两总体的差异是否显著。22212121212121222102112kBkABkAkkBkABkAkkBkAsnsnxxnnnnnnnnnnsnsnxxtxxH )()()()(:则则 )(221 nn1.1.对于判别方程中的单个因子对于判别方程中的单个因子x xk k的显著性的显著性,可用可用t t检验的检验的方法检验它在两个总体中的平均值是否显著。方法检验它在两个总体中的平均值是否显著。遵从自由度为遵从自由度为的的t t分布。分布。2.对于对于
14、m 个因子的共同的分辨效果,则采用马哈拉诺个因子的共同的分辨效果,则采用马哈拉诺比斯距离作为两总体差异的指标。比斯距离作为两总体差异的指标。马氏距离马氏距离 BmBBAmAABABAmxxXxxXDSDXXSXXD11112)()(WnnSwnnxxxxxxxxnnsSklBlniBliBkBkiAlniAliAkAkikl)()()()()(2121212121211121 计计:协协方方差差矩矩阵阵的的无无偏偏估估mmmmmmmmmmdcwcwcwdcwcwcwdcwcwcw 22112222212111212111 BmAmBAmxxxxddD111由由 mccC1DSCnnDCSnnS
15、nnWDCW1211-21212S22 )(,)()(同同乘乘代代入入将将CnnDDSDDm)(22112 代入代入 mkkkmmcdnnccddnnCDnn121112121222)()()(mkkkmcdnnD12122)(221212121021101DmkkBkAkkDmnnmnnnnnnFmkDdEHmk )()(:则则设设 分分布布),(121 mnnmF遵从遵从例例 由表所列资料,根据由表所列资料,根据Fisher准则建立判别函数并准则建立判别函数并检验效果。检验效果。解:解:121237254432D3744X2532XBA,,122021 nn,5683693691218W2
16、12121210183000430018300043012568369123691218xxycccccc.,.解解出出显显著著拒拒绝绝原原假假设设,判判别别效效果果,.),(.)(.)(.FFFDmnnmnnnnnnFcdnnDmkkkm 33329252921136827120302050221212121212120210 )()(:dEdEH3.2 Bayes判别准则与分析判别准则与分析mxx 1 )(mxxX1由由m m个变量个变量组成组成m维空间,用维空间,用表示,表示,X kkGGGG 211GX即即,来自来自K K个总体个总体已知每个总体发生的先验概率(气候概率)分别为已知每个
17、总体发生的先验概率(气候概率)分别为,kPP 1各总体的概率密度分别为各总体的概率密度分别为)(),(XfXfk1设有设有K个不同的事件,有个不同的事件,有m个变量与事件发生有关。个变量与事件发生有关。Bayes判别的几何意义是在判别的几何意义是在m维空间中对应各总体寻找一个划分:维空间中对应各总体寻找一个划分:),(,mkjikRDDDDDDD 2110tXititiGXDXD 则则判判定定即即中中,,若样本若样本落在落在BayesBayes判别准则,即在选择划分判别准则,即在选择划分kDD 1时,应使发生时,应使发生错判的概率为最小错判的概率为最小。错判率与什么有关错判率与什么有关?下图简
18、单地以下图简单地以2维空间的两个总体为例维空间的两个总体为例x1ABx2DADBAO设设A、B两总体,有一个划分两总体,有一个划分DA、DB,对任意样本,对任意样本1)1)来自来自A A而错判为而错判为B B的条件概率的条件概率 BDAdxxfABP)()/(2 2)来自)来自B B而错判为而错判为A A的条件概率的条件概率 ADBdxxfBAP)()/(总的错判率总的错判率 ABDBDABAdxxfBPdxxfAPBAPBPABPAPDDg)()()()()/()()/()(),(KijDiKiiKKijDiiDiKjiKjjjdxxfPDDgdxxfGdxxfDDijPGGD)()()(:
19、,)();/(:)111121D总总的的误误判判率率率率而而误误判判为为其其他他总总体体的的概概来来自自的的概概率率而而误误判判为为样样本本来来自自对对应应划划分分,对对个个总总体体,iP )(xfiKDD 1定理:当先验概率定理:当先验概率给定后,给定后,为:为:,总体分布,总体分布Bayes判别的解判别的解 KjiiiiKliijiiljllxfPhxfPhKjljxhxhxD111)()(,)()(:其其中中:KjiiiijxfPh1)(jKjlhh 1minlGx 即对任一即对任一X X,分别计算,分别计算,找出最小值,找出最小值,并作出判断,并作出判断 。max)(min)()()(
20、xfPhxfPxfPxfPhjjjKjiiKijjiiiij11)(xfPjj jjKjlfPx 1max)(BayesBayes判别方法,即对一给定样本判别方法,即对一给定样本X X,分别计算,分别计算 ,将使将使的的l l作为作为X X的划归类属。的划归类属。Bayes判别对多组判别具有较高分辨率,但条件是要已判别对多组判别具有较高分辨率,但条件是要已知知P和和fi(x),而多维而多维f(x)不易获得。不易获得。二、正态假设下的二、正态假设下的Bayes判别函数判别函数BayesBayes判别函数判别函数KkfPkkk1 设有设有K个总体,遵从正态分布,且具有相同的协方差个总体,遵从正态分
21、布,且具有相同的协方差)()(exp)(),(/kkmkkkXXfKkNG 122112121 mmmmmmmmmkkkmxxX 11111111111,为计算方便,令:为计算方便,令:kkkkmkkkkXXXXpKkfP 111122112121212121 /)(lnlnlnkkXX 11 由协方差矩阵及逆矩阵的对称性,可知由协方差矩阵及逆矩阵的对称性,可知略去与略去与K无关的项,合并同类项无关的项,合并同类项XPkkkkk1121 ln mkmkmkmkmjjmkjjjkjmmmmmkmkkxcxcxxccxxxxX 111111111111111 其中:其中:kijkikjjijkmj
22、mkjjkjkjmkkjjmkjjjkjkkc01111111111121212121 .)()(kjkjtKknktkikitijijxxxxKns 111 如如其中参数由样本估计,其中参数由样本估计,mkmkkkkxcxccPy .ln110判别函数判别函数Kk.1 三、利用马氏距离作多级判别三、利用马氏距离作多级判别设设m m维变量的维变量的k k个总体遵从正态分布个总体遵从正态分布),(kkkNG BayesBayes判别函数判别函数)()()(lnlnln/kkkmkkkkXXpfP 12211212若认为若认为K个总体的先验概率均等,个总体的先验概率均等,Pk=1/K,略去,略去2
23、11/ln k的差别,要使判别函数达最大,必然要马氏距离最小的差别,要使判别函数达最大,必然要马氏距离最小即如果即如果)()()(kkkmXXkD 12达到极小,即样本距离达到极小,即样本距离G GK K总体的均值中心的马氏距离最短,总体的均值中心的马氏距离最短,根据根据BayesBayes准则,将该样本划入该总体。准则,将该样本划入该总体。由样本估计参数由样本估计参数)()()(kkkmXXSXXkD 12若若)(min)(kDhDmKkm212 则将样本划归第则将样本划归第h组(类)组(类)例,设有三组两因子数据,样本数分别为例,设有三组两因子数据,样本数分别为24、31、20,参数估计值
24、分别为:参数估计值分别为:9310042004200431841211.,.SX 2650165016505031649322.,.SX 0501707070709740112233.,.SX现有新样本现有新样本 12X,试判别它应归入哪一组。,试判别它应归入哪一组。解:先求出解:先求出321SSS,的逆矩阵:的逆矩阵:863135213521008205044450445071400761043004309610131211.SSS 102063918310841122321.,.XXXXXX样本向量与均值向量的矢量差:样本向量与均值向量的矢量差:51415831007610430043096108310111112.)()()(XXSXXDm马氏距离:马氏距离:min.)(.)(0449010208631352135210082102039848639105044450445071406391222mmDD将样本将样本)(12X归入第三组归入第三组
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。