1、51 判别分析的概念 52 距离判别法 53 费歇尔判别法54 贝叶斯判别法55 逐步判别法 56 实例分析 判别分析51 判别分析的概念判别分析的概念 在生产、科研和日常生活中,我们经常需要根据观测到的数据资料,对所研究的对象进行判别分类,即是根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样品归属于哪一类。例如某医院有部分患有肺炎、肝炎、冠心病、高血压、糖尿病等病人的资料,记录了每个患者若干症状的指标数据,现在想利用现有的这些资料数据找出一种方法,使对于一个新的病人,当测得这些症状指标数据时,能够判断其患有哪一种疾病。在经济学中,根据人均国民收入、人均工农业总产值
2、、人均消费水平等多项指标来判断一个国家所处的经济发展阶段。在气象预报中,根据已有的气象资料(气温、气压、湿度等)来判断明天、后天是阴天还是晴天,是有雨还是无雨。在地质学中根据以往对矿物勘探资料(矿石的化学和物理性质和所含化学成分)的分析,判断某一矿石把他应归于哪一类矿石。总之,在实际问题中需要判别的问题几乎无处不在。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一
3、个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分析与聚类分析往往要结合起来使用。用数学的语言来说,判别问题可以表述为:对于n个样品,每个样品有p个指标,已知每个样品属于某一k类别(总体)G1,G2,Gk,对于每类别其分布函数分别为f1(y),f2(y),fk(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。研究判别分析的方法很多,根据不同的研究对象,判别分析方法有不同的分类:1)按判别的组数来分,
4、有两组判别分析和多组判别分析2)按区分不同总体所用的数学模型来分,有线性判别分析和非线性判别分析3)按判别对所处理的变量方法不同有逐步判别分析、序贯判别分析。4)按判别准则来分,有马氏距离最小准则、费歇尔判别准则、贝叶斯判别准则、最小平方准则、最大似然准则等。k第二节 距离判别法 距离判别法就是根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类(或总体)的分布,并无特别的要求。),(),(,),(),(,),(),(),(),(,),212122112121212121GXDGXDGXDGXDG
5、XGXDGXDGXGXDGXDGGXXxxxXpnnGGp当待判当当,归类,则可以写成:,按距离最近原则判别和总体的距离,分别记为、到首先计算应判归那一类?问(指标值为今取任一个样品,实测个指标。个样品,每个样品观测从第二个总体中抽取个样品,村第一个总体中抽取、设有两个总体1、两个总体的距离判别法2、多个总体的距离判别法x1x2 xp 均值)1(1X)1(2X)1(1nX)1(11x)1(12x)1(1px)1(21x)1(11nx)1(22x)1(2px)1(21nx)1(1pnx)1(1x)1(2x)1(pxx1x2 xp 均值)2(1X)2(2X)2(2nX)2(11x)2(12x)2(
6、1px)2(21x)2(12nx)2(22x)2(2px)2(22nx)2(2pnx)2(1x)2(2x)2(px总体 的观测数据 21GG、)(21)()(,(,()(,(,(12,1 )(),(),(),(),(),()2()1()2()1(11222122221)(1)(22121212121)2()1()2()2(2)1()1(1其中:)的差有)与考察时)当(下两种情况:这时判别准则可分为以()(利用马氏距离即是的均值向量与协方差。、分别为、,、设分析。用马氏距离做上述判别在多元统计分析中经常别归类。的大小,按最近准则判,然后比较的均值向量。、分别为,(如果采用欧氏距离,则)()()(
7、)()()()(XGXDGXDXWGXDGXDiXXGXDGGGXDGXDGGXXXXXXGXDXXXXGXDiiii称为判别系数。为线性判别函数。称的线性函数。,是显然,)(则已知时,令、当即当待判即当即当,则判别准则可以写成:)()(aXWxxxXWxaaxaaXXWaaaaGXDGXDXWGXDGXDXWGXGXDGXDXWGXppppp)()()()()()(),()(),(),(,0)(,),(),(,0)(,),(),(,0)(2122111212)1(12)1(22122212222121)()()()(21,)()(211,121,)2()1(1)2()1(1)()()()(2
8、1212121211)2()2(221)1()1(11i)()(2)(12)1(21XXXXXWXXXXXXXSGGssnnGGXXnXXniGXXXiintiitiitiniiniiinii线性判别函数为:其中:的无偏估计量。协差阵、是总体的无偏估计量。,期望、是总体。,的样本,来自设来估计。未知时,可以通过样本、即当的,值和协差阵一般是未知在实际应用中,总体均)(。时,时,当。或的符号取决于,这时不妨设,判别函数和分布分别为时,若两个正态总体的当我们注意到:2121212212221,)(),(1)2()(),(),(1GXXGXXXXXWXXWNNp 我们看到用距离判别所得到的准则是比较
9、合理的。但从下图又可以看出,用这个方法也会错判。如X来自G1,但却落入D2,被判为属于G2,错判的概率为图中阴影的面积,记为P(2/1),类似有P(1/2),显然12)(1)2/1()1/2(221 PP才有意义。性差异时,作判别分析两个总体的均值有显著,因此只有当判别分析是没有意义的的概率都很大,这时作错判,则无论用何种办法,即当两总体靠的很近时()21时)当()()(211的二次函数。作为判别函数,它是仍然用当待判当当,类,类似的也有:按距离最近原则判别归XXXXXGXDGXDXWGXDGXDGXDGXDGXGXDGXDGX)()()()()()(),(),()(),(),(,),(),(
10、,),(),()1(1)1()1()2(1)2()2(122221212211例5.1 某地区经勘探证明,A盆地是一个钾盐矿区,B盆地是一个钠盐矿区(不含钾),其它盆地是否含钾盐有待作出判断。今从A和B两盆地各抽取5个盐泉样品;从其它盆地抽取8个盐泉样品,化验其4个指标,具体数据见表5.3,试对其它盆地抽取的8个待判盐泉样品进行判别是否为含钾性矿泉。)(1X)(2X)(3X)(4X盐泉类别序号X1X2X3X4类别号含钾盐泉(A盆地)113.852.797.8049.60A222.314.6712.3147.80A328.824.6316.1862.15A415.293.547.5043.20A
11、528.794.9016.1258.10A含钠盐泉(B盆地)62.181.061.2220.60B73.850.804.0647.10B811.400.103.502.10B93.662.402.1415.10B1012.100.015.681.80B待判盐泉18.853.385.1726.10228.602.401.20127.00320.706.707.6030.2047.902.404.3033.2053.193.201.439.90612.405.104.4324.60716.803.402.3131.30815.002.705.0264.00解:把A盆地和B盆地可作两个不同的总体,并
12、假设两个总体协方差阵相等。两类总体中各有5个样品,另有8个待判样品。首先进行假设检验。检验假设H0:521 nn21由第3章假设检验可知,F统计量为,其中:)1,()2(1)2(2122121pnnpFTpnnpnnF)()()2(12YXnSYXmnmnmnTT利用SPSS软件进行计算。由样本值得F统计量为14.4644,对于给定的显著水平=0.01,查表得临界值 =11.4,由于 ,则拒绝H0,这说明A盆地和B盆地的盐泉特征有显著性的差异,因此进行判别分析是有意义的。下面进行判别分析。计算A盆地和B盆地的盐泉特征的均值为 =(21.812,4.106,11.982,52.17)T =(6.
13、638,0.874,3.32,17.34)T;两组间平方距离(即马氏距离)为37.029得线性判别函数 对已知类别的样品进行回判,回判结果见表5.4)5,4(01.0FFF 12)(21()()()2()1(XXXaXXaXWTT43217255.05893.81918.37430.40846.37xxxx样品序号W(X)原类号回判组别16.499332AA212.58205AA320.50165AA413.65669AA518.79822AA6-18.8952BB7-16.9721BB8-11.2342BB9-19.491BB10-27.1437BB表5.4 已知类别的样品回判结果回判结果给
14、出对来自于A盆地和B盆地的10个样品都判对了。样品序号W(X)判别类别1-9.7919B2188.0569A339.11198A4-4.80197B5-16.8409B617.80348A756.31679A845.99197A下面对8个待判样品进行判别分类,分类结果见下表 待判样品判别分类结果 即第2、3、6、7、8五个盐泉为含钾盐泉,其余三个为不含钾盐泉,即含钠盐泉。应判归那一类?问(品,实测指标值为个指标。今取任一个样,每个样品观测(个样品从每个总体中抽取,、个总体设有XxxxXpkinGGGkpik,),),2,1,21212、多个总体的距离判别法x1x2 xp 均值)1(1X)1(2
15、X)1(1nX)1(11x)1(12x)1(1px)1(21x)1(11nx)1(22x)1(2px)1(21nx)1(1pnx)1(1x)1(2x)1(pxx1x2 xp 均值)(1kX)(2kX)(knkX)(11kx)(12kx)(1kpx)(21kx)(1knkx)(22kx)(2kpx)(2knkx)(kpnkx)(1kx)(2kx)(kpxG1总体Gk总体)(max)(,2,1,)(2/,2,1),(2 2 )()(,(),()1()()(1)()()(1)()()(1)()()(1)(1)(1)(1)(1)(22k21)()1(iikiiiiiiiiiiiiiiiiiiiikCX
16、IXWGXkiCXIXWCIkiCXIXXXXXXXGXDGXDGGGX,如果判别规则:别函数为:取它的线性函数作为判,其中:),总体的距离,分别记为、到首先计算时当kntiitiitiknjiijiiiniiiknnnnXXXXSsssknkiXXnkiGXXXiii211)()()()(211)()()(i)()(2)(1)(2)1(,)()(1,21 1,21,其中:,。,的样本,来自设。与代替的估计量来未知时,可以通过样本、当)()()(,21 11;1,21,(min,(,2,1);()(,()2(1)()()()()(1)()()(i)()(2)(1)(2)1(2)1(212)(1
17、)(2)()1(iiintiitiitiiiinjiijiiiniiiikkikiiiiiiikXXXXSkisnXXnkiGXXXGXDGXDGXkiXXGXDX其中:,。,的样本,来自设。与通过样本来估计均未知时,可以、与、当),如果此时判别规则为:)到各总体的距离为计算不相等时、当)()()()()()(第三节第三节 费歇尔判别法费歇尔判别法 1、费歇尔判别原理、费歇尔判别原理 费歇尔(Fisher)判别方法是(1936)历史上最早提出的判别方法之一,也叫线性判别法。它的基本思想是通过将多维数据投影到某一方向上,使得投影后类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行
18、分类判别。而衡量类与类之间是否分开的方法是借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。费歇尔判别方法就是将各组样本均值投影到某条直线上,得到各组样本均值在该直线的投影坐标,投影坐标值距离越远越容易判断待判样本属于哪个组。因此,费歇尔判别方法就是要找一个由p个变量组成的线性函数,使得各类内点的函数值尽可能接近,而不同类间的函数值尽可能的远离。图5.2表示的是2维空间中的点投影到某个一维空间,即一条直线上,然后再对其进行判别,投影到不同的直线上,判别效果一般是不同的。投影坐标值距离越远越容易判断待判样本属于哪个组。ab图5.2 坐标投影 2、费歇尔判别方法判别方法 设有k个总体G1
19、,G2,Gk,每个总体中含有ni个样品,每个样品观测p个指标,假定所建立的判别函数为.其中 c表示p维空间的一个方向,如果按这个方向做一条直线,表示向量x在这条直线上投影坐标xcxcxcxcxyTpp2211)(TpTpTxxxxcccc),(),(21,21xcT 将属于不同总体的样品观测值代入判别函数式,则得:)()(22)(11)(jippjijijixcxcxcy 每个总体投影后的数据均为一元数据,对这k组数据进行一元方差分析,其组间平方和为其中:和 分别为总体Gi的样本均值和总样本均值,并记AcccxxxxncxcxcxcxcnATkiTiiiTkiTTiTTiTi1)()(1)()
20、(0)()()(ixx kinjijixnx11)(1A为组间离差阵:kiTiiixxxxnA1)()()(合并的组内平方和为EcccxxxxcxcxcETkinjTiijiijTkinjiTijTii11)()()()(112)()(0)()(其中合并的组内离差阵为kinjTiijiijixxxxE11)()()()()(因此,若k个总体的均值有显著性差异,则比值 EccAccTT应充分大。mlpcmlxcxympkmAEAccAcEEcAcEccEcEccAcEccAccEccEcEccAcAccEccEcEccEccAccmiillllTllmTTTTTTTTTT,2,1 ,.,2,1
21、,)(),1min(,0 ,022022)(2)(21)()()(21122能力的指标给出一个用以衡量判别对于每个判别函数必须对应的特征向量。为特征根个判别函数:于是可以构造其中非零特征根个数为特征根必为正根,记为是非负定的,所以非零因为对应的特征向量。矩阵的广义特征根及其、恰好是及说明ijkjimimiimiilmmGxyxyyxyammmpspyyym则判若)不加权法(用的方法时,此时有两种可供选)当(下列方法进行分类。在实际工作中通常选用类呢?何对待判的样品进行分有了判别函数之后,如个判别函数就够了。则认为),达到所要求的值(如个判别函数的判别能力如果的判别能力定义为:个判别函数)(1)
22、(00011100210)(min)(1185 ,00.,)(1,2,1 ,)(1,11,)()1()()1(1,)()2()1(1)1()()()2()1(iiiiikjiiiijjiiiiiiiikGxdxydxGGdkiyydyyyyyyb则判使得如果之间的分界点。与可以做为则令记按大小次序排列,将加权法.,min)()(,),(,2,1;,2,1 ,)1221221)(2210)()()(00)(GxDDyxyDxcxyxxxxkimlxcyamikimlillilTpiTlilTl则判若计算对待判样品记不加权法(时,也有两种方法。)当(判别能力不同,记考虑到每个判别函数的加权法)(b
23、012)(2)(mllilliyxyD求出的特征根。是由其中EcAcl.,min212GxDDiki则判若 三、判别的步骤 1、由各组样本资料,计算各组样本均值 2、计算离差矩阵A 3、计算各组样本离差平方和E 4、计算矩阵E-1 A的前m个特征向量 5、构造判别函数Yl(x)。6、判断)(kx)()()(xkxxkxnAk)()()()(kXkXkXkXE 值得注意的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大
24、一些。例例5.2 费歇尔于1936年发表的鸢尾花数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚鸢尾花(第三组)各抽取50个样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据从略。解:由于 150,50321321nnnnnnn计算)46.2,62.14,28.34,06.50(1x)26.13,60.42,70.27,36.59(2x)26.20,52.55,74.29,88.65(3x)99.11,58.37,57.30,43.58(4x333.8041400.18677267.2293933
25、.7127400.18677280.43710960.5723840.16524267.2293960.5723493.1134267.1995933.7127840.16524267.1995213.6321)(31iiiixxxxnA66.61518.62784.48050.56418.62726.272208.81246.246284.48008.81220.169600.136350.56446.246200.136362.3895)(311injiijiijixxxxE846.11549.27420.3497.10142.9512.21943.2077.8308.6965.14178
26、.2562.5459.3112.8081.1058.31AE的正特征根个数 AE12)4,2min(),1min(pkm可求得两个正特征根 285.0,192.3221285.0,192.3221相应的标准化特征向量)281.0,220.0,153.0,083.0(1c)284.0,093.0,216.0,002.0(2c则判别式为:)993.11(281.0)580.37(220.0)573.30(153.0)433.58(083.0)(432111xxxxxxcy)993.11(284.0)580.37(093.0)573.30(216.0)433.58(002.0)(432122xxxx
27、xxcy判别式的组均值为608.711y825.121y783.531y215.012y215.012y728.022y513.032y判别结果如表5.9所示 判别为真实组IIIIIII5000II0482III0149由表5.9可知,判别效果还是可以的。从距离判别法来看,它存在以下不足:(1)判别方法与总体各自出现的概率的大小无关;(2)判别方法与错判之后所造成的损失无关。从费歇尔判别法来看,它随着总体个数的增加,建立的判别函数式个数也增加,因而计算起来比较麻烦。如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率P(l/x),比较这k个概率的大小,然后将样品判归为
28、来自概率最大的总体,这种判别方法称为贝叶斯判别方法贝叶斯判别方法。第四节 贝叶斯判别分析1、基本思想 Bayes判别法的基本思想是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识;然后抽取一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布。各种统计推断都是通过后验概率分布来进行。个总体的后验概率。来自第可以用贝叶斯公式计算的情况下,在观测到一个样品散情况下是概率分布在离为各总体的密度函数分别也可以估计出)。它们可以由经营给出,它们的先验概率分别为个总体设有gxxfxfxfqqqGGGkkkk),)(,),(),(,212121平均损失。加权平均或称为错判的是对损失函
29、数依概率总体的损失。显然上式错判为第总体的样品来自第称为损失函数。它表示其中:总体的平均损失定义为错判归第这时把函数。失最小的概念来作判决有时还可以使用错判损总体。来自第则判时并且当hgxhLxhLxfqxfqxhEhxhXxgPxhPkgxfqxfqxgPhgkiiiggkgkiiigg)/()/()()()/()/(max)/(,2,1 ,)()()/(111min)/(max)/(,1 0)/()/()/(min)/(0)/(0)/(1hhkgxhExhphghghxhLxhLhxxgExhExhLghxhLgh等价的,即判的平均损失最小是使后验概率最大和使错这样,寻找,皆相等,即错判的
30、损失数学模型中就假设各种容易确定,因此常常在不中数更合理,但是在实际原则上说,考虑损失函总体。来自第则判定建立判别准则如下:。时,;当时,当2、多元正态总体的、多元正态总体的Bayes判别法判别法 在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别法。(1)判别函数的导出)判别函数的导出 由前面的叙述可知,使用Bayes判别法作判别分析,首先要知道待判总体的先验概率先验概率和密度函数和密度函数。对于先验概率,一般用样品的频率 来代替。或者令先验概率相等,这时可以认为先验概率不起作用。nnqggmax)/(2121ln21ln)()(21ln21ln)/(max)(
31、)/()/()()()(21exp)2()()(1)()(1)()(1)()()(1)()()()()()(1)()(2/1)(2/ggggggggggggggggggggggggpgxgZxxxqxxqxgZgxfqggxgpxgpxfgxxxfp则问题转化为:无关的项,记为:取对数并去掉与改令为何值都是常数,故可,而分式中的分母不论的最大只关心寻找使的表达式中,因为我们代入阵。把总体的均值向量和协差分别是第和式中:元正态分布密度函数为(2)假设协差阵相等)假设协差阵相等max21ln)/(ln21)/()/()(1)()(1)(1)()()()2()1()(ggggggggkgxqxgyg
32、xxxgZkxkxgZ判别函数与判别准则,最终得到如下形式的关,求最大时可以去掉无两项与和中的,这时即个总体的协差阵相同,很大。如果假定函数,实际计算工作量二次且对的行列式及逆矩阵,而个总体的协差阵中含有在实际中,若 与 均未知时,可以用估计量样本均值向量 和合并后的样本协方差阵来替代 。合并后的样本协方差阵为)()(k,2)1()(ix与)(i)(121kEEEknS(3)计算后验概率)计算后验概率kikikikiiiggggggkixiyxgyxxiyxxgyxxiyxxgyxfqxfqxgPgxfqxxxfqxgyxiyxgyxgPxgPxgyxgPxgy11111)/(exp)/(ex
33、p)(exp)/(exp)(exp)/(exp )()/(exp)()/(exp)()()/()(ln()()()(ln()/()/(exp)/(exp)/()/()/()/()/(所以无关的部分。中与是其中因为:算出之后,就可以根据下式,但是有了率的大小,而不是后验概要根据判别式在进行分类计算时,主总体。归入第则把样品若。,算代入判别式中:分别计因此我们只须把样品必为最大,其为最大的由上式知,使hxxgyxhykgxgyxxgPhykg)/(max)/(,2,1)/()/(1例例5.3(胃癌的鉴别)(胃癌的鉴别)为了判别病人是胃癌、还是萎缩性胃炎。现对患有胃癌、萎缩性胃炎和非胃炎患者中个随机
34、抽取5个病人,每人化验4项生化指标:血清铜蛋白(X1)、蓝色反映(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),具体数据见表5.10。试用贝叶斯判别分析,对这15个样品进行判别归类。类别序号血清铜蛋白蓝色反应 尿吲哚乙酸中性硫化物 胃癌患者胃癌患者12281342011224513410403200167122741701507851001672014非胃癌患者萎缩性胃炎患者622512571471301006128150117769120133102610160100510非胃炎患者1118511551912170125641316514253141351082121510011772)8
35、,5,4.121,151();6.13,7,115,157();0.20,8.13,40.150,60.188()3()2()1(XXX解 933.95833.67333.144833.6034.2022.14867.4472.14367.220933.158333.144867.44933.1581.20340986.131lnlnlnln321qqq由于 三组判别函数分别为:432134321243211059.0100.0637.0130.0598.490986.1012.0317.0595.0130.0721.460986.1073.0778.0753.0164.0212.790986
36、.1xxxxfxxxxfxxxxf判别原则:样品属于判别函数值最大的一组。回判结果如表5.11所示:类别序号原分类Actual回判组别后验概率 胃癌患者胃癌患者1110.9982110.9773110.9994130.5785110.999非胃癌患者萎缩性胃炎患者6220.4577220.7008230.5189220.66210220.616非胃炎患者11320.61612330.68113330.83914330.58715330.583 误判的样本是4、8、11,回判后分别属于3、3、2组,即非胃炎患者、非胃炎患者、萎缩性胃炎患者。第五节 逐步判别分析前面讨论的判别方法都是用已给的全部变
37、量 来建立判别函数,但这些变量在判别式中所起的作用一般来说是不同的,也就是说各变量在判别式中的判别能力是不同的,有的可能起的作用大一些,有些可能作用很小,将起作用很小的变量保留在判别式中,不仅会增加计算量,有时还会干扰影响判别效果;如果将起重要作用的变量忽略了,这时作出的判别效果也一定不好。因此就存在一个变量选择的问题,即从p个变量中挑选出对区分k个总体有显著性判别能力的变量,来建立判别函数,对k个总体进行判别归类。判别分析的变量选择方法很多,我们这里仅介绍逐步判别法。pxxx,21 1、逐步判别原理 逐步判别分析与逐步回归法的基本思想类似,都是逐个引入变量,每次把一个判别能力最强的变量引入判
38、别式,每引入一个新变量,对判别式的老变量逐个进行检验,如果其判别能力因新变量的引入而变得不显著了(例如其作用被后引入的某一个变量的组合所代替),应及时把它从判别式中剔除,直到判别式中没有不重要的变量需要剔除,而判别式以外的变量也没有重要的变量需要引入判别式时逐步筛选结束。这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著性变量。这种通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量的方法,就是逐步判别法。一个变量能否进入模型主要取决于协方差分析的F检验的显著性水平。2、逐步判别法的检验统计量逐步判别法的检验统计量设有k个p维正态总体分别为 ,它们有相同的协方差阵。如果
39、他们有差别也只能表现在均值向量 上。今从k个正态总体中分别取 个独立样本如下:第1个总体:第2个总体:第k个总体:),(),(),(2211kkpppNNN,iin1)1()1(2)1(1)1(,2,1 ),(niXXXXipiii2)2()2(2)2(1)2(,2,1 ),(niXXXXipiiikkipkikikiniXXXX,2,1 ),()()(2)(1)(今作条件假设:如果接受了H0这个假设,说明这k个总体的统计差异不显著,在此基础上建立的判别函数效果肯定不好,除非增加新变量。如果拒绝了这个假设H0,说明这个总体可以区分,建立的判别函数有意义,设每个 ,且未知.k210:H0iplT
40、EEAEL,.,2,1根据第3章的检验的似然比统计量为 个总体样本间的差异。反映了的差异;反映了同一总体样本间,由定义知,是总离差矩阵。组内离差矩阵;kTEtttttttttEAXXXXTwwwwwwwwwElppppppkrniTririppppppr10)(21222211121111)()(212222111211krTrrrXXXXnA1)()()(其中:是组间离差阵;因此 值越小,表明相同总体间的差异越小,因此对于给定的显著水平,应由 分布确定临界值 ,当 时,拒绝H0,否则接受H0。这里 中的下标是强调含有l个变量。由于Wilks分布的数值表一般书上没有,常常用下面的近似公式。Ba
41、rtlett近似公式:统计量在H0成立的条件下。Rao近似公式:统计量在H0成立的条件下llll)1(ln2/)(12kpkpn)1(,1()1(1)1(1kpnkFkkpnll 下面根据Rao近似公式给出引入变量与剔除变量的检验统计量(1)引入变量的检验统计量的构造 假定计算l步,并且变量 已选入(L不一定等于l),今考察第L+1步添加一个变量 的判别能力,此时将变量分为两组,一组为已选的前l个变量,另一组仅有一个变量 ,此时l+1个变量的组内离差阵和总离差阵仍分别记为lxxx,21lxxx,21rxrxrrrlrrlrllllrlrleeeeeeeeeeeeeeeeEEEElE212122
42、2221111211222112111rrrlrrlrllllrlrlttttttttttttttttTTTTlT2121222221111211222112111由于)(11LrreEE rrrrLrrEEEeEEEEEEEEe11111121112122121112122)(同理)(11LrrtTT rrrrLrrTTTtTTTTTTTTt11111121112122121112122)(于是有)(11)(11lrrlrrtTeETE)()(1lrrlrrllte即 rrlrrlrrlrrllAAeet11)()()(1)()(lrrlrrrteA 其中:将上式代入Rao近似公式中得到引入
43、变量的检验统计量:),1(11klnkFkklnAAFrr引若 ,则变量 的判别能力显著,我们将判别能力显著的变量中作用最大的变量(即使 为最小的变量)作为入选变量;否则不能把该变量作为引入变量。),1(klnkFF引rxrA 需要说明的是,不管引入变量还是剔除变量,都需要对相应的矩阵E和T作一次消去变换,比如说,不妨设第一个引入变量是x1,这时就要对E和T同时进行消去第一列的变换得到E(1)和T(1),接着考虑第二个变量,经过检验认为显著的变量,不妨设为x2,这时就要对E(1)和T(1)同时进行消去第二列的变换得到E(2)和T(2),对剔除变量也是如此。(2)剔除变量的检验统计量的构造 考察
44、对已入选变量xr的判别能力,可以设想已计算了L步,并引入了包括变量xr在内的l个变量(L不一定等于l)。今考察拟在第L+1步剔除变量xr的判别能力,为了方便起见,可以假设xr是第L步引入的,也即L-1步引入了不包括xr在内的l-1个变量。因此问题转化为考查引入变量xr(其中l-1个变量已给定时)的判别能力,此时有)1()1(lrrlrrrteA 对相应地E(l)和T(l),再作一次消去变换有:rjrieerjrierjrieeeerjrieeelrrlirlrrlrrlrjlirlijlrrlijlij,/,/1,/,/)()()()()()()()()()1(rjrittrjritrjrit
45、tttrjritttlrrlirlrrlrrlrjlirlijlrrlijlij,/,/1,/,/)()()()()()()()()()1()()()()(/1/1lrrlrrlrrlrrretteA于是 从而得到剔除变量的检验统计量:)1(,1(1)1(1klnkFkklnAAFrr 剔在已入选的所有变量中,找出具有最大Ar的(即使 最小)的一个变量进行检验。若 ,则认为xr的判别能力不显著,可以把它从判别式中剔除,否则保留变量xr。剔F)1(,1(klnkFF剔2、逐步判别法的基本步骤逐步判别法的基本步骤(1)准备工作1)计算各总体(类)的样本均值 和总体均值 。2)计算样本的合并组内离差
46、阵E和总离差阵T。3)规定显著性水平。),2,1(,)(ktXtX(2)逐步筛选变量假设已计算了L步,在判别式中选入了l个变量,不妨设 已选入,则第L+1步计算内容如下:1)计算全部变量的判别能力 对未入选变量xi计算对已入选变量xj计算,lxxx,21)()(liiliiiteA pli,1)()(ljjljjjetA lj,2,12)在已入选变量中考虑剔除可能存在的最不显著变量,取最大的Aj(即最小的 )。假设 。作F检验:剔F jjrAAmax)1(,1(1)1(1klnkFkklnAAFrr 剔若 ,则认为xr的判别能力不显著,可以把它从判别式中剔除,然后对E(l),T(l),作消去变
47、换;若 ,则从未入选变量中选出最显著变量,即要找出最小的Ai(即最大的 ),假设 。作F检验:)1(,1(klnkFF剔)1(,1(klnkFF剔引F iirAAmin),1(11klnkFkklnAAFrr引 若 ,则变量xr的判别能力显著,我们将判别能力显著的变量中作用最大的变量(即使Ar为最小的变量)作为入选变量,然后对E(l),T(l),作消去变换。在第L+1步计算结束后,再重复上面的1)、2)直至不能剔除又不能引入新变量时,逐步计算结束。),1(klnkFF引(3)建立判别式,对样品判别分类 经过第2步选出重要变量后,可用各种方法建立判别函数和判别准则。这里使用Bayes判别法建立判
48、别式,假设共计算L+1步,最综选出l个变量,设判别式为 将每个样品 分别代入k个判别式,若 ,则判x属于第h总体。)(1)()(1)(21ln)/(gggggxqxgykg,2,1kg,2,1Tpxxxx),(21)/(max)/(1xgyxhykg 需要指出的是:在逐步计算中,每步都是先考虑剔除,然后考虑引入,但开始几步一般是先考虑引入,而后才开始有剔除,在实际问题中,引入后又剔除的情况不多,而剔除后再引入的情况更少见。另一方面由于算法中用逐步判别选出的l个变量,一般不是所有l个变量组合中的最优组合(因为每次引入都是在保留已引入变量基础上引入新变量)。但在l不大时,往往是最优组合。56 实例
49、分析实例分析 实例5.1 为研究某地区人口死亡状况,已按某种方法将15个已知样本单位分为3组,选择判别变量为6个:X1:0岁组死亡率,X2:1岁组死亡率,X3:10岁组死亡率,X4:55岁组死亡率,X5:80岁组死亡率,X6:平均预期寿命,原始数据如表5.12所示。建立判别函数,判定另外4个地区属于何组。试用试用Fisher判别分析法和判别分析法和Bayes判别分析判别分析法分别计算。法分别计算。x1x2x3x4x5类别134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.9797.368.81440.1
50、713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.021.0815.15103.1264.831454.