1、第3节 聚类分析与判别分析 聚类分析和判别分析,是定量化的研究分类问题的统计学方法。这两种方法都是研究事物分类的数学方法,但二者是有区别的。聚类分析,事先并不知道样本有多少类,也不知道每一个样本来自哪一类,而是根据样本的自身属性确定亲疏关系,并按这种亲疏关系程度对样本进行分类。而判别分析,则是在事先已知样本分类的前提下,对给定的新样本进行归类。它是根据已知对象的观测指标和所属类别,判断未知对象所属类别的方法。一、聚类分析距离的计算聚类方法 聚类分析实例 聚类分析是根据样本之间的亲疏关系(相似程度或差异程度)进行分类的,其基本思想是:把相似度高的样本划归为同一类,把差异程度大的样本划分到不同的类
2、。聚类分析的方法有:系统聚类法,K-均值法,图论聚类法,模糊聚类法,等等。本节主要介绍系统聚类法。(一)距离的计算 样本之间的亲疏关系(相似程度或差异程度)是聚类分析的基本依据,而样本之间的亲疏关系常常是以距离衡量的。样本之间的距离越大,其差异性就越大,相似性就越小。因此,常常把距离作为聚类分析的定量化依据。如果把描述第 个分类对象(样本)的n个指标记为 ,则第i和第j个分类对象(样本)之间的距离计算公式如下:绝对值距离 欧氏距离 明科夫斯基距离),2,1,(1mjixxdnijkikij(4.3.1)),2,1,()(12mjixxdnkjkikij(4.3.2)),2,1,(11mjixx
3、dpnkpjkikij(4.3.3)),2,1(mkkTknkkkxxxX),(21 切比雪夫距离。当明科夫斯基距 时,有 马氏距离在(4.3.5)式中,为数据矩阵的协方差阵。),2,1,(maxmjixxdjkikkij(4.3.4)p)()(1jiTjiijXXXXd(4.3.5)马氏距离是由印度统计学家马哈拉诺比斯(Mahalanobis P.C.)提出的一种协方差距离。其最大优点,是尺度无关的(scale-invariant),不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的两点之间的马氏距离相同。缺点是夸大了变化微小
4、的变量的作用。在用距离判别法进行判别分析时,常常选用马氏距离。选择不同的距离,进行聚类分析,结果可能会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。在地理分类和分区研究中,每一个聚类对象(样本)常常由多个要素(指标)描述。不同要素(指标)的数据,往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此在进行在进行聚类分析之前,往往要对数据进行标准化处聚类分析之前,往往要对数据进行标准化处理。理。(二)聚类方法 直接聚类法最短距离聚类法最远距离聚类法计算类之间距离的统一公式直接聚类法直接聚类法 是根据距离矩阵的结构一次
5、并类得到结果,是一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。n最短距离聚类法 是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把G
6、i和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(,minqpkdddqkpkrk(4.3.6)minijpqddn最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是),(,maxqpkdddqkpkrk(4.3.7)n计算类之间距离的统一公式计算类之间距离的统一公式 最短距离和最远距离可以用一个公式表示 用图4.3.1表示二者关系:|22222qkpkqkqpkpkrddddd(4.3.8)图4.3.1 两种不同的空间距离 当、三个参数取不同的值时,就形成了不同的聚类方法(表4
7、.3.1),在表4.3.1中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。表4.3.1 8种系统聚类方法的距离参数值(下页)系统聚类其他方法的公式系统聚类其他方法的公式|222222kqkppqkqqkppkrdddddd(4.3.9)方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法 00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定qppnnnqpqnnn2)(qpqpnnnnqppnnnqpqnnnr
8、kpknnnnrkqknnnnrpnn)1(rqnn)1(rkknnn可变法 1 0各种D扩张2)1(2)1((三)聚类分析实例 表2.4.2给出了某农业生态经济系统各个区域单元的有关数据,下面运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:(1)用标准差标准化方法,对9项指标的原始数据进行处理;(2)采用欧氏距离测度21个区域单元之间的距离;(3)选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。表2.4.2 某农业生态经济系统各区域单元的有关数据 图4.3.2 某农业生态经济系统区域单元的系统聚类(组平均法)谱系图 从聚
9、类分析谱系图(图4.3.2)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,21个区域单元被依次聚类。当距离为0时,每个样本为单独的一类;当距离为5,则21个区域单元被聚为16类;当距离为10,则21个区域单元被聚为9类;当距离为15,则21个区域单元被聚为5类;当距离为20,则21个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。二、判别分析两组距离判别多个总体的距离判别法判别分析实例 判别分析,是一种在已知对象分类的情况下,确定新的样本属于哪一类的统计分析方法。判别分析处理问题时,通常要给出用来衡量新样本与各已知组别的接近程度的
10、指标,即判别函数判别函数,同时也指定一种判别准则判别准则,借以判定新样本的归属。判别准则,是用于衡量新样本与各已知组别接近程度的准则。判别准则,可以是统计性的(决定新样本所属类别时,需要进行显著性检验),也可以是确定性的(决定新样本归属时,只考虑判别函数值的大小)。判别函数,是基于一定的判别准则计算出的用于衡量新样本与各已知组别接近程度的函数式或指标。距离判别法,又称为最邻近方法(Nearest Neighbor Method),其基本思想是:首先根据已知分类的数据,分别计算各类的中心,即各组(类)的均值,并将其作为该类的中心坐标;然后根据新样本离开每类中心的距离远近做出判断:若它与那一类的中
11、心的距离最近,就认为它来自该类。按照判别组数划分,有两组判别分析和多组判别分析的区别。(一)两组距离判别(一)两组距离判别n基本原理:设有两组总体 ,相应抽出样本个数为 ,每个样本观测p个指标得观测数据如下:总体 的样本数据:,该总体的样本指标平均值为:BAGG 和21,nnnnn)(21AG)()()()(112111AxAxAxAXp)()()()(222212AxAxAxAXp)()()()(111121AxAxAxAXpnnnn TpAAxAxAxX,21)(总体 的样本数据:,该总体的样本指标平均值为:判别分析的任务是判别分析的任务是:对于一个新样本 ,实测指标数值为 =,要求判断
12、属于哪一类?BG)()()()(112111BxBxBxBXp)()()()(222212BxBxBxBXp)()()()(222221BxBxBxBXpnnnn TpBBxBxBxX,21)(XXTpxxx),(21Xn步骤 首先计算样本 与 、两类的距离,分别记为 、,然后按照距离最近准则判别归类,即:新样本距离那一类最近就判归为那一类;如果该新样本距两类的距离相同,则暂不归类。即:如果 ,则 ;如果 =,则 待判。XAGBGAGXD,BGXD,AGXD,AGXD,AGXD,BGXD,BGXD,BGXD,AGX BGX X 距离 的种类(定义)很多,在实际问题分析中,可以根据不同情况区别选
13、用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离马氏距离。马氏距离公式为:(4.3.10)(4.3.11)在(4.3.10)和(4.3.11)式中,、分别是 、的均值和协方差阵。D AATAAXXSXXGXd12,BBTBBXXSXXGXd12,AX BXASBSAGBG这时的判别准则分两种情况给出:(1)当 =时:=令 ,同时记:则 ASBSSABGXdGXd,22 AATABBTBXXSXXXXSXX11 BATBAXXSXXX1212 BAXXX21 XW2),(),(22ABGXdGXd B
14、ATXXSXXXW1 所以,判别准则写成:,如果 ,如果 ,待判,如果 。该规则取决于 的值,因此 被称为判别函数。AGX BGX 0XW 0XW 0XWX XW XW记:,则判别函数 ,也可以写成:(4.3.12)上式所表示的判别函数为线性判别函数。上述判别准则是合理的,但是有时也会出现错判。当两个总体靠的比较近时,即两个总体的均值差异较小,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此,只有当两个总体的均值有显著差异时,进行只有当两个总体的均值有显著差异时,进行判别分析才有意义判别分析才有意义。BAXXS1 XW TXXXW (2 2)当 时:按照距离最近准则,
15、类似地有:如果 ,则 ;如果 =,则 待判。判别函数为:(4.3.13)显然,(4.3.13)式所示的判别函数 是 的二次函数。ASBSAGXD,BGXD,AGX BGX XAGXD,BGXD,AGXD,BGXD,)(XWBGXd,2AGXd,2 BBTBXXSXX1 AATAXXSXX1)(XWX (3)两组判别分析的检验 如前所述,只有当两个总体的均值有显著差异时,判别分析才有意义;如果两个总体的均值向量在统计上差异不显著,则判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:(4.3.14)1,2122122121pnnpFTp
16、nnpnnF式中:给定检验水平,查 分布表使 ,可得出 ,再由样本值计算 ,若 ,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。)()()()(2212112121212BXAXnnnnSBXAXnnnnnnTTBASSSF FFFFFF(二)(二)多个总体的多个总体的距离距离判别判别法法 类似两个总体的讨论推广到多个总体。设有 个总体 ,相应抽出样本个数为 (),每个样本的 个观测指标数据为:总体 的样本数据为:,,该总体的样本指标平均值为:kkGG,1knn,1nnnk1p1G)1()1()1()1(112111pxxxX)1()1()1(
17、)1(222212pxxxX)1()1()1()(111121pnnnnxxxAX TpxxxX1,1,121)1(总体 的样本数据为:,,该总体的样本指标平均值为:)()()()(112111kxkxkxkXpkG)()()()(222212kxkxkxkXp)()()()(21kxkxkxkXpnnnnkkkk TpkkxkxkxX,21)(将 的协方差阵分别记为 ,那么,对于一个新样本 ,其实测指标数值为 =,它与第 类(组)之间的马氏距离为:(4.3.15)kGG,1kSS,1XTpxxx),(21 iiTiiXXSXXGXd12,ki2,1Xi(1)当 时,判别函数为:相应的判别准则
18、为:,当 时,对于一切 待判,若有一个SSSk1),(),(2122ijijGXdGXdXWjijiXXSXXX212kji2,1,iGX 0XWijij 0XWij(4.3.16)(2)当 不相等时,此时判别函数为:(4.3.17)相应的判别标准为:,当 时,对于一切 待判,若有一个kSS,1 iiTijjTjijXXSXXXXSXXXW11iGX 0XWijij 0XWij(三)判别分析实例(三)判别分析实例 表4.3.3(见下页)给出了三种区域经济发展类型(已知类型)和待判别的区域样本数据。其中,“发达”类型(I)包含10个样本区域,“较发达”类型(II)包含9个样本区域,“欠发达”类型
19、(III)包含9个样本区域。待判别的区域样本有5个,即A,B,C,D,E,F,G。下面运用距离判别法,判别这5个区域样本的归属。区域类型样本区域 城镇人口比/%人均农业产值/元/人人均工业产值/元/人人均货运量/吨/人人均财政收入/元/人人均储蓄额/元/人职工人均工资/元/人发达(I)10.601 474.8616 001.0436.452 232.8721 447.0314 053.8020.581 649.2924 880.5228.911 239.4112 417.3811 122.6730.741 575.6541 526.3633.883 288.7319 778.2416 641.
20、2740.531 840.5824 324.0920.831 236.0410 569.5011 930.9550.362 296.4619 480.2318.97729.8012 054.1612 187.2860.492 584.4944 585.8119.923 246.4416 344.9214 009.8970.622 336.8434 084.8734.822 571.5329 783.6716 670.8380.792 500.31169 948.2335.6615 418.5179 431.7920 713.7690.252 652.6919 730.0719.13931.86
21、9 744.1513 258.79100.273 690.9211 241.6612.33801.758 626.249 780.24较发达(II)10.631 913.248 605.6822.76838.7813 317.488 510.9720.412 681.038 631.4913.79516.616 949.568 617.8230.462 873.354 515.348.11519.316 957.277 576.5440.412 665.3911 272.5021.12826.167 400.919 082.9050.341 100.868 592.7011.00629.318
22、 345.268 231.1460.591 636.4410 140.6220.86816.887 765.548 812.1070.311 968.115 319.049.82555.675 942.368 581.0880.321 462.415 847.483.53543.383 774.707 818.4390.401 622.565 435.837.52395.376 224.567 724.79区域类型样本区域 城镇人口比/%人均农业产值/元/人人均工业产值/元/人人均货运量/吨/人人均财政收入/元/人人均储蓄额/元/人职工人均工资/元/人欠发达(III)10.412 520.33
23、4 021.7311.52523.667 664.048 245.9320.341 928.725 873.3819.56559.207 453.159 035.0730.461 126.166 992.0212.89615.585 560.657 591.9140.391 675.907 616.8325.441 107.378 719.879 559.8850.54902.1310 225.9616.51589.529 185.198 368.3760.52491.595 310.2710.97366.816 383.368 057.7470.571 799.156 932.5412.51
24、783.798 535.367 530.4080.82494.0411 623.7256.891 603.7614 884.909 365.3390.211 356.872 794.468.18292.582 958.977 181.89待判别C0.66787.009 128.2739.66677.7713 147.177 377.59D0.441 758.323 929.4112.62509.116 721.477 345.93E0.493 447.1015 452.4735.191 300.5913 857.8010 259.39F0.373 388.9416 347.8324.24936
25、.657 081.459 290.03G0.84824.1113 193.4743.322 117.9529 915.4110 422.83 首先计算协方差矩阵,再计算马氏距离,得到的结果如表4.3.4所示。表4.3.4 待判别样本与已知总体之间的马氏距离 区域类型IIIIII待判别区域C6.85832.5837.986D6.91010.6532.171E9.9246.5578.601F7.1726.12217.698G6.17320.46339.222 由于三个区域类型的协方差阵SI、SII、SIII不等,故按照判别函数(4.3.17)式所对应的判别准则,根据表4.3.4进行判别,结果如下:C和G归为第I类,即:属于发达区域;E和F归为第II类,即:属于较发达区域;D归为第III类,即:属于欠发区域。