1、第四节 聚类分析聚类要素的数据处理距离的计算直接聚类法 最短距离聚类法 最远距离聚类法系统聚类法计算类之间距离的统一公式系统聚类分析实例 1一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。 在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。 2要 素聚 类 对 象 假设有m 个聚类的对象,每一个聚类对象都有个要素构成。它们所对应的要素数据可用3.4.1给出。 mi
2、21mnmjmminijiinjnjxxxxxxxxxxxxxxxx,2121222221111211njxxxx,21表表3.4.1 3.4.1 聚类对象与要素数据聚类对象与要素数据 3在聚类分析中,常用的聚类要素的数据处理方法有如下几种: 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足), 2 , 1;, 2 , 1(1njmixxxmiijijij(3.4.1) miijnjx1), 2 , 1(14 标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有),2, 1;,2, 1
3、(njmisxxxjjijij(3.4.2) 1)(101121mijijjmiijjxxmsxmx5 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 极差的标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 ), 2 , 1;, 2 , 1(maxnjmixxxijiijij(3.4.3) ), 2 , 1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij(3.4.4)6例题例题: :表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。
4、表表3.4.2 3.4.2 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 区代号人均耕地X1(hm2/人)劳均耕地X2(hm2/个)水田比重X3(%)复种指数x4(%)粮食亩产x5(kg/ hm2)人均粮食x6(kg/人)稻谷占粮食比重x7(% )G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812
5、249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.177表表3.4.3 极差标准化处理后的数据极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380
6、.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.008二、距离的计算 常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离 ), 2 , 1, (1mjixxdnijkikij(3.4.5) ), 2 , 1, ()(12mjixxdnkjkikij(3.4.6) ), 2 , 1, (11mjixxdpnkpjk
7、ikij(3.4.7) 9 切比雪夫距离。当明科夫斯基距 时,有 据表3.4.3中的数据,用公式(3.4.5)式计算可 得九个农业区之间的绝对值距离矩阵如下: ), 2 , 1,(maxmjixxdjkikkij(3.4.8) 040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052.
8、 10)(99ijdD(3.4.9) p10 三、直接聚类法 原理:原理:先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 11例:例:根据距离矩阵式(3.4.9),用直接聚类法对某地区的九个农业区进行聚类分析,步骤如下: 在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一
9、类,划去第9行和第9列; 在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列; 12 在第二步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列; 在第三步之后余下的元素中,除对角线元素以外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;13 在第四步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区
10、已归并为一类; 在第五步之后余下的元素中,除对角线元素以外,d65= d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类; 14 在第六步之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类; 在第七步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9、区均归并为一类; 根据上述步骤,可以作出聚类过程的谱系图(图3.4.
11、1)。15图图3.4.1 3.4.1 直接聚类谱系图直接聚类谱系图 16四、最短距离聚类法 n原理:最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵; 再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(,minqpkdddqkpkrk(3.3.10) minijpqdd17例题:例题: 以下根据式(3.3.9)中的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析。18
12、在99阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为即G10=G4,G9。按照公式(3.3.10)式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得: d1,10=mind14,d19= min2.19,2.62=2.19d2,10=mind24,d29= min1.47,1.66=1.47d3,10=mind34,d39= min1.23,1.20=1.2019d5,10=mind54,d59= min4.77,4.84=4.77d6,10=mind64,d69= min2.99,3.06=2.99d7,10=mind74,d79
13、= min4.06,3.32=3.32d8,10=mind84,d89= min1.29,1.40=1.29 这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵: 20029.132.399.277.420.147.119.2003.596.314.524.288.032.1007.183.093.253.579.5078.186.146.472.4064.302.686.5070.210.3052.10108765321108765321GGGGGGGGGGGGGGGG21 在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5
14、与G7归并为一类,记为G11,即G11=G5,G7。 按照公式(3.3.10)式计分别算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵: 22 在第二步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.3.10)式分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵: 032.303.507.193.253.579.5029.199.220.147.119.2096.324.288.032.1086.146.472.4070.210
15、.3052.10111086321111086321GGGGGGGGGGGGGG23 在第三步中所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。再按照公式(3.3.10)式计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵: 003. 529. 196. 324. 232. 1032. 307. 193. 279. 5099. 220. 119. 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG242022-5-2
16、325 在第四步中所得的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵: 096. 399. 286. 172. 4029. 124. 232. 1020. 119. 2010. 301312103113121031GGGGGGGGGG26 在第五步所得到的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G
17、8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵: 086. 129. 119. 2096. 372. 4032. 1014131211413121GGGGGGGG27 在第六步所得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的22阶距离矩阵: 086. 132. 1072. 401513115131GGGGGG28 将G13
18、与G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图(如图3.4.2所示)。 086. 1016131613GGGG29图图3.4.2 3.4.2 最短距离聚类谱系图最短距离聚类谱系图30五、最远距离聚类法 n最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。n最远距离聚类法的计算公式是:),(,maxqpkdddqkpkrk(3.3.11) 31n例子:例子: 对于前面的例子,最远距离聚类法的聚类过程如下: 在99阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10=G
19、4,G9。按照公式(3.3.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵:32040. 106. 406. 384. 423. 166. 162. 2003. 596. 314. 524. 288. 032. 1007. 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10108765321108765321GGGGGGGGGGGGGGGG33 在第一步所得到的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一
20、类,记为G11,即G11=G5,G7。按照公式(3.3.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下: 084. 414. 578. 164. 302. 686. 5040. 106. 323. 166. 162. 2096. 324. 288. 032. 1086. 146. 472. 4070. 210. 3052. 10111086321111086321GGGGGGGGGGGGGG34 在第二步中所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公
21、式(3.3.11)式分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下: 002. 666. 146. 470. 252. 1084. 478. 164. 386. 5006. 323. 162. 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG35 在第三步中所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式(3.3.11)式计算G1,G6,G11,G12与G13之间的距离,得到一个新的55阶
22、距离矩阵如下: 070. 284. 406. 310. 3002. 646. 452. 1078. 186. 5072. 401312106113121061GGGGGGGGGG36 在第四步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。再按照公式(3.3.11)式分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下: 010.320.672.4084.406.3078.1014131161413116GGGGGGGG37 在第五步所得的44阶距离矩阵中,非对角
23、线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式(3.3.11)式分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵如下:002.684.4010.30151413151413GGGGGG38 在第六步中所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式(3.3.11)式计算G15与G16之间的距离,可得一个新的22阶距离矩阵如下:002. 601
24、6151615GGGG39 将G15与G16归并为一类。此时,各个分类对象均已归并为一类。 综合上述聚类过程,可以作出最远距离聚类谱系图(如图3.4.3所示)。 图图3.4.3 最远距离聚类谱系图最远距离聚类谱系图G1G2G8G3G4G9G5G7G640六、计算类之间距离的统一公式n最短距离和最远距离:可以用一个公式表示 用下图表示二者关系:|22222qkpkqkqpkpkrddddd(3.3.12) 最短距离最远距离图图3.4.4 两种不同的空间距离两种不同的空间距离a1a2Ab1b2B41当、三个参数取不同的值时,就形成了不同的聚类方法(见表3.3.4),在表3.3.4中,np是p类中单
25、元的个数,nq是q类中单元的个数,nr=np+nq;一般取负值。 系统聚类其他方法的公式 :|222222kqkppqkqqkppkrdddddd(3.3.13) 42方法名称参 数D矩阵要求空间性质apaq 最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/400欧氏距离保持重心法0欧氏距离保持组平均法 00各种D保持距离平方和法0欧氏距离压缩可变数平均法10各种D不定qppnnnqpqnnn2)(qpqpnnnnqppnnnqpqnnnrkpknnnnrkqknnnnrpnn)1 (rqnn)1 (rkknnn可变法 1 0各种D扩张2)
26、1(2)1(八八种种系系统统聚聚类类方方法法的的距距离离参参数数值值 表表3.4.43.4.443七、实例分析 表3.4.5给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:用标准差标准化方法,对9项指标的原始数据进行处理;采用欧氏距离测度21个区域单元之间的距离;选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。44样本序号x1:人口密度(人/km2)x 2:人均耕地面积(ha)x 3:森林覆盖率(%)x 4:农民人均纯收入(元/人)x 5:人均粮食产量(kg/人)x
27、6:经济作物占农作物播面比例()x 7:耕地占土地面积比率()x 8:果园与林地面积之比()x 9:灌溉田占耕地面积之比()1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011752.35452.2632.31414.4641.45527.0663100.6951.06765.6011181.54270.1218.2660.1627.47412.4894143.7391.33633.2051436.12354.2617.48611.8051.89217.5345131.4121.62316.6071
28、405.09586.5940.68314.4010.30322.932668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120
29、.85850.302103.52217.0919.7934.8810.0016.165表表3.4.5 3.4.5 某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据 451251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4
30、251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.5050.66163.3041246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021313.11236.
31、2926.7247.1620.09210.07846图图3.4.5 3.4.5 某农业生态经济系统区域单元的系统聚某农业生态经济系统区域单元的系统聚类(组平均法)谱系图类(组平均法)谱系图 47 从聚类分析谱系图(图3.4.5)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大到时,21个区域单元被依次聚类。n当距离为0时,每个样本为单独的一类;n当距离为5,则21个区域单元被聚为16类;n当距离为10,则21个区域单元被聚为9类;n当距离为15,则21个区域单元被聚为5类;n当距离为20,则21个区域单元被聚为3类;n最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。482022-5-2349