1、第七章 系统聚类分析第七章 系统聚类分析模型第一节 聚类要素的数据处理第二节 距离的计算第三节 直接聚类法 第四节 最短距离聚类法 第五节 最远距离聚类法l什么是聚类分析?l聚类分析(Cluster Analysis)是研究“物以类聚”的一种方法,国内有人称它为群分析、点群分析、簇群分析等,是研究分类问题的一种多元统计方法。l聚类分析是根据变量(或样品或指标) 的属性或特征的相似性或亲疏程度,用数学方法把他们逐步地分型划类, 最后得到一个能反映样品之间或指标之间亲疏关系的客观的分类系统,样品或指标逐步归并最后可形成分类系统图, 即系统聚类图。l 聚类分析的作用?l近十年来,聚类分析发展很快,在
2、地质勘探、天气预报、生物分类、考古学、医学、心理学以及制定国家标准等许多方面都取得了许多很有成效的应用。l在地理学研究方面,聚类分析是定量研究地理事物分类问题和地理分区问题的重要方法之一。l聚类分析有哪些方法?l聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类法和模糊聚类法等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。l本章重点讨论系统聚类分析方法及其在地理学中的应用问题。 第一节 聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。 在地理分类和分区研究
3、中,聚类对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此,在进行聚类分析之前,首先要对聚类要素进行数据处理。 要 素聚 类 对 象 假设有m 个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用下表给出。 mi21mnmjmminijiinjnjxxxxxxxxxxxxxxxx2121222221111211njxxxx21聚类对象与要素数据 例如 9个农业区的7项经济指标原始数据 区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1 )水田比重X3/%复种指数x4/%粮食单产x5/(kgh
4、m -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6
5、665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17聚类对象聚类要素要素数据 在聚类分析中,常用的聚类要素的数据处理方法有如下几种: 总和标准化。 标准差标准化。 极大值标准化。 极差标准化。 总和标准化。总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足), 2 , 1;, 2 , 1(1njmixxxmiijijijmiijnjx1), 2 , 1(1 标准差标准化标准差标准化,即 由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有
6、),2, 1;,2, 1(njmisxxxjjijij1)(101121mijijjmiijjxxmsxmx 极大值标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 ), 2 , 1;, 2 , 1(maxnjmixxxijiijij(3.4.3) 极差标准化,即 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 ), 2 , 1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij一个例子一个例子某地区9个农业区的7项经济指标原始数据 区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1
7、 )水田比重X3/%复种指数x4/%粮食单产x5/(kghm -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.1519
8、4.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.00
9、0.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00区代号人均耕地X1/(hm2人-1)劳均耕地X2/(hm2个-1 )水田比重X3/%复种指数x4/%粮食单产x5/(kghm -2)人均粮食x6/(kg人-1 )稻谷占粮食比重x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.52
10、70.391114 458632.60.92G50.0810.21272.04217.812 249791.180.38G60.0820.21143.78179.68 973636.548.17G70.0750.18165.15194.710 689634.380.17G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17n距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。n当聚类要素的数据处理工作完成以后,就要计算分类对象之间的距离,并依据距离矩阵的结构进行聚类、分区
11、。第二节 距离的计算 常见的距离常见的距离 绝对值距离 欧氏距离 明科夫斯基距离 切比雪夫距离 G6与G3的距离常见的距离有: 绝对值距离 据上表数据,用公式(3.4.5)式计算可得9个农业区之间的绝对值距离矩阵如下 040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(
12、99ijdD 欧氏距离 ), 2 , 1, ()(12mjixxdnkjkikij(3.4.6) 明科夫斯基距离 ), 2 , 1, (11mjixxdpnkpjkikij(3.4.7) 切比雪夫距离。当明科夫斯基距 时,有 ), 2 , 1,(maxmjixxdjkikkij(3.4.8) p第三节 直接聚类法 一、原理一、原理 先把各个分类对象(如每个地区)单独视为一类,然后根据距离最小距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。
13、经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 二、例题二、例题 某地区有9个农业区,请按照农业区的7项经济指标,用直接聚类法对这9个农业区进行分区、归类。 第一步:原始数据标准化处理第二步 计算区际绝对值距离 (1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;第三步第三步 利用直接聚类法进行聚类分析利用直接聚类法进行聚类分析(2)在余下的元素中,除对角线元素以外,d75= d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;第三步第三步 利用直接聚类法进行聚
14、类分析利用直接聚类法进行聚类分析 (3)在第2步之后余下的元素之中,除对角线元素以外,d82= d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列; (4)在第3步之后余下的元素中,除对角线元素以外,d43= d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列。 此时,第3、4、9区已归并为一类(因为第一步中4区已和9区归为一类,而3区和4区也归为一类,所以3、4、9区为一类)。 (5)在第4步之后余下的元素中,除对角线元素以外,d21= d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类; (
15、6)在第5步之后余下的元素中,除对角线元素以外,d65= d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类; (7)在第6步之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类; (8) 在第7步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。 根据上述步骤,可以作出聚类过程的谱系图。 (7)在第6步
16、之后余下的元素中,除对角线元素以外,d31= d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类; (8) 在第7步之后余下的元素中,除去对角线元素以外,只有d51= d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。 根据上述步骤,可以作出聚类过程的谱系图。直接聚类谱系图 第四节 最短距离聚类法 n原理原理 最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离原来
17、各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(,minqpkdddqkpkrkminijpqdd 例题例题:根据以下距离矩阵,用最短距离聚类法对9个农业区进行聚类分析。040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 46
18、4. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD (1)在99阶距离矩阵距离矩阵D D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10=G4,G9。按照 公式公式 分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得: d1,10=mind14,d19= min2.19,2.62=2.19d2,10=mind24,d29= min1.47,1.66=1.47d3,10=mind34,d39= min1.23,1.20=1.20),(,minqpkdddqkpkrkd5,10=min
19、d54,d59= min4.77,4.84=4.77d6,10=mind64,d69= min2.99,3.06=2.99d7,10=mind74,d79= min4.06,3.32=3.32d8,10=mind84,d89= min1.29,1.40=1.29 (2)这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的88阶距离矩阵 029.132.399.277.420.147.119.2003.596.314.524.288.032.1007.183.093.253.579.5078.186.146.472.4064.302.686.5070.210.3052.1010
20、8765321108765321GGGGGGGGGGGGGGGG (3)在上一步骤中所得到的88阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。 按照公式公式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的77阶距离矩阵 ),(,minqpkdddqkpkrk (4)在上一步所得到的77阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式公式分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的66阶距离矩阵 0
21、32.303.507.193.253.579.5029.199.220.147.119.2096.324.288.032.1086.146.472.4070.210.3052.10111086321111086321GGGGGGGGGGGGGG (5)在上一步所得的66阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13=G6,G11=G6,(G5,G7)。再按照公式(3.4.10)计算G1,G3,G10,G12与G13之间的距离,可得到一个新的55阶距离矩阵 003. 529. 196. 324. 232. 1032. 307. 193.
22、279. 5099. 220. 119. 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG (6)(6)在上一步所得的55阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14=G3,G10=G3,(G4,G9)。再按照公式(3.4.10)计算G1,G12,G13与G14之间的距离,可得一个新的44阶距离矩阵 096. 399. 286. 172. 4029. 124. 232. 1020. 119. 2010. 301312103113121031GGGGGGGGGG (7) (7)在上一步
23、所得到的44阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。再按照公式公式计算G1,G13与G15之间的距离,可得一个新的33阶距离矩阵 086. 129. 119. 2096. 372. 4032. 1014131211413121GGGGGGGG (8)在上一步所得的33阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16=G1,G15=(G1,(G2,G8),(G3,(G4,G9)。再按照公式(3.4.10)计算G1
24、3与G16之间的距离,可得一个新的22阶距离矩阵 086. 132. 1072. 401513115131GGGGGG (9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图。 086. 1016131613GGGG最短距离聚类谱系图 第五节 最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。 最远距离聚类法的计算公式是),(,maxqpkdddqkpkrk(3.4.11) 例题例题: :对于前面的例子,最远距离聚类法的聚类过程如下: (1)(1) 在99阶距离矩阵中,非对角元素中最小者是
25、d94=0.51,将第4区与第9区并为一类,记为G10,即G10=G4,G9。按照公式(3.4.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵040. 106. 406. 384. 423. 166. 162. 2003. 596. 314. 524. 288. 032. 1007. 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10108765321108765321GGGGGGGGGGGGGGGG (2) 在第1步所得到的88阶距离矩阵
26、中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式(3.4.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下 084. 414. 578. 164. 302. 686. 5040. 106. 323. 166. 162. 2096. 324. 288. 032. 1086. 146. 472. 4070. 210. 3052. 10111086321111086321GGGGGGGGGGGGGG (3) 在第2步所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故
27、将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.4.11)分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下 002. 666. 146. 470. 252. 1084. 478. 164. 386. 5006. 323. 162. 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG (4)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式(3.4.11)计算G1
28、,G6,G11,G12与G13之间的距离,得到一个新的55阶距离矩阵如下 070. 284. 406. 310. 3002. 646. 452. 1078. 186. 5072. 401312106113121061GGGGGGGGGG (5)在第4步所得的55阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。再按照公式(3.4.11)分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下 010.320.672.4084.406.3078.1014131161413116GG
29、GGGGGG (6)在第5步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式(3.4.11)分别计算G13,G14和G15之间的距离,得到一个新的33阶距离矩阵如下002.684.4010.30151413151413GGGGGG (7) 在第6步所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式(3.4.11)计算G15与G16之间的距离,可得一个新的22阶距离矩阵如下002. 6016151615GGGG (8) (8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。 综合上述聚类过程,可以作出最远距离聚类谱系图,见下图。 最远距离聚类谱系图G1G2G8G3G4G9G5G7G6 谢 谢!