1、聚类分析Clustering analysis主要内容o 距离和相似系数距离和相似系数 o 系统聚类系统聚类(Hierarchical clustering)(Hierarchical clustering)最短距离法最短距离法 最长距离法最长距离法 中间距离法中间距离法 可变距离法可变距离法 重心法重心法 类平均法类平均法 可变类平均法可变类平均法 WardWard最小方差法最小方差法o 快速聚类分析快速聚类分析o 聚类分析方法在聚类分析方法在SPSSSPSS中的实现中的实现o 聚类分析的正确应用聚类分析的正确应用o 分类学是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划
2、分为不同类别,并探索产生这种类别的原因,进而提出合理、有利的处理该类事物的办法。比如,卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。另外,在多元统计分析中,通过聚类分聚类分析可以将众多的观测变量分类,确定各类中的典型析可以将众多的观测变量分类,确定各类中的典型变量以达到降维目的。变量以达到降维目的。o 聚类分析聚类分析(cluster analysis)和判别分析和判别分析(discriminant analysis)都是分类学中的重要研)都是分类学中的重要研究方法。究方法。两者区别在于聚类分析事先并不知道研究两者区别在于聚类分析事先并不知道研究对象的类别,通过统计手
3、段作出分类决策对象的类别,通过统计手段作出分类决策;而判别;而判别分析是事先已知研究对象的类别,通过观测各类别分析是事先已知研究对象的类别,通过观测各类别某些指标(变量)的类间差异,判断新的未知研究某些指标(变量)的类间差异,判断新的未知研究对象应归属何种类别。对象应归属何种类别。o 聚类方法聚类方法 从分析目的看,聚类分析有两种类型:对从分析目的看,聚类分析有两种类型:对样品聚类样品聚类(Q-型聚类)型聚类)和对和对变量聚类变量聚类(R-型聚类)。从分析的方法看,因变量类型不型聚类)。从分析的方法看,因变量类型不同,方法各异。一般讲,有关计量资料的方法较多,对分类资同,方法各异。一般讲,有关
4、计量资料的方法较多,对分类资料和等级资料的处理方法不多。这些方法大致可归纳为:料和等级资料的处理方法不多。这些方法大致可归纳为:(1)系统聚类法:系统聚类法:n(n-1)(n-2)(n-3)2 1;(2)分解法:分解法:123;(停止规则);(停止规则)(3)加入法:类似于判别分析,由已知的一个分类系统对样品进加入法:类似于判别分析,由已知的一个分类系统对样品进行分类;行分类;(4)动态聚类法:先进行粗分类,依据动态聚类法:先进行粗分类,依据最优准则最优准则调整至不能调整调整至不能调整时为止;时为止;还有其他几种类型的聚类:有序样品的聚类、条件系统聚类、有重还有其他几种类型的聚类:有序样品的聚
5、类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法等。叠的类、预报、模糊聚类、运筹方法等。o 距离和相似系数距离和相似系数 在分类学中,一般是把某种在分类学中,一般是把某种性质相近的东西归于一性质相近的东西归于一类,把性质不近的东西归于不同的类类,把性质不近的东西归于不同的类。用数学方法。用数学方法进行分类,是客观实际分类的抽象,应和实际分类进行分类,是客观实际分类的抽象,应和实际分类有类似之处,不同的只是数学方法的分类是建立在有类似之处,不同的只是数学方法的分类是建立在各样品关于其各指标的测量数据的基础上,即利用各样品关于其各指标的测量数据的基础上,即利用这些数据的内在联系和规律性来分类
6、。因此,首先这些数据的内在联系和规律性来分类。因此,首先要有描述或刻划各样品之间的相近程度或变量间的要有描述或刻划各样品之间的相近程度或变量间的相似程度的量或指标。这类指标就是相似程度的量或指标。这类指标就是距离及相似系距离及相似系数。数。o 设有设有n个样品,每个样品有个样品,每个样品有p个变量,原始资料阵个变量,原始资料阵如下:如下:npnnppnpxxxxxxxxxSSSXXX2122221112112121X距离(距离(每个样品看成每个样品看成P维空间中的一个点,维空间中的一个点,N个样品构成个样品构成N个点)个点)o(1)绝对值距离绝对值距离o(2)欧氏距离(欧氏距离(Euclide
7、an)o(3)切比雪夫距离(切比雪夫距离(Chebychev)o(4)明氏距离(明氏距离(Minkowski)pkjkikijxxd1)1(2/112)()2(pkjkikijxxdjkikpkijxxdmax1)(qpkqjkikijxxqd/11)(可见前可见前3种距离是明氏距离的特例:欧氏距离、绝对值距离是种距离是明氏距离的特例:欧氏距离、绝对值距离是明氏距离明氏距离q2和和q1时的特例;当时的特例;当q时,明氏距离就是时,明氏距离就是切比雪夫距离。切比雪夫距离。o 当各个变量值相差悬殊时,采用上述距离反映样品当各个变量值相差悬殊时,采用上述距离反映样品间的接近程度并不合理,常要用对原始
8、数据进行标间的接近程度并不合理,常要用对原始数据进行标化,然后标准化的数据计算距离化,然后标准化的数据计算距离o 明氏距离特别是欧氏距离是人们熟悉也是使用最多明氏距离特别是欧氏距离是人们熟悉也是使用最多的距离。但该指标有两个缺陷:的距离。但该指标有两个缺陷:(1 1)与指标的量纲有关;)与指标的量纲有关;(2 2)没有考虑指标之间的相关性;)没有考虑指标之间的相关性;(5)马氏距离(马氏距离(Mahalanobis)(6)兰氏距离()兰氏距离(Lanberra)(仅用于所有指标大于)(仅用于所有指标大于0)(7)配合距离(对于分类变量,尤其是无序分类变量)配合距离(对于分类变量,尤其是无序分类
9、变量)设有设有2个样品,个样品,5个指标的取值分为:个指标的取值分为:S1(V,Q,S,T,K)S2(V,M,S,F,K))()()(12jijiijMdXXXX它们的第一个指标均取它们的第一个指标均取V,称为配合的;第二个指标,称为配合的;第二个指标S1取取Q,而而S2取取M,称为不配合的。,称为不配合的。S1与与S2中配合数为中配合数为3,不配合数为,不配合数为2。则。则S1与与S2的配合距离为的配合距离为350.60更一般地,设两样品共更一般地,设两样品共有有p个指标,其中配合者有个指标,其中配合者有m个,则两样品间的距离可定义为:个,则两样品间的距离可定义为:pmdij/o 距离的一般
10、性质(距离的一般性质(见教材见教材163图图9.1)(a)dAB0,对一切,对一切A,B;(b)dAB0,当且仅当,当且仅当A点与点与B点重叠,即点重叠,即A与与B的的各指标相等;各指标相等;(c)dABdBA,对一切,对一切A,B;(d)dABdAC+dCB,对一切,对一切A,B,C;相似系数相似系数 研究样品间的关系常用距离,研究指标间的关系常研究样品间的关系常用距离,研究指标间的关系常用相似系数用相似系数。顾名思义,相似系数是刻划指标间相。顾名思义,相似系数是刻划指标间相似程度的一个量,常用的有夹角余弦,相关系数等。似程度的一个量,常用的有夹角余弦,相关系数等。o(1)夹角余弦)夹角余弦
11、o(2)Pearson相关系数相关系数niniitisniitisstxxxxcon11221ninititsisnititsisstxxxxxxxxr11221)()()((3)指数相似系数)指数相似系数列联系数(对于分类资料常用列联系数表示其相似程度)列联系数(对于分类资料常用列联系数表示其相似程度)(1)点相关系数)点相关系数(2)Pearson列联系数列联系数)()()(dbcadcbabcadcijncxy22系统聚类的基本思想o 相近的聚为一类相近的聚为一类(以距离表示,样品聚类以距离表示,样品聚类)o 相似的聚为一类相似的聚为一类(以相似系数表示,变量聚类以相似系数表示,变量聚类
12、)6个不同民族的标化死亡率与出生时的期望寿命 民族原始数据标化死亡率()出生时期望寿命(岁)满族 5.8070.59朝鲜族 7.4467.14蒙古族 8.1165.48维吾尔族10.2158.88藏族 9.5159.24哈萨克族 9.8160.47均数8.480063.6333标准差1.6866 4.8167系统聚类(Hierarchical clustering)最短距离法最短距离法(single linkage)(single linkage)最长距离法最长距离法(complete linkage)(complete linkage)中间距离法中间距离法(median method)(me
13、dian method)可变距离法可变距离法(flexible median)(flexible median)重心法重心法(centroid(centroid)类平均法类平均法(average)(average)可变类平均法可变类平均法(flexible average)(flexible average)WardWard最小方差法最小方差法(Wards minimum variance(Wards minimum variance)系统聚类的基本思想物以类聚。o 相近的聚为一类(以距离表示,样品聚类)o 相似的聚为一类(以相似系数表示,变量聚类)系统聚类的基本步骤1.构造n个类,每个类包含
14、且只包含一个样品。2.计算n个样品两两间的距离,构成距离矩阵距离矩阵,记作D0。3.合并距离最近的两类为一新类。4.计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。5.画聚类图。6.决定类的个数,及各类包含的样品数,并对类作出解释。类与类之间不同的定义产生不同的聚类方法类与类之间不同的定义产生不同的聚类方法类间距离S1S3S2S4S5最短距离(single linkage)过小估计类与类之间的距离过小估计类与类之间的距离最长距离(complete linkage)类间距离S1S3S4S5过高估计类与类之间的距离过高估计类与类之间的距离类间距离S1S3S2S4S5
15、平均距离(average)(61235234225224215214212ddddddD 定义类与类之间距离的平方为两类中各样品间距离平方之定义类与类之间距离的平方为两类中各样品间距离平方之平均(充分应用所有点的信息)平均(充分应用所有点的信息)例9.1 6个不同民族的标化死亡率与出生时的期望寿命 民族原始数据标准化数据标化死亡率()出生时期望寿命(岁)标化死亡率()出生时期望寿命(岁)满族 5.8070.59-1.591.44朝鲜族 7.4467.14-0.620.73蒙古族 8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族 9.5159.240.61-
16、0.91哈萨克族 9.81 60.470.79-0.66均数8.480063.6333 0.00 0.00标准差1.68664.8167 1.00 1.00各民族之间的欧氏距离(标准化资料)D0 满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6满族G1=S10朝鲜族G2=S21.2080蒙古族G3=S31.7320.5260维吾尔族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.5390.4220哈萨克族G6=S63.1731.9731.4480.4060.3110采用最短距离法进行聚类采用最短距离法进行
17、聚类D1 G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.1731.9731.4480.4060D2G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.1731.9731.4480D3G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.2080G8=S4,S5,S63.1731.4480D4G10=S1,S2,S3G8=S4,S5,S6G10
18、=S1,S2,S30G8=S4,S5,S61.4480例9.1资料的谱系聚类图(最短距离法)藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 资料的谱系聚类(最短聚类法)资料的谱系聚类(最短聚类法)0.3110.4060.5261.2081.448图中横线的长度是并类时的类间长度类间长度各民族之间的欧氏距离(标准化资料)D0 满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1 G2=S2 G3=S3 G4=S4 G5=S5 G6=S6满族G1=S10朝鲜族G2=S21.2080蒙古族G3=S31.7320.5260维吾尔族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.
19、5390.4220哈萨克族G6=S63.1731.9731.4480.4060.3110D1 G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.2242.0481.5390.4220D2G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.5702.3741.8510D3G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.7320G8=S4,S5
20、,S63.5702.3740D4G10=S1,S2,S3G8=S4,S5,S6G10=S1,S2,S30G8=S4,S5,S63.5700例9.1资料的谱系聚类图(最长距离法)藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 Dendrograms(cluster trees)0.3110.4220.5261.7323.570资料的系谱聚类法(最长距离法)资料的系谱聚类法(最长距离法)聚类分析在聚类分析在SPSS程序中的实现程序中的实现 o 聚类分析所用的方法大致可被分为两类:聚类分析所用的方法大致可被分为两类:系统聚类系统聚类法(法(Hierarchical Clustering)和)和非系统聚
21、类法非系统聚类法(Non-hierarchical Clustering),),SPSS为这两为这两种方法各提供了一个过程,即:种方法各提供了一个过程,即:K-means Cluster:对:对样品(样品(cases)进行快速聚类)进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大于节省运算时间。根据经验,如果样本量大于100,则有必要考虑是否使用快速聚类。则有必要考虑是否使用快速聚类。Hierarchical Cluster:习惯上翻译成系统聚类法,该:习惯上翻译成系统聚类法,该过程提供了全面而强大的聚类
22、分析能力,过程提供了全面而强大的聚类分析能力,可对样品可对样品或变量进行聚类。或变量进行聚类。更为重要的是,参与系统聚类分更为重要的是,参与系统聚类分析的变量不再像快速聚类一样限于连续性变量,他析的变量不再像快速聚类一样限于连续性变量,他们们可以是两分类或多分类变量可以是两分类或多分类变量。K类中心聚类(类中心聚类(K-Means Cluster)是先将是先将n个观察单位分为个观察单位分为K类,并确定类,并确定K个初始类中心,然后根据距个初始类中心,然后根据距类中心最小欧氏距离原则,采用迭代方法,对样品进行归类。具体类中心最小欧氏距离原则,采用迭代方法,对样品进行归类。具体做法如下:做法如下:
23、o按照指定的希望分类的数量,按某种原则作为今后各类的初始核心;按照指定的希望分类的数量,按某种原则作为今后各类的初始核心;o按就近原则将其余观测向凝聚点凝集,这样得到一个初始分类方案,按就近原则将其余观测向凝聚点凝集,这样得到一个初始分类方案,并计算出各个初始分类的中心位置(均值);并计算出各个初始分类的中心位置(均值);o使用计算出的中心位置重新进行聚类直到凝聚点位置改变很小(达使用计算出的中心位置重新进行聚类直到凝聚点位置改变很小(达到收敛标准)为止。到收敛标准)为止。例题:对例题:对1212个样品进行聚类分析个样品进行聚类分析指指标标 样样品品号号 X1 X2 X3 S1 5 7 10
24、S2 7 1 5 S3 3 2 14 S4 6 5 2 S5 6 6 9 S6 7 7 7 S7 8 1 4 S8 20 7 9 S9 19 8 12 S10 7 4 4 S11 4 5 13 S12 6 5 7 根据根据3 3个指标对个指标对1212个样品进行聚类个样品进行聚类具体的操作过程:具体的操作过程:AnalyzeClassifyK-meansClusterVariables 框框:x1x2x3 选选入入用用于于聚聚类类分分析析的的变变量量NumberofClusters 框框:4要要求求分分为为四四类类Save:Clustermembership输输出出聚聚类类后后每每一一记记录录
25、所所属属类类别别 ContinueOK Initial Cluster Centers520367725109142X1X2X31234ClusterIteration Historya1.7201.1061.1062.417.344.369.369.4836.882E-02.123.1239.666E-021.376E-024.095E-024.095E-021.933E-022.753E-031.365E-021.365E-023.867E-035.505E-044.550E-034.550E-037.733E-041.101E-041.517E-031.517E-031.547E-042
26、.202E-055.055E-045.055E-043.093E-054.404E-061.685E-041.685E-046.187E-068.809E-075.617E-055.617E-051.237E-06Iteration123456789101234Change in Cluster CentersIterations stopped because the maximum number ofiterations was performed.Iterations failed toconverge.The maximum distance by which anycenter ha
27、s changed is 5.081E-05.The currentiteration is 10.The minimum distance between initialcenters is 6.708.a.主要输出结果:1.初始类中心说明:给出了说明:给出了4个初始类中心的初个初始类中心的初始位置,每个类中心的始位置,每个类中心的3个变量值个变量值列为列为1列。由表中可见,列。由表中可见,4个类分个类分别使用了别使用了1号、号、8号、号、4号和号和3号观号观测作为其初始位置。测作为其初始位置。2.迭代过程中类中心的变化3.样品分类结果样品分类结果 样品样品1、5、6和和12聚为第一类;样品
28、聚为第一类;样品8和和9聚为第二类;样聚为第二类;样品品3和和11聚为第三类;样品聚为第三类;样品2、4、7和和10聚成第四类。聚成第四类。Distance表示每个样品与其所属类中心的欧氏距离。表示每个样品与其所属类中心的欧氏距离。Cluster MembershipS112.1 5 1S242.1 5 1S331.6 5 8S443.0 2 1S51.7 9 1S611.7 6 8S742.0 3 1S821.6 5 8S921.6 5 8S1 041.2 7 5S1 131.6 5 8S1 211.7 6 8Case Numb er1234567891 01 11 2CASESCluste
29、rDistance4单因素方差分析单因素方差分析 对数据进行了聚类,但是,所用的变量都对分类有贡献对数据进行了聚类,但是,所用的变量都对分类有贡献吗?引入了无关变量,则会降低聚类的效果,甚至会导吗?引入了无关变量,则会降低聚类的效果,甚至会导致错误的分类结果。为此,可以使用致错误的分类结果。为此,可以使用Options子对话框子对话框中的中的ANOVA Table复选框进行单因素方差分析,以考复选框进行单因素方差分析,以考察三个变量在类间是否有差异。结果显示,察三个变量在类间是否有差异。结果显示,x1、x2、x3在四类间的均数均有差异。在四类间的均数均有差异。ANOVA108.2223.625
30、8173.156.00014.38932.56385.615.02348.50032.063823.515.000X1X2X3Mean SquaredfClusterMean SquaredfErrorFSig.The F tests should be used only for descriptive purposes because the clusters have beenchosen to maximize the differences among cases in different clusters.The observedsignificance levels are no
31、t corrected for this and thus cannot be interpreted as tests ofthe hypothesis that the cluster means are equal.Number of Cases in each Cluster4.0002.0002.0004.00012.000.0001234ClusterValidMissing5.每一类的样品数每一类的样品数系统聚类分析(系统聚类分析(Hierarchical Cluster)o 包括样品聚类和变量聚类,是先将包括样品聚类和变量聚类,是先将n个变量或样品个变量或样品看成看成n类,然后
32、将性质最接近(或相似程度最大)类,然后将性质最接近(或相似程度最大)的的2类合并为类合并为1个新类,分为个新类,分为n-1类。再从中找到最类。再从中找到最接近的接近的2类加以合并,分为类加以合并,分为n-2类,如此类推,最后类,如此类推,最后所有的变量或样品全聚在一类之中。所有的变量或样品全聚在一类之中。SPSS可输出可输出垂直冰柱图垂直冰柱图,水平冰柱图或树状结构图水平冰柱图或树状结构图等,用以表等,用以表示分类结果示分类结果例:现有例:现有6个不同民族的标化死亡率与出生时的期望寿命,个不同民族的标化死亡率与出生时的期望寿命,试做聚类分析。试做聚类分析。原原始始数数据据 标标准准化化数数据据
33、 民民族族 标标化化死死亡亡率率()出出生生时时期期望望寿寿命命(岁岁)标标化化死死亡亡率率 出出生生时时期期望望寿寿命命 1 满满族族 5.80 70.59-1.588971.444272 朝朝鲜鲜族族 7.4467.14-0.616610.728023 蒙蒙古古族族 8.1165.48-0.219370.383394 维维吾吾尔尔族族 10.2158.881.02571-0.986845 藏藏族族 9.5159.240.61069-0.912106 哈哈萨萨克克族族 9.8160.470.78855-0.65674均均数数 8.4800 63.6333 0.00 0.00 标标准准差差 1
34、.6866 4.8167 1.00 1.00 SPSSSPSS操作的具体过程:操作的具体过程:AnalyzeClassifyHierarchicalClusterVariables 框框:standp e0选选入入用用于于聚聚类类分分析析的的变变量量LabelCasesby nationCluster Cases希希望望进进行行的的是是样样品品间间聚聚类类分分析析Display:Statistics Plot输输出出统统计计结结果果和和聚聚类类图图Plots:Dendrogram Dendrogram输输出出树树状状图图 ContinueOK 主要结果:主要结果:Agglomeration S
35、chedule45.620002462.145105233.2040041223.0200351480.801420Stage12345Cluster 1Cluster 2Cluster CombinedCoefficientsCluster 1Cluster 2Stage Cluster FirstAppearsNext Stage上表给出的是聚类分析的详细步骤,可见第一步是变量上表给出的是聚类分析的详细步骤,可见第一步是变量4和和5合并,第二步是合并,第二步是变量变量4、5类和类和6合并,第三步为变量合并,第三步为变量2、3合并,依次类推,直到全部合为一合并,依次类推,直到全部合为一类。类
36、。Vertical IcicleXXXXXXXXXXXXXXXX XXXXXXXXXX XXX XXXXXX X X XX XXX X X XNumber of clusters123456:hasake 5:zhang 4:weiwuer 3:menggu 2:chaoxuan 1:manCase上面输出的是垂直冰柱图,用于显示各样品依次在不同类别数时的分类归属上面输出的是垂直冰柱图,用于显示各样品依次在不同类别数时的分类归属情况。若分为情况。若分为2类,则类,则满族、朝鲜族、蒙古族满族、朝鲜族、蒙古族为一类;而为一类;而维吾尔族、藏族、哈维吾尔族、藏族、哈萨克族萨克族为一类。若分为为一类。
37、若分为3类,则类,则满族满族为一类;为一类;朝鲜族、蒙古族朝鲜族、蒙古族为一类,而为一类,而维吾维吾尔族、藏族、哈萨克族尔族、藏族、哈萨克族为一类。为一类。Dendrogram using Average Linkage(Between Groups)Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+weiwuer 4 zhang 5 hasake 6 chaoxuan 2 menggu 3 man 1 上面为树状图,当要分类的变量记录数较多时,该图上面为树状图,当要分类的变量记录数较多
38、时,该图比冰柱图要清楚得多,建议大家尽量多用。不过它的缺比冰柱图要清楚得多,建议大家尽量多用。不过它的缺点是点是不能在图中显示变量名标签不能在图中显示变量名标签,只能,只能使用变量名使用变量名。在。在上图中横向距离表示差异的大小,树状结构则表示分类上图中横向距离表示差异的大小,树状结构则表示分类情况。从图中可见满族和朝鲜族、蒙古族的差距还是比情况。从图中可见满族和朝鲜族、蒙古族的差距还是比较大的,如果希望细分,则可将其单独分为一类。较大的,如果希望细分,则可将其单独分为一类。8种系统聚类法所得聚类图最短距离法最长距离法中间距离法可变法类平均法可变类平均法重心法Ward最小方差法指标的聚类上体长
39、 手臂长胸围颈围总肩宽 前胸宽 后背宽前腰节高后腰节高总体高身高下体长腰围臀围上体长1.000手臂长0.370 1.000胸围0.242 0.235 1.000颈围0.280 0.196 0.590 1.000总肩宽0.360 0.327 0.476 0.435 1.000前胸宽0.281 0.265 0.483 0.470 0.452 1.000后背宽0.245 0.267 0.540 0.478 0.534 0.663 1.000前腰节高0.448 0.349 0.452 0.404 0.431 0.322 0.266 1.000后腰节高0.486 0.371 0.365 0.357 0.
40、429 0.283 0.287 0.820 1.000总体高0.648 0.668 0.216 0.316 0.429 0.283 0.263 0.527 0.547 1.000身高0.679 0.688 0.243 0.313 0.430 0.302 0.294 0.520 0.558 0.957 1.000下体长0.486 0.642 0.174 0.243 0.375 0.290 0.255 0.403 0.417 0.857 0.852 1.000腰围0.133 0.154 0.732 0.477 0.339 0.392 0.446 0.266 0.241 0.054 0.099 0.
41、055 1.000臀围0.376 0.254 0.676 0.581 0.441 0.447 0.440 0.424 0.372 0.363 0.376 0.321 0.627 1.000Cluster treeAverage Linkage Cluster Analysis(类与类之间的距离用类平均法)Name of Observation or Cluster O O O O O O O B B B O O O B B O O O O B B 1 1 1 B B B 1 1 B B B B 1 2 0 1 2 8 9 3 3 4 4 5 6 7 1.2+|XXXXXXXXXXXXXXXXX
42、XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX A|XXXXXXX
43、XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX v|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX e 1+XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX r|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
44、XXXX a|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX g|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX e|XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX|XXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXX XXXXXXX
45、XXXXXX D|XXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXX i 0.8+XXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXX .XXXXXXX s|XXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXX .XXXXXXX t|.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXX .XXXXXXX a|.XXXXXXXXXXXXXXXXXXX XXXXXX
46、X XXXXXXXXXXXXX .XXXXXXX n|.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXX .XXXXXXX c|.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXX .XXXXXXX e|.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXX .XXXXXXX 0.6+.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXX .XXXXXXX B|.XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXXXXXX .XXXXXXX e|.
47、XXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXX .XXXXXXX t|.XXXXXXXXXXXXX XXXXXXX XXXXXXX .w|.XXXXXXXXXXXXX XXXXXXX XXXXXXX .e|.XXXXXXXXXXXXX XXXXXXX XXXXXXX .e|.XXXXXXXXXXXXX XXXXXXX XXXXXXX .n 0.4+.XXXXXXXXXXXXX XXXXXXX .|.XXXXXXXXXXXXX XXXXXXX .C|.XXXXXXXXXXXXX XXXXXXX .l|.XXXXXXXXXXXXX XXXXXXX .u|.XXXXXXXXX
48、XXXX XXXXXXX .s|.XXXXXXXXXXXXX .t|.XXXXXXXXXXXXX .e 0.2+.XXXXXXX .r|.XXXXXXX .s|.XXXXXXX .|.XXXXXXX .|.XXXXXXX .|.XXXXXXX .|.0+.该茎叶图见教材174页SAS运行结果3454名成年女子14个部位的谱系聚类图(类平均法)上体长y1手臂长y2下体长y12总体高y10身高y11前腰节高y8后腰节高y9胸围y3腰围y13臀围y14颈围y4前胸宽y6后背宽 y7总肩宽 y5 距离 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 相关系数 1 0.9 0.8 0.7 0
49、.6 0.5 0.4 0.3动态聚类最终分类选凝聚点初始分类分类是否合理修改分类是是否否系统聚类时,如果聚类对象很多,计算量很大,能否先给一个系统聚类时,如果聚类对象很多,计算量很大,能否先给一个粗糙的初始分类,然后用某种原则进行修改,直至分类比较合粗糙的初始分类,然后用某种原则进行修改,直至分类比较合理为止。叫理为止。叫动态聚类或逐步聚类,也称为快速聚类动态聚类或逐步聚类,也称为快速聚类选择初始分类的选择初始分类的 方法:方法:(1 1)经验选择:从原始数据中(如果分多少类较为清)经验选择:从原始数据中(如果分多少类较为清楚)楚)(2 2)认为地把样品按某种标准分为若干类)认为地把样品按某种
50、标准分为若干类(3 3)密度法:这是比较客观的方法:先认为地规定两)密度法:这是比较客观的方法:先认为地规定两个正数个正数d1d1和和d2d2(d1d1大于大于d2d2),不能太大也不能太小,),不能太大也不能太小,接着一每个样品为中心,接着一每个样品为中心,d1d1为半径,想象成一个圆,为半径,想象成一个圆,凡距离小于凡距离小于d1d1的样品数就称为该样品的密度,以样的样品数就称为该样品的密度,以样品密度最大的作为第一凝聚点,考察密度较大的次品密度最大的作为第一凝聚点,考察密度较大的次凝聚点,如果与第一凝聚的距离大于凝聚点,如果与第一凝聚的距离大于d2d2,就可以作,就可以作为第二凝聚点。为