1、12 - 12 - 12 - 1 1 1统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月聚类分析聚类分析12 - 12 - 12 - 3 3 3统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 4 4 4统计学统计学统计学统计学统计学统计学STATISTICSSTATIS
2、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 7 7 7统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 8 8 8统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8
3、月月月12 - 12 - 12 - 9 9 9统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 111111统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 121212统计学统计学统计学统计学统计学统计学STATISTICSSTATISTIC
4、SSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 131313统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qpiqiiyx1iiyx maxpiiiyx12)(piiiyx112 -
5、 12 - 12 - 141414统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr22)()()(12 - 12 - 12 - 171717统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8
6、 8月月月12 - 12 - 12 - 181818统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 191919统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 212121统计学统计学统计学统计学统计学统计学STATISTICSSTATIS
7、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 222222统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月最短距离法最短距离法(Nearest neighbor)最长距离法最长距离法(Furthest neighbor)重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups lin
8、kage)离差平方和法离差平方和法(Wards method)ijGxGxkldDljki,minijGxGxkldDljki,max)()(2lklkklxxxxD kiliGxGxijlkkldnnD1lkmklWWWD212 - 12 - 12 - 232323统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 252525统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTI
9、CS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 262626统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月第第1步步 选择【Analyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框第第2步步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cas
10、es by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】第第3步步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框第第4步步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框12 - 12 - 12 - 272727统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )2008
11、20082008年年年8 8 8月月月第第5步步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第第6步步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】
12、表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】12 - 12 - 12 - 282828统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 292929统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第
13、三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n 第第1列是聚类的步骤号。第列是聚类的步骤号。第2列和第列和第3列给出了每列给出了每一步被合并的对象一步被合并的对象(这里是地区这里是地区)n 首先把首先把31个地区各自作为一类个地区各自作为一类(共有共有31类类)。第。第1步步是把距离最近的两个地区是把距离最近的两个地区21(海南海南)和地区和地区30(宁夏宁夏)合并成一类。在后面的步骤中,对于包含多个样合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表本的新类别,实际上是用类中的一个样本来代表该类别,比如,第该类别
14、,比如,第2步被合并的是步被合并的是21和地区和地区29(青青海海),这里的,这里的“21”实际上是指在第实际上是指在第1步中被合并的步中被合并的类别,只是用类别,只是用“21”表示表示21(海南海南)所在的类别所在的类别12 - 12 - 12 - 303030统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n第第4列给出每一步被合并的两个类之间的聚类系数列给出每一步被合并的两个类之间的聚类系数(即距离即距离)。距。距离按从小到大排列,越早合并
15、的类距离越近。离按从小到大排列,越早合并的类距离越近。0.013是地区是地区21(海南海南)和地区和地区30(宁夏宁夏)之间的距离,而之间的距离,而0.040是先被合并的第一小是先被合并的第一小类与地区类与地区29(青海青海)之间的距离之间的距离n第第5列和第列和第6列表示本步聚类中参与聚类的是原始的样本还是已列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,经合并的小类,0表示本步聚类的是原始的样本,第一次出现在表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第步聚类。第7列给
16、出了在每一步中合并形成的新类别下一次将在列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如,在第第几步中与其他类别合并。例如,在第2步中,参与聚类的是第步中,参与聚类的是第1步形成的小类步形成的小类(21号样本所在的类号样本所在的类)和地区和地区29(青海青海),第,第5列的列的“1”表示表示21号类是在第号类是在第1步中形成的小类,而步中形成的小类,而“0”表示地区表示地区29(青海青海)是第一次出现在本步聚类中的原始样本,第是第一次出现在本步聚类中的原始样本,第7列中的列中的“10”表示这一类将在第表示这一类将在第10步中与其他类别合并,其余类推步中与其他类别合并,其
17、余类推12 - 12 - 12 - 313131统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 323232统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月分成两类分成两类 分成四类分成四类 最大距离作为相对距离最大距离作为相对距离25,其余的距离都换算成与,其余的距离
18、都换算成与之相比的相对距离大小之相比的相对距离大小12 - 12 - 12 - 333333统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月类别类别地区地区地区个数地区个数第一类第一类北京,天津,上海北京,天津,上海3第二类第二类河北,辽宁,安徽,福建,河南,湖北,河北,辽宁,安徽,福建,河南,湖北,湖南,四川湖南,四川 8第三类第三类山西,内蒙古,吉林,黑龙江,江西,山西,内蒙古,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,广西,海
19、南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆陕西,甘肃,青海,宁夏,新疆16第四类第四类江苏,浙江,山东,广东江苏,浙江,山东,广东412 - 12 - 12 - 343434统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月注意注意 使用Means过程时可直接在聚类分析的数据中进行,数 据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作第一步第一步 选择【Analyze
20、】下拉菜单,并选择 【Compare Means-Means】主对话框第二步第二步 将用于描述的所有变量选入【Dependentlist】,把地 区所属的类别号变量选入【Independent list】第三步第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框 【OK】12 - 12 - 12 - 353535统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 363636统计学统计
21、学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 383838统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 404040统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版
22、第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 414141统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 424242统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 444444统计学统计
23、学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 454545统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 464646统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版
24、第三版第三版) ) )200820082008年年年8 8 8月月月 数据标准化数据标准化(SPSS)l【Analyze】【Descriptive Statistics】 【Descriptives】主对话框l将需要标准化的变量选入【Variable(s)】 【Save standardized values as variables】 【OK】12 - 12 - 12 - 474747统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月该表列出每一
25、类别的初始聚类中心,本例的这些中心是由该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上就,这实际上就是上海的人均是上海的人均GDP标准化后的值。第二类聚类中心是标准化后的值。第二类聚类中心是1.83293则是天津的则是天津的标准化人均标准化人均GDP,等等,等等12 - 12 - 12 - 484848统计学统计学统计学统计学统计学
26、统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 该表该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只的增加,类别中心点的变化越来越小。本例只4次就已经收敛了次就已经收敛了12 - 12 - 12 - 494949统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200
27、820082008年年年8 8 8月月月 表中的数据表示各个类别在各变量上的平均值。如,第一类的表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区表示被分到第一类的地区(北京和上海北京和上海)标准化后的人均标准化后的人均GDP平均值平均值 12 - 12 - 12 - 505050统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分利用方差分析表可以
28、判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的类后各变量在不同类别之间的差异都是显著的(P值均接近值均接近0) 12 - 12 - 12 - 515151统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 由该表可以看出,第一类包括由该表可以看出,第一类包括2个地区,第二类包括个地区,第二类包括11个地区,个地区,第三类包括第三类包括4个地区,第四类包括个地区,第四类包括14个地区个地区12 - 12 - 12
29、- 525252统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 535353统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月类别类别地区地区地区个数地区个数第一类第一类上海,北京上海,北京 2第二类第二类天津,内蒙古,吉林,海南,重庆,贵天津,内蒙古,吉林,海南,重庆,
30、贵州,西藏,甘肃,青海,宁夏,新疆州,西藏,甘肃,青海,宁夏,新疆 11第三类第三类江苏,浙江,山东,广东江苏,浙江,山东,广东 4第四类第四类河北,山西,辽宁,黑龙江,安徽,福河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,建,江西,河南,湖北,湖南,广西,四川,云南,陕西四川,云南,陕西 1412 - 12 - 12 - 555555统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 565656
31、统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 575757统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 585858统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月