1、SPSS数据分析教程SPSS数据分析教程第10章聚类分析 目录n10.1聚类分析简介n10.2个案间的距离q10.2.1定距数据(Scale Mearsurement)距离定义方式q10.2.2分类数据的频数数据(Count)q10.2.3二分类数据n10.3类之间的距离n10.4系统聚类算法过程n10.5系统聚类案例n10.6K-均值聚类q10.6.1K-均值法简介q10.5.2K-均值法案例n10.7两步法聚类q10.7.1两步法简介q10.7.2两步法案例分析n10.8聚类分析注意事项本章学习目标 n理解聚类分析的基本概念;n了解个案之间距离的定义方式;n了解类之间距离的定义方式;n掌握
2、系统聚类方法;n掌握两步法聚类方法;n掌握K均值聚类方法。10.1 聚类分析简介n根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。n聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量(即事先确定的类别),是“有监督的分析方法”。 n聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。n根据对
3、样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。nSPSS Statistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。 10.2 个案间的距离n定距数据距离定义方式q欧式(Euclidean)距离 q平方欧式距离 q余弦距离 q皮尔逊(Pearson)相关性距离 q切比雪夫(Chebychev)距离 q块(Block)距离 q闵考斯基(Minkowski)距离 q幂(Power)距离 10.2.2 分类
4、数据之间的距离n卡方度量 nPhi方度量 10.3 类之间的距离nSPSS提供了7种计算两个类距离的方法。 q组间连接法(Between-groups Linkage)q组内连接法(Within-Groups Linkage) q最近邻元素法(Nearest Neighbor)q最长距离法(Furthest Neighbor) q质心聚类法(Centroid Clustering) q中位数聚类法(Median Clustering) q离差平方和法(Wards Method) 10.4 系统聚类算法过程系统聚类的步骤n第1步:数据标准化。把原始数据标准化得到标准化数据矩阵。n第2步:计算相似
5、系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。n第3步:选出有最大相似系数的样品组 。n第4步:把该组样品加权平均,这样就形成了一个新的组合样品 。n第5步:用新的样品类代替原来的一对样品点。n第6步:对新形成的样品与其余样品数据重新计算相似系数矩阵。n第7步:如此重复第2步到第5步的过程,直到把所有样品都归类完毕。n第8步:最后,按下列原则构成类关系图。q若两个样品在已经连接成的组中未出现过,则它们连接成一个新组。q若两个样品中有一个在某组中出现过,则另一个就加入该组。q若两个样品都在同一组中,则这对样品不再分组。q若两个样品都在不同组中出现过,则把这两组连
6、接在一起。10.5 系统聚类案例n打开本章的数据文件Cluster_cars.sav。 n该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。 n按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。n选择【分析】【分类】【系统聚类】 n把从“Price in thousand”到“Fuel efficiency”的所有变量选入右边的“变量框”。n把“Model”变量选入“标注个案”框。n依次单击【统计量】、【绘制】、【方法】和【保存】按钮 群
7、集组合 首次出现阶群集 阶 群集 1 群集 2 系数 群集 1 群集 2 下一阶 1 6 7 7.396 0 0 4 2 8 11 13.695 0 0 8 3 2 9 53.086 0 0 6 4 1 6 131.020 0 1 5 5 1 10 205.295 4 0 9 6 2 3 235.419 3 0 7 7 2 4 429.792 6 0 10 8 5 8 553.439 0 2 9 9 1 5 1353.892 5 8 10 10 1 2 3535.162 9 7 0 10.6 K-均值聚类K-均值聚类的算法过程n第1步:用户给定聚类个数K。n第2步:给出初始类中心。n第3步:计
8、算所有个体到这K个类中心的距离,然后按照到K个类中心距离最短原则,把所有个体分别划分到距最近的中心点所在的类中,这样形成了K个类,完成一次迭代过程。n第4步:重新计算K个类的类中心。 n第5步:重复进行第3步、第4步。直到迭代次数达到限制的次数或者类中心不再变化为止。 K-均值法案例 n打开本章的数据文件Cluster_cars.sav。 n该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。 n按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的
9、策略。n选择【分析】【分类】【K-均值聚类】 聚 类 1 2 3 Sales in thousands 145.519 245.815 113.369 4-year resale value 9.250 10.055 12.760 Price in thousands 13.260 17.885 21.560 Engine size 2.2 3.0 3.8 Horsepower 115 155 190 Wheelbase 104.1 108.5 101.3 Width 67.9 73.0 73.1 Length 180.9 197.6 183.2 Curb weight 2.676 3.368
10、 3.203 Fuel capacity 14.3 16.0 15.7 Fuel efficiency 27 24 24 案 例 号 Model 聚 类 距 离 1 Cavalier 1 18.262 2 Malibu 3 13.093 3 Impala . . 4 Mustang 3 18.652 5 Taurus 2 16.338 6 Focus . . 7 Civic 1 38.008 8 Accord 2 12.773 9 Grand Am 3 6.133 10 Corolla 1 21.783 11 Camry 2 11.101 10.7 两步法聚类n两步法聚类又称两阶段聚类,它与系
11、统聚类相似,是揭示数据所蕴含的自然组别的一种探索性分析方法。 两步法聚类的特点n(1)聚类变量可以是连续变量,也可以是分类变量。两步法聚类充分考虑到这两种变量的不同性质,采用对数似然距离来衡量相似性。n(2)它能自动确定出类的个数。n(3)能够有效地分析大数据集。两阶段聚类算法的两个阶段 n第1步:建立一个聚类特性树。 n第2步:应用凝聚算法对聚类特性树的叶节点进行分类。 两步法的距离度量n两步法的距离度量有两种 n(1)对数似然(SPSS 翻译为对数相似值):这里由于聚类指标中含有分类变量,所以只能选择该项。n(2)欧式距离(Euclidean):当聚类指标不含有分类变量时可以选择该距离。聚
12、类数量 n(1)自动确定:可以选择自动确定,这里可以限定类个数的上限。默认最多15个类。也可以据需要修改类个数的最大值。n(2)指定固定值:如果很有把握,那么你可以输入你想要的类个数。聚类准则 n有AIC和BIC两个准则,这两个模型选择准则在选择模型方面基本类似,都是综合考虑样本数和模型的复杂程度。AIC或者BIC的值越小,模型越好。两步法案例分析 n数据文件Twosteps_car.sav n选择【分析】【分类】【两步聚类】 两步法聚类选项设置(1)两步法聚类选项设置(2)n评估字段:评估字段不用于聚类过程,但是可以用它们来描述两步法生成的类的特征。 两步法聚类的模型摘要 两步法模型视图两步法模型视图两步法模型视图作业