1、多元统计分析中国人民大学:何晓群苏州大学:马学俊基于R语言多元统计分析中国人民大学:何晓群基于R 语言聚类分析聚类分析学习目标:学习目标:1.了解适合用聚类分析解决的问题;2.理解对象之间的相似性是如何测量的;3.区别不同的距离;4.区分不同的聚类方法及其相应的应用;5.理解如何选择类的个数;6.简述聚类分析的局限。03聚类分析学习目标:0 33.1 聚类分析的基本思想3.1.1 目的u 聚类分析不仅可以用来对样品进行分类聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分而且可以用来对变量进行分类。对样品的分类常称为类常称为型聚类分析型聚类分析,对变量的分类常称为对变量
2、的分类常称为型聚类分析。与多元分析的其他方法型聚类分析。与多元分析的其他方法相比相比,聚类分析的方法还是比较粗糙的聚类分析的方法还是比较粗糙的,理论上也不算完善理论上也不算完善,但由于它能解决许多实际问但由于它能解决许多实际问题题,所以很受实际研究者重视所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。同回归分析、判别分析一起称为多元分析的三大方法。目的在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,如前所述,聚类分析的目的就是把相似的研究对象归成类。3.1 聚类分析的基本思想3.1.1 目的聚类分析不仅
3、可以用3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法系统聚类法系统聚类法:首先,将n个样品看成n类,然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类。模糊聚类法:模糊聚类法:将模糊数学的思想观点用到聚类分析中产生的方法。K-K-均值法均值法:把样品聚集成k个类的集合,类的个数k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法适用的大得多的数据组。有序样品的聚类有序样品的聚类:n个样品按某种原因(时间、地层深度等)排成次序,必须是次序相邻的样品
4、才能聚成一类。分解法分解法:首先所有的样品均在一类,然后用某种最优准则将它分为两类,再试图用同种准则将这两类各自分裂为两类,从中选一个使目标函数较好者,这样由两类变成三类,如此下去,一直分裂到每类只有一个样品为止(或采用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。加入法加入法:将样品依次加入,每次加入后将它放到当前聚类图的应在位置上,全部加入后,即可得到聚类图。3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法3.2 相似性度量距离定义3.2 相似性度量 距离定义 3.2 相似性度量间隔尺度定义3.2 相似性度量 间隔尺度定义 3.3 类和类的特征3.3.1 类的定义用
5、用表示类表示类,设设中有中有个元素个元素,这些元素用这些元素用,等表示。等表示。定义3.3 类和类的特征3.3.1 类的定义用表示类,设3.3 类和类的特征3.3.2 类的特征特征3.3 类和类的特征3.3.2 类的特征 特征 3.3 类和类的特征3.3.3 类的距离定义定义3.3 类和类的特征3.3.3 类的距离定义 定义 3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤:3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它3.4 系统聚类法3.4.1 最短距离法和最长距离法3.4 系统聚类法3.4.1 最
6、短距离法和最长距离法 3.4 系统聚类法3.4.2 重心法和类平均法3.4 系统聚类法3.4.2 重心法和类平均法 3.4 系统聚类法3.4.3 离差平方和法3.4 系统聚类法3.4.3 离差平方和法 3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要对研究对象进行分类聚类分析的目的是要对研究对象进行分类,因此因此,如何选择分类数成为各种聚类方法如何选择分类数成为各种聚类方法中的主要问题之一。实际应用中人们主要根据研究的目的中的主要问题之一。实际应用中人们主要根据研究的目的,从实用的角度出发从实用的角度出发,选择选择合适的分类数。德穆曼合适的分类数。德穆曼(Demirmen)(Dem
7、irmen)曾提出根据树状结构图来分类的准则。曾提出根据树状结构图来分类的准则。u准则准则1:1:任何类都必须在邻近各类中是突出的任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。即各类重心之间距离必须大。u准则准则2:2:各类所包含的元素都不应过多。各类所包含的元素都不应过多。u准则准则3:3:分类的数目应该符合使用的目的。分类的数目应该符合使用的目的。u准则准则4:4:若采用几种不同的聚类方法处理若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。则在各自的聚类图上应发现相同的类。分分类类准准则则3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要3.5 均值
8、聚类和有序样品的聚类3.5.1 均值法(快速聚类法)K-K-均值法主要思想:把每个样品聚集到其最近形心均值法主要思想:把每个样品聚集到其最近形心(均值均值)类中类中步骤:步骤:(1)(1)把样品粗略分成把样品粗略分成K K个初始类。个初始类。(2)(2)进行修改进行修改,逐个分派样品到其最近均值类中逐个分派样品到其最近均值类中(通常用标准化数据或非标准化数据计算欧氏通常用标准化数据或非标准化数据计算欧氏距离距离)。重新计算接受新样品的类和失去样品的类的形心。重新计算接受新样品的类和失去样品的类的形心(均值均值)。(3)(3)重复第重复第2 2步步,直到各类无元素进出。直到各类无元素进出。注意:
9、注意:样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。为了检验聚类的稳定性为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样来一样,则不必再行计算则不必再行计算;否则否则,须另行考虑聚类算法。须另行考虑聚类算法。3.5 均值聚类和有序样品的聚类3.5.1 均值法(快速聚类3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类 3.5 均值聚类和有序样品的聚类3.5.2 有序
10、样品的聚类3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类 3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念 3.6 模糊聚类分析3.6.2 FCM聚类方法3.6 模糊聚类分析3.6.2 F C M聚类方法 3.6 模糊聚类分析3.6.3 FCM聚类算法3.6 模糊聚类分析3.6.3 F C M聚类算法 3.7 计算步骤与上机实现系统聚类系统聚类,快速聚类快速聚类,模糊聚类用模糊聚类用R R软件操作具体步骤如下软件操作具体步骤如下:(1)分析需要研究的问题,确定聚类分析所需的多元变量;(2)选择对样品聚类还是对指标聚类;(3
11、)选择合适的聚类方法;(4)选择所需的输出结果。3.7 计算步骤与上机实现系统聚类,快速聚类,模糊聚类用R 软3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构消费结构,需将相关性强的指标归并到一起需将相关性强的指标归并到一起,这实际上就是对指标聚类。下表列出了这实际上就是
12、对指标聚类。下表列出了20162016年我国分地年我国分地区区 (不含港澳台不含港澳台)城镇居民的人均消费支出的部分原始数据城镇居民的人均消费支出的部分原始数据,数据来源于数据来源于20172017年年 中国统计年鉴中国统计年鉴。X1:X1:食品烟酒支出食品烟酒支出 X2:X2:衣着支出衣着支出 X3:X3:居住支出居住支出 X4:X4:生活用品及服务支出生活用品及服务支出X5:X5:交通通信支出交通通信支出 X6:X6:教育文化娱乐支出教育文化娱乐支出 X7:X7:医疗保健支出医疗保健支出 X8:X8:其他用品及服务支出其他用品及服务支出2016年分地区城镇居民人均消费支出年分地区城镇居民人
13、均消费支出3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、3.7 计算步骤与上机实现对对20162016年我国分地区年我国分地区 (不含港澳台不含港澳台)城镇居民的人均消费支出,我们采用欧氏距离城镇居民的人均消费支出,我们采用欧氏距离,分别分别运用类平均法运用类平均法(组间联结组间联结)、最短距离法、最长距离法、最短距离法、最长距离法,对对3131个省、直辖市、自治区分类。个省、直辖市、自治区分类。下面详细介绍使用下面详细介绍使用R R进行系统聚类的步骤。进行系统聚类的步骤。1.rm(list=ls()()2.ex3.5 dat35 rownames(dat35)round(cor
14、(dat35),),3)#相关系数矩阵相关系数矩阵16.dat35_cor dat35_cs par(mfrow=c(1,1)19.plot(dat35_cs,hang=-1)20.rect.hclust(dat35_cs,k=4)22.dat35_dist dat35_ave par(mfrow=c(1,1)26.plot(dat35_ave,hang=-1)27.rect.hclust(dat35_ave,k=3)29.dat35_sin par(mfrow=c(1,1)31.plot(dat35_sin,hang=-1)3.7 计算步骤与上机实现对2 0 1 6 年我国分地区(不含港澳3
15、.7 计算步骤与上机实现不同聚类方法的聚类结果对比表如下:不同聚类方法的聚类结果对比表如下:地区地区类平均法类标记类平均法类标记最短距离法类标记最短距离法类标记最长距离法类标记最长距离法类标记北京北京111天津天津222河北河北323山西山西323内蒙古内蒙古323辽宁辽宁323吉林吉林323黑龙江黑龙江323上海上海111江苏江苏222浙江浙江222安徽安徽323福建福建222江西江西323山东山东323河南河南323地区地区类平均法类标记类平均法类标记最短距离法类标记最短距离法类标记最长距离法类标记最长距离法类标记湖北湖北323湖南湖南323广东广东222广西广西323海南海南323重庆重
16、庆323四川四川323贵州贵州323云南云南323西藏西藏323陕西陕西323甘肃甘肃323青海青海323宁夏宁夏323新疆新疆323由上表可知由上表可知,当把所有样品分为三类时当把所有样品分为三类时,类平均法和最长距离法所得到的结果一致类平均法和最长距离法所得到的结果一致,北京北京,上海上海 为一类为一类,这两个地区的居民平均消这两个地区的居民平均消费水平最高费水平最高;天津天津,江苏江苏,浙江浙江,福建福建,广东广东 为一类为一类,这些地区的居民平均消费水平居中这些地区的居民平均消费水平居中;其余的地区为一类其余的地区为一类,居民的平均消费水平居民的平均消费水平较低。但最短距离法将北京和上海分别聚为一类较低。但最短距离法将北京和上海分别聚为一类,其余为一类其余为一类,相对不如类平均法和最长距离法得到的分类结果合理。相对不如类平均法和最长距离法得到的分类结果合理。3.7 计算步骤与上机实现不同聚类方法的聚类结果对比表如下: