1、第四章聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。分类问题是各个学科领域都普遍存在的问题,例如人口学中研究人口生育分类模式、人口死亡分类模式,医学中对各种精神病特征的分析,市场营销学中进行市场分层、确定目标市场等等,这些都需要对研究对象进行分类。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。课外链接 聚类分析在市场细分中的应用 https:/ 一般来说,聚类分析至少都应该包括以下四个步骤:第一步,根据研究的目的选择合适的聚类变量;第二步,计算相似性测度;第三步,选定聚类方法进行
2、聚类;第四步,对结果进行解释和验证。(一)选择变量 因为聚类分析是根据所选定的变量对研究对象进行分类,聚类的结果仅仅反映了所选定变量所定义的数据结构,所以变量的选择在聚类分析中非常重要。一般来说,选择哪些变量应该具有一定的理论支持,但实践中往往缺乏这样强有力的理论基础,研究者一般是根据实际工作经验和所研究问题的特征人为地选择一些变量。(二)计算相似性 选定了聚类变量,下一步就是计算研究对象之间的相似性。相似性是聚类分析中的一个基本概念,它反映了研究对象之间的亲疏程度,聚类分析就是根据研究对象之间的相似性来进行分类的。有很多种相似性测度,关于它们的计算和使用,我们将在后面详述。(三)聚类 选定了
3、聚类变量、计算出相似性矩阵之后,下一步就是要对研究对象进行分类。这时主要涉及两个问题:一是选定聚类方法,二是确定形成的类数。我们将在第三节介绍常用的聚类方法和如何确定形成的类数。(四)聚类结果的解释和证实 得到聚类结果后,还应该对结果进行验证和解释,以保证聚类解是可信的。二、相似性测度 在聚类分析技术的发展过程中,形成了很多种测度相似性的方法。每一种方法都从不同的角度测度了研究对象的相似性,主要分为以下三类:()相关测度;()距离测度;()关联测度。其中相关测度和距离测度适用于间距测度等级及以上的数据,关联测度适用于名义测度和序次测度的数据。(一)相关测度 应用最广泛的相关测度是皮尔逊相关系数
4、,即简单相关系数。它最初用来测度变量之间的相关程度,聚类分析中用它来测度案例之间的相似程度。(二)距离测度 距离测度的出发点是把每个案例看作m维空间(m为变量个数)中的一个点,在犿维空间中定义点与点之间的距离。距离越近的点,相似程度越高,聚类时更可能归为一类。如果两个案例在所有的变量上的值都相同,这两个点在m维空间中应该重合,两个点之间的距离为。(三)关联测度 关联测度用来度量聚类变量为分类变量的研究对象的相似性。有很多种关联测度系数,其中只有三种得到了广泛的应用,它们分别是简单匹配系数、和系数。(四)数据的标准化问题 前面介绍的大部分相似测度,特别是距离测度,受聚类变量测量单位的影响很大。其
5、中数量级单位大的变量往往其变差也大,它对相似测度的贡献占主导地位,这样就可能掩盖了其他变差小的变量的影响。另外,当变量的测量单位变化时,相似测度的值也随之改变,有可能改变最终的聚类结果。为了克服变量测量单位的影响,在计算相似测度之前,一般对变量要做标准化处理。通常是把变量变成均值为、方差为的标准化变量。常用的聚类分析软件中都有这项功能,可以自动完成。三、聚类方法 有很多种聚类方法,应用最广泛的有两类:层次聚类法和迭代聚类法。(一)层次聚类法 有两种层次聚类法:聚集法和分解法。聚集法是首先把每个案例各自看成一类,先把距离最近的两类合并,然后重新计算类与类之间的距离,再把距离最近的两类合并,每一步
6、减少一类,这个过程一直持续到所有的案例归为一类为止。分解法和聚集法的过程相反,首先把所有的案例归为一类,然后把最不相似的案例分为两类,每一步增加一类,直到每个案例都自成一类为止。分解法和聚集法相似,只是过程相反。所以,这里我们只介绍常用的层次聚集算法。层次聚集法是聚类分析中应用最广泛的聚类方法,层次聚集法的聚类过程可以用一个树状表示出来,根据该树状结构图可进行不同的分类处理。(二)迭代聚类法 层次聚类法在聚类过程中需要存储距离矩阵,并且在每一步的并类过程中都需要做很多计算。这样,当样本量很大时会需要较大的计算机内存空间和较长的计算时间。迭代聚类法克服了层次聚类法的这两个缺点,具有占计算机内存空
7、间小、速度快的优点,适用于大样本的聚类分析。(三)分类数的确定 到目前为止,我们还没有讨论过如何确定分类数,聚类分析的目的是要对研究对象进行分类,因此如何选择分类数成为各种聚类方法中的主要问题之一。在迭代聚类法中,聚类之前需要指定分类数,层次聚类法中我们最终得到的只是一个树状结构图,从图中可以看出存在很多不同的类,但问题是如何确定类的最佳个数。(四)聚类方法的选择 因为不同的聚类方法对于同一数据会得出不同的聚类结果,那么如何从众多的聚类方法中进行选择呢?遗憾的是对这一问题并没有明确的答案,因为并不存在一种总是最优的聚类方法。很多对聚类方法的比较研究表明,某种聚类方法是否能发现真实的数据结构,受
8、很多因素的影响,至少以下四个因素会大大影响聚类方法的使用效果:()类的结构(主要指类的形状、规模和个数)。()异常值()的存在。()类与类之间重叠的程度。()相似测度的选择。四、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助于各种描述性统计量进行分析,通常做法是计算各个类在各聚类变量上的均值,对均值进行比较分析,还可以使用聚类变量之外的其他变量,帮助描述各个类的特征,解释各个类差别的原因。五、使用spss软件进行聚类分析(一)Hierarchical Cluster 指定参与聚类的变量 指定聚类对象进行变量聚类 指定聚类方法
9、选择要输出的统计量 选择要输出的统计图表 生成新变量(二)K-Means Cluster 指定聚类变量 确定分类数 引用和存放聚类平均值 迭代设置 备选项目 备选项目基本概念 聚类对象 聚类变量 对案例聚类 相似性 相关测度 距离测度 关联测度 数据标准 化 层次聚类法 聚集法 分解法 树状图 类别距离测量法 聚类进度表 冰柱图 迭代聚 类法 初始聚类中心 最终聚类中心 聚合系数 类别归属 距所属类中心的距离本章要点 聚类分析是应用最广泛的分类技术。它根据研究对象之间的相似性对研究对象进行分类。聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。选择合适的聚类变量在分析中至关重要。选择这
10、些变量的要求是:各聚类分析的目标密切相关,反映要分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不存在高度相关。应该根据变量的测度等级选择合适的相似性测度。相关测度和距离测度适用于间距测度及以上的数据,关联测度适用于名义测度和序次测度的数据。每一种聚类方法各有特点。层次聚类法只能单方向进行聚类,聚类结果受数据中异常值的影响很大。迭代聚类法初始分类非常敏感,通常也只能得到局部最优解。把这两种方法结合起来使用,可以取长补短。参考文献 冯立天,戴星翼中国人口生活质量再研究北京:高等教育出版社,罗积玉,邢瑛经济统计分析方法及预测北京:清华大学出版社,卢纹岱,朱一力,沙捷,朱红兵从入门到精通北京:电子工业出版社,张风雨,楚军红等译系统用户指南北京:北京大学人口研究所,