1、2022-6-22中国人民大学六西格玛质量管理研究中心1多元统计分析多元统计分析何晓群何晓群中国人民大学出版社中国人民大学出版社2022-6-22中国人民大学六西格玛质量管理研究中心2第三章第三章 聚类分析聚类分析 3.1 3.1 聚类分析的思想聚类分析的思想 3.2 3.2 相似性度量相似性度量 3.3 3.3 类和类的特征类和类的特征 3 3.4 .4 系统聚类法系统聚类法 3 3.5 .5 模糊聚类分析模糊聚类分析 3 3.6 K-.6 K-均值聚类和有序样本聚类均值聚类和有序样本聚类 3 3.7 .7 计算步骤与上机实现计算步骤与上机实现 3 3.8 .8 社会经济案例研究社会经济案例
2、研究2022-6-22中国人民大学六西格玛质量管理研究中心3第三章第三章 聚类分析聚类分析 人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。 为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。
3、 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心43.1 3.1 聚类分析的思想聚类分析的思想 3.1.1 导言 在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心53.1 3.1
4、 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指
5、标)间的亲疏关系表示出来。2022-6-22中国人民大学六西格玛质量管理研究中心63.1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。 2022-6-22中国人民大学六西格玛质量管理研究中心73.1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引
6、进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。 对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。 与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 2022-6-22中国人民大学六西格玛质量管理研究中心83.1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 3.1.2 3.1.2 聚类的目的聚类的目的 在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品
7、(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。 【例3.1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 2022-6-22中国人民大学六西格玛质量管理研究中心93.1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心103.
8、1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 例3.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度 间隔尺度。变量用连续的量来表示。 有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。 名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。 不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。2022-6-22中国人民大学六西格玛质量管理研究中心113.1 3.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 聚
9、类分析根据实际的需要可能有两个方向,一是对样品(如例3.1中的户主),一是对指标聚类。 第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在3.2中,我们将给类一些待探讨的定义。 聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1) 系统聚类法。(2)模糊聚类法。(3) K-均值法。(4) 有序样品的聚类。(5) 分解法。(6) 加入法。2022-6-22中国人民大学六西格玛质量管理研究中心123.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 从一组复杂数据产生一个相当简单的类结
10、构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。 当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。 2022-6-22中国人民大学六西格玛质量管理研究中心133.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心143.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2022-6-22中国
11、人民大学六西格玛质量管理研究中心153.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心163.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 (1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。(2)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。 2022-6-22中国人民大学六西格玛质量管理研究中心173.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2
12、022-6-22中国人民大学六西格玛质量管理研究中心183.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心193.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。2022-6-22中国人民大学六西格玛质量管理研究中心203.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 定义距离的较灵活的思想方法。 【例3.3】 欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们
13、数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,10的拼法,希望计算这11种语言之间的距离。2022-6-22中国人民大学六西格玛质量管理研究中心213.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 显然,此例无法直接用上述公式来计算距离,仔细观察表3.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一个字母不同,故它们之间的距离为2。十一种语言
14、之间两两的距离列于表3.4中。 2022-6-22中国人民大学六西格玛质量管理研究中心223.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心233.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 对于间隔尺度,常用的相似系数有:(1) 夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。2022-6-22中国人民大学六西格玛质量管理研究中心243.2 3.2 相似性度量相似性度
15、量 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心253.2 3.2 相似性度量相似性度量 目录 上页 下页 返回 结束 (2) 相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化,2022-6-22中国人民大学六西格玛质量管理研究中心26 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。下面给出类的适用于不同的场合几个定
16、义。2022-6-22中国人民大学六西格玛质量管理研究中心27 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心28 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 易见,定义3.1的要求是最高的,凡符合它的类,一定也是后三种定义的类。此外,凡符合定义3.2的类,也一定是定义3.3的类。2022-6-22中国人民大学六西格玛质量管理研究中心29 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心30 3.3 3.3 类
17、和类的特征类和类的特征 目录 上页 下页 返回 结束 在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。 2022-6-22中国人民大学六西格玛质量管理研究中心31 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 (1) 最短距离法。(nearest neighbor或single linkage method) 2022-6-22中国人民大学六西格玛质量管理研究中心32 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 (2) 最长距离法(farthest neigh
18、bor或complete linkage method)。2022-6-22中国人民大学六西格玛质量管理研究中心33 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 (3) 类平均法(group average method)。 2022-6-22中国人民大学六西格玛质量管理研究中心34 3.3 3.3 类和类的特征类和类的特征 目录 上页 下页 返回 结束 (4) 重心法(Centroid method)。 (5) 离差平方和法(Sum of Squares method)。 2( , )wp qpqDp qDDD2022-6-22中国人民大学六西格玛质量管理研究中心
19、353.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤: 2022-6-22中国人民大学六西格玛质量管理研究中心363.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。【例3.4】 为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3.5。资料来源10 2022-6-22中国人民大学六
20、西格玛质量管理研究中心373.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心383.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 3.4.1 最短距离法和最长距离法 所谓最短距离法就是类与类之间的距离采用(3.12)的系统聚类方法。 2022-6-22中国人民大学六西格玛质量管理研究中心393.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心403.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人
21、民大学六西格玛质量管理研究中心413.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心423.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心433.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 所谓最长距离法是类与类之间的距离采用(3.13)的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。 上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。2022-6-22
22、中国人民大学六西格玛质量管理研究中心443.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离应使用公式(3.19)。最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。2022-6-22中国人民大学六西格玛质量管理研究中心453.4 3.4 系统
23、聚类法系统聚类法 目录 上页 下页 返回 结束 最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。本例中最短距离法与最长距离法得到的结果是相同的。 2022-6-22中国人民大学六西格玛质量管理研究中心463.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 3.4.2 重心法和类平均法从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。2022-6-22中国人民大学六西格玛质量管理研究中心473.4 3.4 系统聚类法系统聚类法 目录 上页 下页
24、 返回 结束 重心法虽有很好的代表性,但并未充分利用各样本的信息,有人建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,即类平均法。类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groups linkage),另一种是组内联结法(Within-groups linkage)。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。2022-6-22中国人民大学六西格玛质量管理研究中心483.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-2
25、2中国人民大学六西格玛质量管理研究中心493.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 3.4.3 离差平方和法(或称Ward方法)离差平方和方法是由Ward提出来的,许多资料上称做Ward法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 2022-6-22中国人民大学六西格玛质量管理研究中心503.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心513.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 离差平方和法放弃了在一切分类
26、中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,Ward法就是找局部最优解的一个方法。其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。 2022-6-22中国人民大学六西格玛质量管理研究中心523.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 3.4.4 分类数的确定如何选择分类数是各种聚类方法中的主要问题之一。在K均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。确定分类数的问
27、题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。2022-6-22中国人民大学六西格玛质量管理研究中心533.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 Demir-men曾提出了根据树状结构图来分类的准则:准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。准则2:各类所包含的元素都不要过分地多。准则3:分类的数目应该符合使用的目的。准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发
28、现相同的类。系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。 如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。 2022-6-22中国人民大学六西格玛质量管理研究中心543.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 3.4.5 系统聚类法的统一上面介绍的五种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间
29、的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。Lance和Williams于1967年给出了一个统一的公式2022-6-22中国人民大学六西格玛质量管理研究中心553.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。 .2022-6-22中国人民大学六西格玛质量管理研究中心563.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 由于上述的聚类方法得到的结果是不完全相同的。于是产生一个
30、问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。 2022-6-22中国人民大学六西格玛质量管理研究中心573.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心583.4 3.4 系统聚类法系统聚类法 目录 上页 下页 返回 结束 关系统聚类法的性质,还可从其他角度提出了比较优与劣的原则。将n个样品,欲分为k类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解,在某些条件下,最短距离法的解是最优的,而系统聚类法的其他方法都不具有这个性质(参见6、7),故最短距离法在
31、实际中也很被推崇。系统聚类法的各种方法的比较仍是值得研究的一个课题,例如,有人用随机模拟作了研究,发现最长距离法不可取。 2022-6-22中国人民大学六西格玛质量管理研究中心59 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 模糊集的理论是二十世纪六十年代中期美国的自动控制专家查德(L.A.Zadeh)教授首先提出的。模糊集的理论已广泛应用于许多领域,将模糊集概念用到聚类分析中便产生了模糊聚类分析。3.5.1 模糊聚类的几个基本概念 1.特征函数 2022-6-22中国人民大学六西格玛质量管理研究中心60 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页
32、返回 结束 2. 隶属函数隶属函数。 当我们要了解某企业完成年计划利润程度的大小时,仅用特征函数就不够了。模糊数学把它推广到0,1闭区间,即用0和1之间的一个数去度量它。这个数就叫隶属度。当用函数来表示隶属度的变化规律时,就叫做隶属函数。 3. 模糊矩阵的运算法则。 2022-6-22中国人民大学六西格玛质量管理研究中心61 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 3.5.2 模糊分类关系1.乘积空间 2.分类关系 2022-6-22中国人民大学六西格玛质量管理研究中心62 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 模糊聚类分析的实
33、质就是根据研究对象本身的属性而构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。2022-6-22中国人民大学六西格玛质量管理研究中心63 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心64 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心65 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 3.5.3 模糊聚类分析计算步骤1.对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。2022-6
34、-22中国人民大学六西格玛质量管理研究中心66 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心67 3.5 3.5 模糊聚类分析模糊聚类分析 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心68 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 3.6.1 K-均值法(快速聚类法)非谱系聚类法是把样品(而不是变量)聚集成K个类的集合。类的个数K可以预先给定,或者在聚类过程中确定。非谱系方法可应用于比系统聚类法大得多的数据组。非谱系聚
35、类法或者一开始就对元素分组,或者从一个构成各类核心的“种子”集合开始。选择好的初始构形,将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。2022-6-22中国人民大学六西格玛质量管理研究中心69 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 K-均值法, 又叫快速聚类法,是Macqueen于1967年提出的,其思想是把每个样品聚集到其最近形心(均值)类中去。在它的最简单说明中,这个过程由下列三步所组成:把样品粗略分成K个初始类;进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准
36、化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值);重复第2步,直到各类无元素进出。2022-6-22中国人民大学六西格玛质量管理研究中心70 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 若不在一开始就粗略地把样品分到K个预先指定的类(第1步),那我们也可以指定K个最初形心(种子点),然后进行第2步。样品的最终聚类在某种程度上依赖于最初的划分,或种子点的选择。为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。见11 2022-6-22中国人民
37、大学六西格玛质量管理研究中心71 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 3.6.2 有序样品的聚类在前几节的讨论中,分类的样品是相互独立的,分类时彼此是平等的。但在有些实际问题中,要研究的现象与时间的顺序密切相关。例如我们想要研究,从1949年到2003年以来,国民收入可以划分为几个阶段,阶段的划分必须以年份顺序为依据,总的想法是要将国民收入接近的年份划分到一个段内,要完成类似这样的问题的研究,用前几节分类的方法显然是不行了。2022-6-22中国人民大学六西格玛质量管理研究中心72 3.6 K- K-均值聚类和有序样品的聚类均值聚类
38、和有序样品的聚类 目录 上页 下页 返回 结束 对于这类有序样品的分类,实质上是需要找出一些分点,将它们划分成几个分段,每个分段看作一类,称这种分类为分割。显然,分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点,使达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小,而各段之间样品的差异最大。这就是决定分割点的依据。2022-6-22中国人民大学六西格玛质量管理研究中心73 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 1 1、可能的分类数目、可能的分类数目2022-6-22中国人民大学六西格玛质量管理研究中心74
39、3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 2、最优分割法 2022-6-22中国人民大学六西格玛质量管理研究中心75 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心76 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心77 3.6 K- K-均值聚类和有序样品的聚类均值聚类和有序样品的聚类 目录 上页 下页 返回 结束 2022-6
40、-22中国人民大学六西格玛质量管理研究中心783.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 本书以SPSS15.0和S-Plus2000两种软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下:分析所需要研究的问题,确定聚类分析所需要的多元变量;选择对样品聚类还是对指标聚类;选择合适的聚类方法;选择所需的输出结果。我们将实现过程用逻辑框图表示为图3.8。 2022-6-22中国人民大学六西格玛质量管理研究中心793.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心803
41、.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 3.7.1 系统聚类法用SPSS软件自带的数据文件World95.sav来做一个实例分析。为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在World95.sav数据中筛选出亚洲国家,使用DataSelect CasesIf condition is satisfied中选入region=3)。详细步骤如下:(1) 打开数据。使用菜单中FileOpen命令,然后选中要分析的数据World95.sav。2022-6-22中国人民大学六西格玛质量管理研究中心813.7
42、 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 (2)在菜单中的选项中选择AnalyzeClassify命令,Classify命令下有两个聚类分析命令,一是K-means cluster(K-均值聚类),二是Hierarchical cluster(系统聚类法)。这里我们选择系统聚类法。(3) 在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。(4) Display下面有两个选项,分别是Statistics (统计量)、Plots(输出图形),我们可以选择所
43、需要输出的统计量和图形。 2022-6-22中国人民大学六西格玛质量管理研究中心823.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster membership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution
44、指定类的个数的范围(如从分3类到分5类)。(b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。(c)在Method中, Cluster可以选择聚类方法,Measure中可以选择计算的距离。(d)在Save中,可以选择保存聚类结果。 选好每个选项后,点“OK”就可以执行了。 2022-6-22中国人民大学六西格玛质量管理研究中心833.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 在这个数据文件中,我们选择的变量(Va
45、riables(s)有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-gro
46、up linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: 2022-6-22中国人民大学六西格玛质量管理研究中心843.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心853.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心863.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. 2
47、022-6-22中国人民大学六西格玛质量管理研究中心873.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 2022-6-22中国人民大学六西格玛质量管理研究中心883.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束 输出结果中,表3.9表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它
48、们最先聚为一类。图3.9是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。 2022-6-22中国人民大学六西格玛质量管理研究中心893.7 3.7 计算步骤与上机实践计算步骤与上机实
49、践 目录 上页 下页 返回 结束 表3.10是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品Bangladesh(孟加拉国)与第三个样品Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。图3.10是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类数也符合我们分类的目的。2022-6-22中国人民大学六西格玛质量管理研究中心903.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页
50、返回 结束 图3.11是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦;2:香港、新加坡、日本;3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。 2022-6-22中国人民大学六西格玛质量管理研究中心913.7 3.7 计算步骤与上机实践计算步骤与上机实践 目录 上页 下页 返回 结束