1、聚类分析聚类分析 聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。素的集合。分类:分类:1、系统聚类法、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种(分层聚类)系统聚类法是应用最广泛的一种 (Hierarchical Cluster过程)过程) 1)、)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。一类。 2)、)、 分层聚类的方法可以用于样本聚类(分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类)型,也可
2、以用于变量聚类 (R型)。型)。2、非系统聚类法、非系统聚类法-(快速聚类法(快速聚类法-K-均值聚类法)(均值聚类法)(K-means Cluster)3、两步聚类法、两步聚类法-一种探索性的聚类方法(一种探索性的聚类方法(TwoStep Cluster)K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:优点: 是占内存少、计算量小、处理速度快,特别适合大样本的是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。聚类分析。缺点:缺点: 应用范围有限,要求用户制定分类
3、数目应用范围有限,要求用户制定分类数目(要告知要告知),只能对,只能对观测量(样本)观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量量必须都是连续性变量。基本原理基本原理具体做法具体做法1、按照指定的分类数目、按照指定的分类数目n,按某种方法选择某些观测量,设为,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。,作为初始聚心。2、计算每个观测量到各个聚心的欧氏距离。即、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中按就近原则将每个观测量选入一个类中,然后计算各个类的中
4、心位置,即均值,作为新的聚心。心位置,即均值,作为新的聚心。3、使用计算出来的新聚心重新进行分类,分类完毕后继续计、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。距离的倍数时,或者到达迭代次数的上限时,停止迭代。2112mkjkikjiijxxzxd数据标准化处理:数据标准化处理:存储中间过程数据存储中间过程数据数据标准化处理,
5、并存储。指定5类收敛标准值存储最终结果输出情况,在数据文件中(存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)初始聚心选项,输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表最终聚类中心表聚类结果:聚类结果:QCL-1说明聚类结果,说明聚类结果,QCL-2说明聚类的长度情况说明聚类的长度情况系统聚类法系统聚类法Hierarchical Cluster系统聚类法优点:系统聚类法优点: 既可以对观测量(样品)也可对变量进行既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。供的
6、距离计算方法和结果显示方法也很丰富。应用实例应用实例某电冰箱厂开发某一新产品,在投放市场前希望对以往经销某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内的国内6 6个地区征集对新产品的评价,若对新产品的评价指个地区征集对新产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用标有三项:式样、性能、颜色,评价的调整表采用1010分制,分制,调查结果的数据如下表调查结果的数据如下表 1 2 3 4 5 6 性能 9 1 10 9 2 8 颜色 8 2 7 9 4 6 式样 7 2 8 3 5 7 地区(样品)指标用分类法对用分类法对6 6个样品进行分类,以估计哪些地区
7、最有可能经销个样品进行分类,以估计哪些地区最有可能经销这类新产品?这类新产品?按公式计算两两样品间的相似系数,得相似矩阵按公式计算两两样品间的相似系数,得相似矩阵)()(ijijqCosQ1916. 0921. 01928. 0994. 01787. 0899. 0994. 0910. 01927. 0841. 0955. 01914. 0994. 01933. 01 1 2 3 4 5 6 123456Q =按四条原则进行分类按四条原则进行分类作聚类分析图作聚类分析图X3X6X1X4X2X510.9940.9550.9940.933一、问题提出一、问题提出聚类分析聚类分析对一批样品或指标进行
8、分类的一种统对一批样品或指标进行分类的一种统 计方法。计方法。具体处理方法:(思路)具体处理方法:(思路)1 1、具体研究的分类对象:样品或指标、具体研究的分类对象:样品或指标2 2、方法:把、方法:把“性质相似性质相似”或或“相互关系密切相互关系密切”的样品的样品或指标聚在一起。或指标聚在一起。3 3、步骤:、步骤:1 1)首先给出度量)首先给出度量“相似相似”或或“关系密切关系密切”的的统计统计指标指标 2 2)形成一个由小到大的分析系统。)形成一个由小到大的分析系统。3 3)把整个分类系统画成一张分类图)把整个分类系统画成一张分类图(3 3)相关系数)相关系数(4 4)关联系数)关联系数
9、 指标:(指标:(1 1)统计指标是相似系数。)统计指标是相似系数。 根据相似性归为一类,否则为另一类。根据相似性归为一类,否则为另一类。 (2 2)统计指标是样品(空间的点)之间的距离)统计指标是样品(空间的点)之间的距离 将距离近的点归成一类,否则为另一类。将距离近的点归成一类,否则为另一类。二、聚类统计量二、聚类统计量首先定义一些分类统计指标首先定义一些分类统计指标 刻画样或指标之刻画样或指标之间的相似程度(这些统计指标称为聚类统计量)间的相似程度(这些统计指标称为聚类统计量)在市场研究中,样品在市场研究中,样品 用作分类的事物用作分类的事物 指标指标 用来作为分类依据的变量。用来作为分
10、类依据的变量。(如:年龄、收入、销售量)(如:年龄、收入、销售量)(一)相似系数(夹角余弦)一)相似系数(夹角余弦) 一般式:假定每个样品包含有一般式:假定每个样品包含有P P项指标,若有几个样品项指标,若有几个样品的调查数据的调查数据pXXXX112111pXXXX222212npnnnXXXX21每一个样品都可看成P维空间中的一个向量对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦 ijCos来表示:Xi和Xj相重合时,夹角0ij相似程度为100CosCosijXi和Xj相互垂直时,2ij相似程度为02CosCosij相似密切解析几何知识:相似系数pkpkjkikpkjki
11、kjijiijXXXXXXXXCos11221其中:ipiiiXXXX21jpjjjXXXX2111ijCos如果把上述如果把上述n n个样品的任何两个样品的相似系数个样品的任何两个样品的相似系数),2,1,(njiCosij都计算出来并排列成一都计算出来并排列成一个矩阵:个矩阵:nnnnnnCosCosCosCosCosCosCosCosCos212222111211根据算出的根据算出的,就可对就可对n n个样品进行聚类个样品进行聚类用相似系数作为聚类统计量时的分类方法用相似系数作为聚类统计量时的分类方法1 1、分类原则:、分类原则: (1 1)若选出一对样品,在已分好的类中未出现,则形)若
12、选出一对样品,在已分好的类中未出现,则形成一个独立新类。成一个独立新类。 (2 2)若选出两个样品中,有一个是在已分好的类中出)若选出两个样品中,有一个是在已分好的类中出现过,则把另一个样品也加入到该类中去。现过,则把另一个样品也加入到该类中去。 (3 3)若选出一对样品,都分别出现已经分好的两类中,)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。则把这两个类联结在一起。 (4 4)若选出的一对样品都出现在同一组中,则这对样)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。品就不用再分组了。按上述四条原则反复进行,直到把所有样品都分类完毕,按上述四条原则反复进
13、行,直到把所有样品都分类完毕,最后以分类图形式表示最后以分类图形式表示2 2、分类方法、分类方法例:设有例:设有7 7个样品,每个样品测得个样品,每个样品测得P P个指标,数据如表个指标,数据如表 X1 X2 X3 X4 X5 X6 X7PXXX21样品指标要求对此要求对此7 7个样品进行聚类,采用的聚类统计量是个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦)相似系数(夹角余弦)pkpkjkikpkjkikjijiijXXXXXXXXCos11221首先计算所有的两个样品间的相似系数首先计算所有的两个样品间的相似系数)()(ijijqCosQ124. 016. 030. 020. 041
14、. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 081. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =按矩阵中的数值对按矩阵中的数值对7 7个样品(按四个原则)进行聚类个样品(按四个原则)进行聚类124. 016. 030. 020. 041. 024. 0152. 015. 092. 067. 020. 0174. 054. 001. 097. 0186. 091. 081. 0183. 094. 0151. 01 1 2 3 4 5 6 71234567Q =顺序 连
15、结样品 相似系数123456 X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6按矩阵中的数值对按矩阵中的数值对7 7个样品(按四个原则)进行聚类个样品(按四个原则)进行聚类1 1、记下、记下Q Q中最大值中最大值q q1515=0.97=0.97,划去,划去Q Q中的第中的第5 5行第行第5 5列列2 2、记下、记下Q Q中剩余元素最大值中剩余元素最大值q q1313=0.94=0.94,划去,划去Q Q中的第中的第3 3行第行第3 3列列行(3
16、3)记下)记下Q Q中剩余元素最大值中剩余元素最大值q q2424=0.91=0.91,划去,划去Q Q中的第中的第4 4行第行第4 4列列(4 4)记下)记下Q Q中剩余元素最大值中剩余元素最大值q q2626=0.67=0.67,划去,划去Q Q中的第中的第6 6行第行第6 6列列(5 5)记下)记下Q Q中剩余元素最大值中剩余元素最大值q q1212=0.51=0.51,划去,划去Q Q中的第中的第2 2行第行第2 2列列(6 6)记下)记下Q Q中剩余元素最大值中剩余元素最大值q q1717=0.24=0.24作聚类图:作聚类图:X1X5X3X2X4X6X70.970.940.910.
17、670.510.242 2)利用相关作聚类分析利用相关作聚类分析例:设有例:设有n n个样品,每个样品测得个样品,每个样品测得8 8个指标个指标X1X1,X2X2,X8X8。要求对。要求对8 8个指标进行聚类,聚类统计个指标进行聚类,聚类统计量采用相关系数量采用相关系数ijr22jjkiikjjkjikijXXXXXXXXr设相关矩阵设相关矩阵R = R = ( )为:)为:ijr188. 045. 049. 078. 051. 080. 038. 0149. 050. 073. 015. 068. 045. 0196. 049. 096. 053. 099. 0187. 094. 046.
18、094. 0149. 093. 045. 0157. 096. 0147. 01 1 2 3 4 5 6 7 812345678顺序 连结样品 相似系数1234567 X1 X6 0.99 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7R=按矩阵按矩阵R中数值对中数值对8个指标(按四个原则)进行聚类:个指标(按四个原则)进行聚类:1)记下矩阵中的最大值)记下矩阵中的最大值99. 016r,划去第,划去第6行第行第6列列2)记下矩阵中的最大
19、值)记下矩阵中的最大值96. 013r,划去第,划去第3行第行第3列列以此类推。以此类推。作聚类图:X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.94主要城市日照时数注:连续变量注:连续变量SPSS提供不同类间提供不同类间距离的测量方法距离的测量方法1、组间连接法、组间连接法2、组内连接法、组内连接法3、最近距离法、最近距离法4、最远距离法、最远距离法5、重心法、重心法6、中位数法、中位数法7、Ward最小偏差平最小偏差平方和法方和法观测量概述表聚类步骤,与图结合看!4、5聚类方法有系统聚类和逐步聚类,输入数据集可以是普聚类方法有系统聚类和逐步聚类,输入
20、数据集可以是普通数据集、相关矩阵(通数据集、相关矩阵(CORR过程产生)或协方差矩阵过程产生)或协方差矩阵(FACTOR等过程产生)。等过程产生)。SAS提供的聚类过程有:提供的聚类过程有:1、CLUSTER对对坐标数据或距离数据坐标数据或距离数据的观测值用的观测值用11种方种方法进行系统聚类,当法进行系统聚类,当观测值数太多时观测值数太多时,不宜直接采用。,不宜直接采用。2、FASTCLUS对于对于坐标数据坐标数据,用,用K-均值法对观测值进均值法对观测值进行逐步聚类,行逐步聚类,当观测值很多时当观测值很多时,则先用,则先用FACTCLUS过程过程对其进行初步聚类,然后再用对其进行初步聚类,
21、然后再用CLUSTER过程进行系统过程进行系统聚类。聚类。3、VARCLUS通过斜交多组分量分析对变量进行系统聚通过斜交多组分量分析对变量进行系统聚类或逐步聚类。类或逐步聚类。4、TREE为为CLUSTER或或VARCLUS过程产生的输出画过程产生的输出画树状图。树状图。CLUSTER过程过程开始每个观测值自成一类,然后求两两之间的距离,开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过程一直将距离最近的两个观测值合成一类。这个过程一直进行下去,每次减少一类,直到合成一类为止。进行下去,每次减少一类,直到合成一类为止。聚类方法有聚类方法有11种,可根据问题的性
22、质选用,它们的种,可根据问题的性质选用,它们的区别在于怎样区别在于怎样计算两类之间的距离计算两类之间的距离。METHOD=指定方法指定方法AVERAGE(平均法)、(平均法)、CENTROID(重心法)、(重心法)、COMPLETE(最大距离法)、(最大距离法)、DENSITY(密度(密度法)、法)、MEDIAM(中位数法)等(中位数法)等美国十个城市的分类美国十个城市的分类根据两个城市见航空距离将美国十个大城市作根据两个城市见航空距离将美国十个大城市作分类分类聚类分析聚类分析SAS程序:程序:原始数据是两两之原始数据是两两之间距离的三角阵间距离的三角阵(而不是坐标)(而不是坐标)输入格式输入
23、格式55列为城市列为城市15位位平均法平均法重心法重心法最小距离法最小距离法输出输出F及及t统计量统计量观测值之间距离的均方根观测值之间距离的均方根输出结果:输出结果:类数类数指出被合并的类指出被合并的类新类中的观测值数新类中的观测值数类间距离除以类间距离除以观测值间距离观测值间距离均方根得来均方根得来F、t*2峰值峰值(起伏起伏)越大越大说明分类显著说明分类显著研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型聚类分析的第几步聚类分析的第几步哪两个样本或小哪两个样本或小类聚成一类类聚成一类相应的样本距离相应的样本距离或小类距离或小
24、类距离指明是样本指明是样本(0)还还是小类是小类(n)下面第几下面第几步用到步用到垂直冰柱图垂直冰柱图显示层次聚显示层次聚类分析类分析从冰柱图最从冰柱图最后一行开始后一行开始观察,第一观察,第一列表示类数列表示类数两步聚类法两步聚类法TwoStep Cluster 一种探索性的聚类方法,是随着人工智能的发展起来的智能聚一种探索性的聚类方法,是随着人工智能的发展起来的智能聚类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分析问题。析问题。两步聚类法特点:两步聚类法特点:1、同时处理离散变量和连续变量的能力、同时处理离散变量和连续变
25、量的能力2、自动选择聚类数、自动选择聚类数3、通过预先选取样本中的部分数据构建聚类模型、通过预先选取样本中的部分数据构建聚类模型4、可以处理超大样本量的数据、可以处理超大样本量的数据简单介绍基本原理简单介绍基本原理分两步进行分两步进行第一步:预聚类。对记录进行初始的归类,用户自定义最大第一步:预聚类。对记录进行初始的归类,用户自定义最大类别数。通过构建和修改特征树(类别数。通过构建和修改特征树(CT Free)完成。)完成。第二步:正式聚类。对第一步完成的初步聚类进行再聚类并第二步:正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定聚类的确定最终的聚类方案,系统根据一定的统计标准确定聚类的类别数目。类别数目。以后,可以通过传统的聚类方法进行聚类(以后,可以通过传统的聚类方法进行聚类(SPSS中采用合中采用合并型分层聚类法)。并型分层聚类法)。输出各变量在聚类中比重图输出出聚类饼分图每个变量做一张条图每一各类别做两张,分别为连续与离散聚类重要性测度1、质心表和频数表2、聚类分析表3、自动聚类结果表聚类数目数值越小效果越好BIC相邻两项差值看数据的峰值,看聚类效果。4、8、10、14类。BIC准则-Schwartz Bayesian Criterion离散变量频数表的图形表示连续变量在各个类别中的误差图4个类别中离散变量重要性图