11-聚类分析-PPT课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

11-聚类分析-PPT课件.ppt

1、111. 聚类分析211.2 层次聚类法优缺点优点可对变量（样品）或记录进行聚类变量可为连续或分类变量提供了丰富的距离测量方法和结果表示方法（树状图）缺点由于它要反复计算距离，所以当样本量太大或变量较多时，其运算速度明显较慢。311.2 层次聚类法类间距离的定义不同的类间距离的定义，构成了不同的层次聚类方法Between-groups linkage（组间平均距离法、类平均法）用两个类别间各个数据点两两间的距离的平均来表示两个类别间的距离Within-groups linkageNearest neighbor（最短距离法）用两个类别间各个数据点间的最短的距离来表示两个类别间的距离4

2、11.2 层次聚类法Furthest neighbor（最长距离法）Centroid clustering（重心法）用两个类别的重心间的距离来表示两个类别间的距离Median clustering（中位数法）Wards method（离差平方和法）思想来自方差分析使类中的离差平方和较小，而类间的离差平方和较大基本操作 Analyze Classify Hierarchical Cluster511.2 层次聚类法输入参与输入参与层次聚类层次聚类的变量的变量输入标输入标记变量记变量选择聚选择聚类类型类类型Q型聚类R型聚类输出聚类分析的凝聚状态表输出个体间的距离矩阵不输出样本所属类指定输出当

3、分成n类时各样本所属类，是单一解指定输出当分成m至n类时（mn）各样本所属类，是多个解611.2 层次聚类法输出树形图（谱系图）输出冰挂图，没前者好输出每个阶段的冰挂图输出某个阶段的冰挂图，输入从第几步开始，到第几步结束，中间间隔几步纵向横向指定如何显示冰挂图选择计算个体与小类、小类与小类间距离的方法，多次尝试后的结果选择不同变量类型下个体距离的计算方法连续型定距变量计数型变量二值变量选择消除变量数量级差异的方法，并指定是针对变量还是针对样本711.2 层次聚类法Z scores：计算Z分数。将各变量值减去均值后除以标准差，标准化后变量值的均值为0，标准差为1；Range -1 to 1：将各

4、变量值除以全距，处理后的变量值位于-1+1。适用于变量值中有负值的变量；Range 0 to 1：将各变量值减去最小值后除以全距，处理后的变量值的范围为0+1；Maximum magnitude of 1：将各变量值除以最大值，处理后的变量值的最大值为1；Mean of 1：将各变量值除以均值；Standard deviation of 1：将各变量值除以标准差。Save将聚类分析的结果以变量的形式保存到数据编辑窗口。生成的变量名为clun_m，其中n表类数，m表第m次分析。不同的距离计算方法会产生不同的聚类分析结果。实际中应反复尝试以最终得到符合实际的合理解。811.2 层次聚类法例11.1

5、现搜集了02年中国部分省市的国民经济数据，希望将这些省份归类，从而更好地了解各地区生活水平的差异。数据的初步分析5个指标的数量级各不相同，均值100.82 9377.11，标准差1.39 7165.65，表明量纲间很强的差异性。Descriptive StatisticsDescriptive Statistics312895.2937382.009377.10577165.6461531262.509405.504080.82262643.68482313894.519336.105367.76811445.44846311098.394753.231828.8500819.933643

6、198.50104.00100.80321.3941531人均GDP人口数城镇居民家庭平均每人全年消费性支出农村居民家庭平均每人生活消费支出各地区居民消费价格指数Valid N (listwise)NMinimumMaximumMeanStd. Deviation911.2 层次聚类法需要标准化。从条形图可知，前4个变量地区间取值的差异较大，各地区居民消费价格指数的取值差异很小。1011.2 层次聚类法1111.2 层次聚类法1211.2 层次聚类法1311.2 层次聚类法1411.2 层次聚类法 Pindex _ Revise = 各地区居民消费价格指数-100 反映了消费价格当年净增长的

7、百分点，使得CPI在各省市的分布有着明显的差异。聚类1511.2 层次聚类法Agglomeration ScheduleAgglomeration Schedule317.111002312.246101557.40700458.62430132027.857001129301.121002028311.39000204141.666001015232.10200144252.751802120243.419501220224.16711019565.010401915166.12790233187.428201821268.8130021111910.248002231012.010150

8、2352013.835131225282916.130762742118.530101625111321.2981702831524.6201814291228.41200264532.9282119271941.6662402842854.44125202911168.9722622303487.75723273013150.00028290Stage表示聚类的第几步123456789101112131415161718192021222324252627282930Cluster 1Cluster 2Cluster Combined表示本步聚类中哪两个样本或小类聚成一类Coefficien

9、ts表示个体或小类距离Cluster 1Cluster 2Stage Cluster First Appears表示本步参与聚类的是个体（0）还是小类（n表示由第n步聚类生成的小类）Next Stage表示本步聚类结果将在以下第几步中用到1611.2 层次聚类法Agglomeration Schedule （凝聚状态表）第一步中，第3个样本（河北）和第17个样本（湖北）首先合并，其平方欧氏距离为0.111，该小类将在第2步用到；第二步中，第一步聚成的小类（用该小类中第一个样本的记号3表示）和第12个样本（安徽）合并，其Ward距离为0.246，该小类将在第15步用到。Dendrogram

10、（树状图、谱系图）最终类数的确定1711.2 层次聚类法原则各类的重心间距离应较大各类所包含的个体数不应过多分类数目应符合分析的目的方法距离类数散点图（距离由凝聚状态表获得）由下图知，随着类的不断凝聚、类数目的不断减少，类间距离在逐渐增大。在聚成6类之前，类间距离增大的幅度较小，形成极为“陡峭的山峰”，但到3类后，类间的距离迅速增大，形成极为“平坦的碎石路”。1811.2 层次聚类法根据类间距离小形成类的相似性大，类间距离大形成类的相似性小的原则，可找到“山脚”下的“拐点”碎石，将它作为确定分类数目的参考。所以，本例可考虑聚成2类 6类，综合考虑分成5类较合适（类不大也不小，

11、Frequency）。1911.2 层次聚类法Ward Method (6)Ward Method (6)26.56.56.5825.825.832.31341.941.974.213.23.277.439.79.787.1412.912.9100.031100.0100.0123456TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (5)Ward Method (5)39.79.79.7825.825.835.51341.941.977.439.79.787.1412.912.9100.031100.01

12、00.012345TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (4)Ward Method (4)39.79.79.7825.825.835.51754.854.890.339.79.7100.031100.0100.01234TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (3)Ward Method (3)619.419.419.4825.825.845.21754.854.8100.031100.0100.01

13、23TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (2)Ward Method (2)619.419.419.42580.680.6100.031100.0100.012TotalValidFrequencyPercentValid PercentCumulativePercentWard Method (7)Ward Method (7)26.56.56.5825.825.832.3516.116.148.4825.825.874.213.23.277.439.79.787.1412.912.9100.

14、031100.0100.01234567TotalValidFrequencyPercentValid PercentCumulativePercent2011.2 层次聚类法最终类差异的显著性判断（Means）各类别在5个变量上差异显著ReportReportMean27686.481343.00008415.34673452.06201.43337751.29917468.06254927.48751704.3075.72506286.35353143.61544694.00311447.7899.369213582.315437.66677355.71002895.1985-.7333

15、5787.73071388.00004661.42501299.21023.05009377.10574080.82265367.76811828.8500.8032Ward Method (5)12345Total人均GDP人口数城镇居民家庭平均每人全年消费性支出农村居民家庭平均每人生活消费支出各地区居民消费价格指数-100ANOVA TableANOVA Table1E+0094313904198.628.659.0003E+0082610952990.302E+009302E+008440055267.0821.060.00049451015261901962.1142E+0083049

16、166874412291718.4223.651.0001351276426519721.69262679638301444959743612399.19416.422.000571913926219966.868201687353030.96447.7417.360.00027.346261.05258.31030(Combined)Between GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal(Combined)Betwe

17、en GroupsWithin GroupsTotal(Combined)Between GroupsWithin GroupsTotal人均GDP * Ward Method (5)人口数 * Ward Method (5)城镇居民家庭平均每人全年消费性支出 *Ward Method (5)农村居民家庭平均每人生活消费支出 *Ward Method (5)各地区居民消费价格指数-100 * WardMethod (5)Sum ofSquaresdfMean SquareFSig.2111.2 层次聚类法最终类的特征描述第一类高生活水平省市上海、北京、天津等3个直辖市；人均GDP、城镇

18、居民和农村居民家庭平均每人全年消费支出远高于其它类别。第二类人口最多、生活水平一般省市河北、湖北、安徽、湖南、江苏、山东、四川、河南等8省市；平均人口远高于其它类别。2211.2 层次聚类法第三类人口较少、生活水平一般省市广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市。第四类生活水平较高，平均物价水平降低的省市浙江、广东、福建等3省市第五类人口稀少、生活水平低的省市青海、宁夏、甘肃、新疆等4省市2311.2 层次聚类法例11.2 现有7国裁判员以及热心观众分别给300名运动员的平均打分的数据，试分析各裁判员的打分标准是否有相似性。

19、R型聚类分析Vertical IcicleVertical IcicleXXXXXXXXXXXXXXXX XXXXXXXXXXXXXX XXXXX XXXXXXXX XXXXX XXXXX XX XXXXX X XXX XX X XXX X XXX XX X XXX X X X XNumber of clusters1234567热心观众美国法国韩国俄罗斯中国罗马尼亚意大利Case2411.2 层次聚类法由冰柱图知，韩国和法国裁判员的打分相似性最强；其次是中国和罗马尼亚。若聚成3类，则热心观众自成一类，美国、法国、韩国一类，俄罗斯、中国、罗马尼亚、意大利一类。若要从上述裁判中选

20、出3名具有代表性的裁判，则应从上述三类中各选一名代表。即计算决定系数，选择其最大的作为代表。所以可从热心观众、韩国、俄罗斯中各选一名代表。Model Summary（韩国）Model Summary（韩国）.949a.901.900.25927Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 美国, 法国a. Model Summary（法国）Model Summary（法国）.944a.891.890.22461Model1RR SquareAdjustedR SquareStd

21、. Error ofthe EstimatePredictors: (Constant), 韩国, 美国a. Model Summary（美国）Model Summary（美国）.930a.865.864.35351Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 法国, 韩国a. 2511.2 层次聚类法Model Summary（意大利）Model Summary（意大利）.929a.863.862.32229Model1RR SquareAdjustedR SquareStd.

22、Error ofthe EstimatePredictors: (Constant), 罗马尼亚, 中国, 俄罗斯a. Model Summary（罗马尼亚）Model Summary（罗马尼亚）.948a.898.897.26213Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 意大利, 中国, 俄罗斯a. Model Summary（中国）Model Summary（中国）.945a.893.892.22184Model1RR SquareAdjustedR SquareStd.

23、 Error ofthe EstimatePredictors: (Constant), 罗马尼亚, 意大利, 俄罗斯a. Model Summary（俄罗斯）Model Summary（俄罗斯）.951a.904.903.30433Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 中国, 意大利, 罗马尼亚a. 2611.3 K-均值聚类法基本思想分析前首先确定具体的类别数，整个分析过程使用迭代的方式进行；然后起步于一个初始的分类，通过不断的迭代把数据在不同类别间移动，直到最后达

24、到一定的标准为止。整个计算过程中不需要存储基本数据或者距离矩阵，因此不会出现多个互相嵌套的聚类结果，而计算速度也要快得多。2711.3 K-均值聚类法K-Means聚类法的优缺点优点速度明显快于层次聚类，被称为快速聚类法。事先指定了类别数（远远小于样本数）计算量小，能有效处理多变量、大样本数据；能将以前的聚类分析结果作为初始位置引入分析，这在有前人工作可借鉴时非常有用。缺点用户必须事先知道需要将样品分为多少类2811.3 K-均值聚类法只能对样本聚类，而不能对变量聚类所使用的变量必须是连续变量基本操作 Analyze Classify K-Means Cluster输入参与聚输入参与聚

25、类的变量类的变量输入标输入标记变量记变量指定聚类数目用户自行指定类中心点指定是否调整类中心点：Iterate and classify表示每一步都重新确定类中心点；Classify only表示聚类过程中类中心点始终为初始类中心点。确定终止确定终止聚类条件聚类条件2911.3 K-均值聚类法输入最大迭代次数输入收敛标准选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点，此时类中心点与样本分配的前后顺序有关；不选中表示只有当完成了所有样本的类分配后再计算类中心，该方式可节省运算时间。保存样本所属类的类号保存样本距各自类中心点的距离输出初始类中心点分析聚类结果中各类别是否有显著差异以及各

26、个变量对聚类结果的重要程度。输出样本分类信息及距所属中心点的距离3011.3 K-均值聚类法例11.3 试对移动用户进行细分，以了解他们不同的手机消费习惯。根据前期调研，研究者认为移动用户应当被分为5个主要群体，现希望得到相应的定量聚类结果。数据的初步分析Descriptive StatisticsDescriptive Statistics33955.772846.40708.3469515.2579933953.201058.40301.8049195.331523395.66205.0054.164935.261093395.011014.82172.3492146.683423395

27、54.813423.301064.3168560.801333395.6353.584.12673.804003395工作日上班时期电话时长工作日下班时期电话时长周末电话时长国际电话时长总通话时长平均每次通话时长Valid N (listwise)NMinimumMaximumMeanStd. Deviation3111.3 K-均值聚类法虽然数据的量纲一致，都是反映通话时长的数据，但数据取值有很大差异。均值从4.12671064.3168，标准差从3.804560.801需要标准化。快速聚类Initial Cluster CentersInitial Cluster CentersIni

28、tial Cluster Centers3.21791-1.161652.64849.197291.93001-.65276-1.26557-1.030583.87339-.172043.721813.11491-.02169-.90652-1.212814.90995-1.16636.293902.77257.532522.96323-1.312262.073081.473401.63709-.51651.307605.49282-.2279212.99993Zscore: 工作日上班时期电话时长Zscore: 工作日下班时期电话时长Zscore: 周末电话时长Zscore: 国际电话时长Z

29、score: 总通话时长Zscore: 平均每次通话时长12345Cluster 若由SPSS自动生成初始类中心，则中心点与样本的排列顺序有关，因此要尽量避免样本出现有规律的排列，必要时可用随机数排序来打乱顺序。3211.3 K-均值聚类法Iteration HistoryIteration Historya a3.8943.4503.2013.6053.458.829.207.725.3121.943.374.127.457.262.964.208.100.330.206.504.156.060.219.141.421.116.047.168.116.337.104.041.164.105.

30、134.110.035.140.111.188.077.028.105.101.081.069.022.117.082.057.054.020.148.079.000.028.030.198.054.063.063.055.309.044.119.105.077.363.058.263.126.074.276.068.193.118.029.140.048.152.072.016.108.049.172.046.008.080.053.087.037.011.076.050.083.034.010.055.036.113.020.009.051.036.113.017.008.028.016.

31、115.026.006.026.014.000.010.004.032.023.000.010.004.020.015.000.009.004.013.009.053.006.002.006.007.000.000.004.004.009.000.000.003.006.006.000.000.000.010.010.000.005.002.011.009.000.008.001.007.005.000.004.000.002.001.000.007.000.004.000.000.000.000.000.000.000Iteration1234567891011121314151617181

32、92021222324252627282930313233343512345Change in Cluster CentersConvergence achieved due to no or small change in clustercenters. The maximum absolute coordinate change for any centeris .000. The current iteration is 35. The minimum distancebetween initial centers is 7.609.a. Iteration History 每次迭代后，

33、类中心点变化越来越小，直到最终趋于0。整个迭代过程在第35步终止，可认为各类中心已经收敛。Final Cluster Centers 最终类中心也就是各类别在各个变量上的平均值。Final Cluster CentersFinal Cluster Centers1.60559-.78990.61342-.33584.37303.46081-.58917-.493651.18873-.29014-.14005-.15010.35845-.02375-.404071.68250-.64550.04673.02351-.044151.62690-.94040.41420.10398.21627-.

34、06590-.14835-.05337-.140594.87718Zscore: 工作日上班时期电话时长Zscore: 工作日下班时期电话时长Zscore: 周末电话时长Zscore: 国际电话时长Zscore: 总通话时长Zscore: 平均每次通话时长12345Cluster3311.3 K-均值聚类法ANOVA 所以，各变量对聚类结果的重要程度排序为：总通话时长工作日上班时期通话时长工作日下班时期通话时长平均每次通话时长国际电话时长周末电话时长。Number of Cases in each Cluster 表明各类的样本数。各类人数的高低有时可为最终类特性的确定起辅助作用。

35、ANOVAANOVA582.3154.31433901854.022.000468.0014.44933901042.395.00039.0604.955339040.896.000443.1794.4783390926.658.000605.7704.28633902115.071.000463.8234.45433901021.872.000Zscore: 工作日上班时期电话时长Zscore: 工作日下班时期电话时长Zscore: 周末电话时长Zscore: 国际电话时长Zscore: 总通话时长Zscore: 平均每次通话时长Mean SquaredfClusterMean Square

36、dfErrorFSig.The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize thedifferences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot beinterpreted as tests of the hypothesis that the clust

37、er means are equal.Number of Cases in each ClusterNumber of Cases in each Cluster443.0001239.000831.000806.00076.0003395.000.00012345ClusterValidMissing3411.3 K-均值聚类法通常人数最多的群体往往就是“人民群众”。最终类的特征描述第一类高端商用客户ReportReport1535.6411391.814949.2266419.14451976.68263.8760443443443443443443301.3443186.72144

38、8.872277.6649536.93803.56231239123912391239123912391024.4152205.379466.8042179.20351296.59883.9237831831831831831831535.3005534.001953.3274175.79811122.62983.5918806806806806806806900.5526245.131639.9171165.87241185.601322.6794767676767676708.3469301.804954.1649172.34921064.31684.1267339533953395339

39、533953395MeanNMeanNMeanNMeanNMeanNMeanNCluster Number of Case12345Total工作日上班时期电话时长工作日下班时期电话时长周末电话时长国际电话时长总通话时长平均每次通话时长3511.3 K-均值聚类法 443人总通话时长、工作日上班时期通话时长（占全部通话平均之比的77.69%）、国际电话时长最高的用户。第二类低端少使用客户 1239人总通话时长最短、各时段通话时长均最短、平均通话时间最短的用户。第三类中端商用客户 831人3611.3 K-均值聚类法总通话时长居中，工作日上班时间通话比例较高（占全部通话平均之比的79.01%）用户。第四类中端日常用客户 806人总通话时长居中，工作日下班时间通话比例较高（占全部通话平均之比的47.57%）用户。第五类长聊客户 76人平均每次通话时间最长，是其它类别的5倍以上。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？