第15章聚类分析1统计学原理.课件.ppt

上传人(卖家):三亚风情 文档编号:2881038 上传时间:2022-06-07 格式:PPT 页数:58 大小:531.50KB
下载 相关 举报
第15章聚类分析1统计学原理.课件.ppt_第1页
第1页 / 共58页
第15章聚类分析1统计学原理.课件.ppt_第2页
第2页 / 共58页
第15章聚类分析1统计学原理.课件.ppt_第3页
第3页 / 共58页
第15章聚类分析1统计学原理.课件.ppt_第4页
第4页 / 共58页
第15章聚类分析1统计学原理.课件.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、12 - 12 - 12 - 1 1 1统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月聚类分析聚类分析12 - 12 - 12 - 3 3 3统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 4 4 4统计学统计学统计学统计学统计学统计学STATISTICSSTATIS

2、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 7 7 7统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 8 8 8统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8

3、月月月12 - 12 - 12 - 9 9 9统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 111111统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 121212统计学统计学统计学统计学统计学统计学STATISTICSSTATISTIC

4、SSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 131313统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qpiqiiyx1iiyx maxpiiiyx12)(piiiyx112 -

5、 12 - 12 - 141414统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cosiiiiiiixyyyxxyyxxr22)()()(12 - 12 - 12 - 171717统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8

6、 8月月月12 - 12 - 12 - 181818统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 191919统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 212121统计学统计学统计学统计学统计学统计学STATISTICSSTATIS

7、TICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 222222统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月最短距离法最短距离法(Nearest neighbor)最长距离法最长距离法(Furthest neighbor)重心法重心法(Centroid clustering)组间平均距离组间平均距离(Between-groups lin

8、kage)离差平方和法离差平方和法(Wards method)ijGxGxkldDljki,minijGxGxkldDljki,max)()(2lklkklxxxxD kiliGxGxijlkkldnnD1lkmklWWWD212 - 12 - 12 - 232323统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 252525统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTI

9、CS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 262626统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月第第1步步 选择【Analyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框第第2步步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cas

10、es by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】第第3步步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框第第4步步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框12 - 12 - 12 - 272727统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )2008

11、20082008年年年8 8 8月月月第第5步步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Wards method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第第6步步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】

12、表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】12 - 12 - 12 - 282828统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 292929统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第

13、三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n 第第1列是聚类的步骤号。第列是聚类的步骤号。第2列和第列和第3列给出了每列给出了每一步被合并的对象一步被合并的对象(这里是地区这里是地区)n 首先把首先把31个地区各自作为一类个地区各自作为一类(共有共有31类类)。第。第1步步是把距离最近的两个地区是把距离最近的两个地区21(海南海南)和地区和地区30(宁夏宁夏)合并成一类。在后面的步骤中,对于包含多个样合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表本的新类别,实际上是用类中的一个样本来代表该类别,比如,第该类别

14、,比如,第2步被合并的是步被合并的是21和地区和地区29(青青海海),这里的,这里的“21”实际上是指在第实际上是指在第1步中被合并的步中被合并的类别,只是用类别,只是用“21”表示表示21(海南海南)所在的类别所在的类别12 - 12 - 12 - 303030统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月n第第4列给出每一步被合并的两个类之间的聚类系数列给出每一步被合并的两个类之间的聚类系数(即距离即距离)。距。距离按从小到大排列,越早合并

15、的类距离越近。离按从小到大排列,越早合并的类距离越近。0.013是地区是地区21(海南海南)和地区和地区30(宁夏宁夏)之间的距离,而之间的距离,而0.040是先被合并的第一小是先被合并的第一小类与地区类与地区29(青海青海)之间的距离之间的距离n第第5列和第列和第6列表示本步聚类中参与聚类的是原始的样本还是已列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,经合并的小类,0表示本步聚类的是原始的样本,第一次出现在表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第步聚类。第7列给

16、出了在每一步中合并形成的新类别下一次将在列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如,在第第几步中与其他类别合并。例如,在第2步中,参与聚类的是第步中,参与聚类的是第1步形成的小类步形成的小类(21号样本所在的类号样本所在的类)和地区和地区29(青海青海),第,第5列的列的“1”表示表示21号类是在第号类是在第1步中形成的小类,而步中形成的小类,而“0”表示地区表示地区29(青海青海)是第一次出现在本步聚类中的原始样本,第是第一次出现在本步聚类中的原始样本,第7列中的列中的“10”表示这一类将在第表示这一类将在第10步中与其他类别合并,其余类推步中与其他类别合并,其

17、余类推12 - 12 - 12 - 313131统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 323232统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月分成两类分成两类 分成四类分成四类 最大距离作为相对距离最大距离作为相对距离25,其余的距离都换算成与,其余的距离

18、都换算成与之相比的相对距离大小之相比的相对距离大小12 - 12 - 12 - 333333统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月类别类别地区地区地区个数地区个数第一类第一类北京,天津,上海北京,天津,上海3第二类第二类河北,辽宁,安徽,福建,河南,湖北,河北,辽宁,安徽,福建,河南,湖北,湖南,四川湖南,四川 8第三类第三类山西,内蒙古,吉林,黑龙江,江西,山西,内蒙古,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,广西,海

19、南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆陕西,甘肃,青海,宁夏,新疆16第四类第四类江苏,浙江,山东,广东江苏,浙江,山东,广东412 - 12 - 12 - 343434统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月注意注意 使用Means过程时可直接在聚类分析的数据中进行,数 据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作第一步第一步 选择【Analyze

20、】下拉菜单,并选择 【Compare Means-Means】主对话框第二步第二步 将用于描述的所有变量选入【Dependentlist】,把地 区所属的类别号变量选入【Independent list】第三步第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框 【OK】12 - 12 - 12 - 353535统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 363636统计学统计

21、学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 383838统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 404040统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版

22、第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 414141统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 424242统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 444444统计学统计

23、学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 454545统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 464646统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版

24、第三版第三版) ) )200820082008年年年8 8 8月月月 数据标准化数据标准化(SPSS)l【Analyze】【Descriptive Statistics】 【Descriptives】主对话框l将需要标准化的变量选入【Variable(s)】 【Save standardized values as variables】 【OK】12 - 12 - 12 - 474747统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月该表列出每一

25、类别的初始聚类中心,本例的这些中心是由该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上就,这实际上就是上海的人均是上海的人均GDP标准化后的值。第二类聚类中心是标准化后的值。第二类聚类中心是1.83293则是天津的则是天津的标准化人均标准化人均GDP,等等,等等12 - 12 - 12 - 484848统计学统计学统计学统计学统计学

26、统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 该表该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只的增加,类别中心点的变化越来越小。本例只4次就已经收敛了次就已经收敛了12 - 12 - 12 - 494949统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200

27、820082008年年年8 8 8月月月 表中的数据表示各个类别在各变量上的平均值。如,第一类的表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区表示被分到第一类的地区(北京和上海北京和上海)标准化后的人均标准化后的人均GDP平均值平均值 12 - 12 - 12 - 505050统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分利用方差分析表可以

28、判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的类后各变量在不同类别之间的差异都是显著的(P值均接近值均接近0) 12 - 12 - 12 - 515151统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月 由该表可以看出,第一类包括由该表可以看出,第一类包括2个地区,第二类包括个地区,第二类包括11个地区,个地区,第三类包括第三类包括4个地区,第四类包括个地区,第四类包括14个地区个地区12 - 12 - 12

29、- 525252统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 535353统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月类别类别地区地区地区个数地区个数第一类第一类上海,北京上海,北京 2第二类第二类天津,内蒙古,吉林,海南,重庆,贵天津,内蒙古,吉林,海南,重庆,

30、贵州,西藏,甘肃,青海,宁夏,新疆州,西藏,甘肃,青海,宁夏,新疆 11第三类第三类江苏,浙江,山东,广东江苏,浙江,山东,广东 4第四类第四类河北,山西,辽宁,黑龙江,安徽,福河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,建,江西,河南,湖北,湖南,广西,四川,云南,陕西四川,云南,陕西 1412 - 12 - 12 - 555555统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 565656

31、统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 575757统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月12 - 12 - 12 - 585858统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS( ( (第三版第三版第三版第三版第三版第三版) ) )200820082008年年年8 8 8月月月

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第15章聚类分析1统计学原理.课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|