spss聚类分析教程课件.ppt

上传人(卖家):晟晟文业 文档编号:4376855 上传时间:2022-12-03 格式:PPT 页数:25 大小:317KB
下载 相关 举报
spss聚类分析教程课件.ppt_第1页
第1页 / 共25页
spss聚类分析教程课件.ppt_第2页
第2页 / 共25页
spss聚类分析教程课件.ppt_第3页
第3页 / 共25页
spss聚类分析教程课件.ppt_第4页
第4页 / 共25页
spss聚类分析教程课件.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、2022-12-31基本统计分析基本统计分析 有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键 SPSS有数字分析和作图分析两类方法2022-12-32基本统计分析概述 目录 上页 下页 返回 结束 基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析 De

2、scriptive Statistics包括的统计功能有:包括的统计功能有:nFrequencies:频数分析nDescriptives:描述统计量分析nExplore:探索分析nCrosstabs:多维频数分布交叉表(列联表)2022-12-34描述统计分析过程Descriptives 目录 上页 下页 返回 结束 1、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。2、描述统计分析过程通过平均值(Mean)、算术和(Sum)、标准差(Std Dev)、最大值(Maxi

3、mum)、最小值(Minimum)、方差(Variance)、范围(Range)、平均数标准误(S.E.Mean)等统计量对变量进行描述。2022-12-35 目录 上页 下页 返回 结束 SPSS 数值统计分析过程均在Analyze菜单中n基本统计分析:Reports,Descriptive Statisticsnb、均值比较与检验:Compare Meansnd、方差分析:ANOVA Modelsnb、相关分析:Correlatene、回归分析:Regression nf、聚类与判别:Classifyng、因子分析:Data Reduction nh、非参数检验:Nonparametric

4、 Tests 等等2022-12-3中国人民大学六西格玛质量管理研究中心中国人民大学六西格玛质量管理研究中心6第一章第一章 聚类分析聚类分析 聚类分析的基本思想聚类分析的基本思想 聚类分析上机实现聚类分析上机实现2022-12-371.1 1.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合

5、为另外一类,。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。2022-12-38 目录 上页 下页 返回 结束 对样品的分类常称为对样品的分类常称为Q Q型聚类分析型聚类分析 对变量的分类常称为对变量的分类常称为R R型聚类分析型聚类分析2022-12-391.1 1.1 聚类分析的思想聚类分析的思想 目录 上页 下页 返回 结束 聚类的目的聚类的目的 在一些社会、经济问题中,我们面临

6、的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。【例1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌”等,指标如何选择取决于聚类的目的。2022-12-310 目录 上页 下页 返回 结束 2022-12-311 目录 上页 下页 返回 结束 上例中的8个指标,前6个是定量的,后2个是定性的。如果分得更

7、细一些,指标的类型有三种尺度 间隔尺度。变量用连续的量来表示。有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。2022-12-312 目录 上页 下页 返回 结束 第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1)系统聚类法。(2)模糊聚类法。(3)K-均值法。(4)有序样品的聚类。(5)分

8、解法。(6)加入法。2022-12-313 1.2 1.2 系统聚类法系统聚类法 目录 上页 下页 返回 结束(1)最短距离法。(nearest neighbor或single linkage method)2022-12-314 目录 上页 下页 返回 结束(2)最长距离法(farthest neighbor或complete linkage method)。2022-12-315 目录 上页 下页 返回 结束(3)类平均法(group average method)。2022-12-316 目录 上页 下页 返回 结束(4)重心法(Centroid method)。(5)离差平方和法(Su

9、m of Squares method)。2(,)wp qpqDp qDDD2022-12-3中国人民大学六西格玛质量管理研究中心171.3 1.3 系统聚类法系统聚类法 目录 上页 下页 返回 结束 系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤:2022-12-318 目录 上页 下页 返回 结束 注:不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。2022-12-3中国人民大学六西格玛质量管理研究中心191.4 1.4 计算步骤与上机实践计算步骤与上机实践

10、目录 上页 下页 返回 结束 2022-12-3201.5 1.5 案例研究案例研究 目录 上页 下页 返回 结束 例3 我们以2005年31个省、市、自治区的城镇居民月平均消费支出数据为例,在SPSS中利用K-均值法对31个省、市、自治区的城镇居民消费水平进行聚类分析。在SPSS中依次点击“Analyze”“Classify”“K-Means Cluster”,打开K-Means Cluster Analysis对话框,将8个变量选入Variable框中,将表示地区的变量选入Label Cases By栏中,将分类数(Number of clusters)定为3。另外,点击Iterate按钮

11、可以在其中输入最大迭代次数(Maximum iterations)和收敛标准(Convergence criterion);在Save按钮中可以选择保存样本的聚类结果(Cluster membership)和各样本距各自中心点的距离(Distance from cluster center);在Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击“OK”得到聚类结果如下:2022-12-3中国人民大学六西格玛质量管理研究中心21 目录 上页 下页 返回 结束 2022-12-322 目录 上页 下页 返回 结束 表3.16中最大的相关系数为r4,80

12、.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图317。我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。2022-12-323 目录 上页 下页 返回 结束 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意

13、义的谱系图。2022-12-324 目录 上页 下页 返回 结束 当然,也可以采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。类平均法聚类在SPSS中的操作为:点选“Analyze”“Classify”“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入Label Cases By栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在Cluster Metho

14、d下拉菜单中选择Between-groups linkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果。2022-12-325 目录 上页 下页 返回 结束 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择Nearest Neighbor和Furthest Neighbor选项。直观看出,类平均法分为三类:1,9,11,19为第一类,13,2,22,10为第二类,其他为第三类;最短距离法分为两类,1,9,11,19为一类,其余的省市归为一大类;最长距离法也分为三类:1,9,11,19为第一类,10,22,2,13,26为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(spss聚类分析教程课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|