1、spss统计分析及应用教程第7章 聚类分析与判断分析第7章 聚类分析与判断分析 spss统计分析及应用教程第7章 聚类分析与判断分析第7章 聚类分析与判断分析 本章学习目标本章学习目标 理解聚类分析、判别分析的基本思想与原理; 掌握聚类分析、判别分析方法; 掌握聚类分析、判别分析实验目的、实验内容和实验步骤; 掌握实验结果的分析与利用; 了解聚类分析、判别分析在经济管理数据分析中的应用。 spss统计分析及应用教程第7章 聚类分析与判断分析第7章 聚类分析与判断分析 类群划分是更好地发现特点,找出规律的一种常用方法。通过对不同群体的比较分析可以更好地理解事物之间的差异、规律和特点。 聚类分析可
2、以解决的问题 判断分析的基本思想 聚类分析与判断分析的不同spss统计分析及应用教程第7章 聚类分析与判断分析实验一实验一 系统聚类分析系统聚类分析实验目的实验目的 明确聚类分析有关的概念; 理解系统聚类基本思想与原理; 熟练掌握系统聚类的过程; 能用SPSS软件进行系统聚类分析; 培养运用系统聚类方法解决身边实际问题的能力。 spss统计分析及应用教程第7章 聚类分析与判断分析实验一实验一 系统聚类分析系统聚类分析 准备知识准备知识系统聚类分析的定义与基本思想 系统聚类分析又称为层次聚类分析,其基本思想是依据样品或变量之间的亲疏远近关系,将最相似的对象结合在一起,以逐次聚合的方式,将样品或变
3、量进行分类,直到最后所有的样品或变量都聚成一类。系统聚类有两种形式:Q型聚类和R型聚类。 spss统计分析及应用教程第7章 聚类分析与判断分析聚类统计量 为了对样品进行分类,首先要引进表示样品之间的相似或关联程度的度量,称为聚类统计量。常用的聚类统计量有三种:匹配系数、距离、相似系数 spss统计分析及应用教程第7章 聚类分析与判断分析 匹配系数匹配系数 1当分类指标x1,x2 ,xp为类别标度变量时,通常可采用匹配系数作为聚类统计量。匹配系数匹配系数:第i个样品与第j个样品的匹配系数为:sijZ1+Z2+ +Zp 当xik等于xjk时,Zk=1 当xik不等于xjk时,Zk=0显然匹配系数越
4、大,说明两样品越相似,越应划归为同一类。 spss统计分析及应用教程第7章 聚类分析与判断分析 距离距离 2当指标中有间隔标度变量时,用匹配系数作聚类统计量已经不再适宜。此时,可将每个样品观测值看作p维空间中的一个点,这样两个样品之间的相似程度可以用p维的空间距离来度量。距离越小,相似程度越高,两样品越应归为一类。 spss统计分析及应用教程第7章 聚类分析与判断分析 距离距离 2计算距离的方法有:兰氏距离兰氏距离仅适用与一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响,这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据,但其没有考虑指标之间的相关性。 1
5、1( )pikjkijkikjkXXdLpXXspss统计分析及应用教程第7章 聚类分析与判断分析 距离距离 2闵可夫斯基距离 1ij1ij1122ij11dq(1)d1q2d2qmaxpqqikjkkpikjkkpikjkkijikjkkpqXXqXXXXdXX 闵可夫斯基距离:按 的取值不同又可分成:绝对距离欧几里得距离( )切比雪夫距离( )spss统计分析及应用教程第7章 聚类分析与判断分析 距离距离 2马氏距离设与是来自均值向量为,协方差为(0)的总体G中的p维样品,则两个样品间的马氏距离为:马氏距离考虑了观测变量之间的相关性以及观测变量之间的变异性,不再受各指标量纲的影响。 1()
6、()()ijijijdMXXXXspss统计分析及应用教程第7章 聚类分析与判断分析 相似系数相似系数 3有些事物的相似,并非一定要求数值上的一致或相近,例如相似三角形,父亲与儿子之间的相似,尽管尺寸、大小相差悬殊,却非常相似。这类事物的类别划分应用的统计量为相似系数。相似系数又可以分为夹角余弦与相关系数 spss统计分析及应用教程第7章 聚类分析与判断分析类与类间距离的确定方法 (1)最短距离法(Nearest Neighbor) (2)最长距离法(Furthest Neighbor) (3)组间平均衔接法 (Between-groups Linkage) (4)组内平均衔接法 (Withi
7、n-groups Linkage) (5)重心法(Centroid Clustering) (6) 离差平方和法(Ward Method) spss统计分析及应用教程第7章 聚类分析与判断分析实验一 系统聚类分析 实验内容实验内容 某牙膏公司为了调查消费者购买牙膏时考虑哪些因素,设计调查问卷进行调查,问卷如下: spss统计分析及应用教程第7章 聚类分析与判断分析1.您购买牙膏时,认为防蛀功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要2.您购买牙膏时,认为亮泽牙齿功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要
8、 G非常不重要3.您购买牙膏时,认为保护牙龈功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要4.您购买牙膏时,认为清新口汽功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要5.您购买牙膏时,认为预防坏牙功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要6.您购买牙膏时,认为魅力牙齿功能重要程度如何? A非常重要 B比较重要 C重要 D一般 E不重要 F比较不重要 G非常不重要 spss统计分析及应用教程第7章 聚类分析与判断分析实验一 单因素方差分析 实验
9、步骤实验步骤 考虑到调查问卷中所涉及的指标有6个,因此可以考虑先对六个指标进行因子分析,提取出公因子后以公因子为聚类指标进行聚类。聚类分析选用系统聚类法。系统聚类法由SPSS17.0的Classify过程中的Hierarchical cluster过程实现。下面以案例说明系统聚类过程的基本操作步骤。 spss统计分析及应用教程第7章 聚类分析与判断分析实验一 单因素方差分析 实验步骤实验步骤 (1)准备工作。在SPSSl7.0中打开数据文件7-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。首先对六个变量进行因子分析(操作过程参加因子分析一章)。共提取两个公因子,
10、分别命名为“护牙因子”和“美牙因子”。 spss统计分析及应用教程第7章 聚类分析与判断分析 购买某品牌牙膏考虑因素调查数据文件 spss统计分析及应用教程第7章 聚类分析与判断分析(2)从菜单上依次选择“分析分类系统聚类”命令,打开系统聚类对话框,如图 spss统计分析及应用教程第7章 聚类分析与判断分析(3)在如图所示的系统聚类主对话框中,相关内容介绍如下: 检验变量列表:用于选择聚类指标的所有变量。 变量:用于输入聚类指标。本例在图对话框左端的变量列表将要聚类指标添加到右边的检验变量列表中。本案例中选择因子分析得到的两个公因子“护牙因子”和“美牙因子”作为聚类指标变量。 spss统计分析
11、及应用教程第7章 聚类分析与判断分析“标注各案”中选入具有唯一标识作用的变量以标注出case。本案例选择order变量。“分群”下选择“各案”选项,表示对各案进行系统聚类,选择“变量”选项,表示对变量进行聚类分析。本案例选择“各案”选项。“输出”选项下有两个单选项:“统计量”、“图”。选择“统计量”选项,右上角“统计量”功能按钮置亮;选择“图”选项,“绘制”功能按钮置亮。 spss统计分析及应用教程第7章 聚类分析与判断分析(4)单击“统计量”选项按钮定义其他选项 合并进程表选项,输出系统聚类进度表, 聚类过程中每一步样品或类的合并情况。相似性矩阵选项,输出相似性矩阵,显示各项间的距离。sps
12、s统计分析及应用教程第7章 聚类分析与判断分析“聚类成员”选项确定输出样品隶属类表。“无”选项表示不输出样品隶属类表。“单一方案”选项选中后,在“聚类数”后的方框中输入大于1的整数n,则显示划分为n类时的样品隶属类表。“方案范围”选项选中后,在“最小聚类数”与“最大聚类数”后的方框中分别输入要显示各案归属的类的范围。spss统计分析及应用教程第7章 聚类分析与判断分析(5)单击“绘制”功能按钮,出现如图的对话框。 “龙骨图”,选择此项输出反映聚类结构的龙骨图。“冰柱”选项定义显示冰状图的类别数,“所有聚类”选项表示显示全部聚类结果的冰状图。“聚类的指定全距”,限制聚类解范围,在下面的“开始聚类
13、”,“停止聚类”,“排序标准”后的三个小框中分别输入三个正整数值m,n,k(mn,kn),表示从最小聚类解m开始,以增量k为步长,到最大聚类解n为止,显示冰柱图。“无”选项表示不显示冰状图。spss统计分析及应用教程第7章 聚类分析与判断分析“方向选项”中的“纵向”与“横向”定义冰状图的显示方向,垂直冰柱图或水平冰柱图。spss统计分析及应用教程第7章 聚类分析与判断分析(6) “方法(Method)”功能按钮,展开如图的对话框,在此对话框中,定义类间距离的确定方法和类内距离的确定方法。spss统计分析及应用教程第7章 聚类分析与判断分析聚类方法(M)组间联接:合并两类使得两类间的平均距离最小
14、,是系统默认选项。组内联接:合并两类使得合并后的类中所有项间的平均距离最小。最近邻元素:也称作最近距离法,以两类中最近的样品之间的距离为类间距离。最远邻元素:也称作最远距离法,以两类中最远的样品之间的距离为类间距离。spss统计分析及应用教程第7章 聚类分析与判断分析聚类方法(M)质心聚类法:也称作重心法,以两类中各样品的重心之间的距离为类间距离。中位数聚类法:也称作中位数法,以两类中各样品的中位数之间的距离为类间距离。Ward法:也称作华德最小偏差平方和法,聚类中使类内各样品的偏差平方和最小,类间偏差平方和尽可能大。 spss统计分析及应用教程第7章 聚类分析与判断分析当聚类指标的测度水平不
15、同时,会选择不同的计算聚类的方法。当聚类指标的测度水平为定比数据时,共有八种计算类内样品间距离的方法。当聚类指标为定类数据时,有“卡方度量”和“Phi方度量”两种计算类内样品间距离的方法。当聚类指标为虚拟变量时,有“平方Euclidean距离”、“尺度差分”、“模式差别”、 “方差”、“离散”、“形状”、“简单匹配”和“4点相关性”、“Lambda”、“Anderberg的D”、“骰子”、“Hamann”、等多种计算类内样品间距离的方法。 spss统计分析及应用教程第7章 聚类分析与判断分析转换值选项栏用于选择数据标准化方法标准化方法有七个选项.“无”表示不进行标准化,为系统默认选项。“Z得分
16、”表示应用标准化计算公式进行标准化处理。“全距从-1到1”表示,标准化结果分布在-1到+1之间。 spss统计分析及应用教程第7章 聚类分析与判断分析标准化方法有七个选项.“全距从0到1”表示,标准化结果分布在0到+1之间。“1的最大量”,将数据标准化到最大值1。“均值为1”,将数据标准化到均值为1。“标准差为1” 将数据标准化到标准差为1。 spss统计分析及应用教程第7章 聚类分析与判断分析“转换度量”选项“转换度量”选项用于选择测度转换方法。在距离测度选择完毕后,可以选择本栏选项对距离测度的结果进行测度转换。共有有三个选项:绝对值、更改符号、重新标度到0-1全距。 “绝对值”,绝对值转换
17、法,将测度值的负号移去。一般当只对相关数量感兴趣的时候才使用此法。spss统计分析及应用教程第7章 聚类分析与判断分析“更改符合”,变号转换法,进行相似测度和不相似测度之间的相互转换。选择此项,通过改变符号来颠倒距离测度的顺序。“重新标度到0-1全距”,采用此法将各距离测度值减去最小距离值再除以其全距,使距离测度标准化。 spss统计分析及应用教程第7章 聚类分析与判断分析(7) “保存”功能按钮选择系统距离分析主对话框中的“保存”功能按钮,打开如图的对话框。“聚类成员”功能区下有三个单选项,该三个单选项与“统计量”对话框下的“聚类成员”功能区下的三个单选项完全相同,区别在于“保存”对话框中的
18、聚类成员归属情况保存在数据文件中。“统计量”对话框下的“聚类成员”功能区中的选项选择后,结果显示在输出数据文件中。 spss统计分析及应用教程第7章 聚类分析与判断分析实验结果实验结果和分析案例处理汇总案例处理汇总 spss统计分析及应用教程第7章 聚类分析与判断分析聚类表聚类表 spss统计分析及应用教程第7章 聚类分析与判断分析聚类表聚类表 spss统计分析及应用教程第7章 聚类分析与判断分析第一列“阶”,聚类阶段,表示聚类过程中的步数,本案例一共聚类29此,因此共有29阶。第二列“群集组合”,表示集群1与集群2合并为一个新的类别。第三列“系数”,表示距离测度系数。第四列“首次出现阶集群”
19、第四列“首次出现阶集群”,该列群集1或群集2取值为0表示群集1或群集2为各案;群集1或群集2取值不为0表示群集1或群集2为类群而不是各案。第五列“下一阶”,表示此阶合并后的类在下一次聚类出现在哪一阶。如本例中第一行为15,表示个案9和个案19合并后的类将出现在第15阶。spss统计分析及应用教程第7章 聚类分析与判断分析在本案例中,聚类表显示,第一步先将所有30个个案中聚类最近的个案9与个案19合并为一类,因为二者之间的距离测度系数仅为0.001,为最小。此阶中合并的两个群集在“首次出现阶群集”的取值都为0,因此第一阶是两个个案的合并。“下一阶”取值为15,表示合并后的类在低15阶中将再次参与
20、合并。在第15阶中,群集1是个案2,群集2是个案9,二者之间的距离测度系数为0.134,“首次出现阶群集”中群集1为8,群集2为1,表示参与本次聚类的群集1,即个案2为类,不是个案,该类来源于第8阶聚类的结果。群集2也是类,该类来源于第1阶聚类的结果,第15阶是两个类的合并,合并后的类将在第23阶再次参与聚类分析。依次追踪,可以在聚类表中看出所有的聚类过程。 spss统计分析及应用教程第7章 聚类分析与判断分析 群集成员群集成员 spss统计分析及应用教程第7章 聚类分析与判断分析 群集成员群集成员 表中共显示了分成5类、4类和3类时的聚类结果,如分成5类时,聚类结果显示 第一类包括(1,3,
21、6,7,8,11,13,16,17,18,22,25,27) 第二类包括(2,5,9,12,15,19,21,23,30) 第三类包括(4,14,24,26,29);第四类包括(10);第五类包括(20,28)。 spss统计分析及应用教程第7章 聚类分析与判断分析 冰柱图冰柱图 spss统计分析及应用教程第7章 聚类分析与判断分析 冰柱图冰柱图 左侧y轴为集群数标识出划分类群的个数,横轴表示个案,用一个直尺与横轴平行放置在冰柱图上,如直尺放置在集群数为5的位置,直尺割断突出的冰状,则没有被割断的冰柱表示的个案就归为一类。 本案例中,从割断冰状的情况可以看出,个案20与个案28归为一类;个案1
22、0自成一类;个案29,26,24,14,4归为一类;个案21,30,15,5,19,9,23,12,2归为一类;其余个案归为一类。 spss统计分析及应用教程第7章 聚类分析与判断分析 树状图树状图 spss统计分析及应用教程第7章 聚类分析与判断分析 树状图树状图 在树状图的最上方,“Rescaled Distance Cluster Combine”表示聚类重新标定距离。即相当于冰柱图中的纵轴“集群数”。树状图的解读方法与冰柱图类似,用一把直尺切割树状图的横线,当直尺放置在集群数为5的位置,直尺垂直放置后,可以切割5条横线,表示可以将30个个案划分为5个类群,每一类群所包含的个案就是该被割
23、断的横线所包含的个案数。在树状图中的纵轴有两列,第一列表示聚类主对话框中所选入“标注个案”中的变量的取值。第二列表示个案的观测量序号。 spss统计分析及应用教程第7章 聚类分析与判断分析实验总结实验总结 系统聚类可以分为两种类型,一种是对个案进行分类,一种是的变量进行分类。比较常用的是对个案进行分类。spss统计分析及应用教程第7章 聚类分析与判断分析实验总结实验总结 系统聚类首先要根据解决的问题,选择聚类指标,聚类指标的选择是为能反映类群特点,因此,聚类指标的选择非常重要。不同的聚类指标,聚类的结果大相径庭,同时能反映各类别的特点与规律也存在较大的差异。聚类的指标不宜过多,如果过多,则特点
24、与规律不明显,且类别的划分比较复杂,也不宜过少,如果只有一个聚类指标,在无需聚类。如果变量数量过多,可以考虑先对变量进行因子分析,用提取出的公因子作为聚类指标,会使问题的分析简化且规律明显。 spss统计分析及应用教程第7章 聚类分析与判断分析实验总结实验总结 系统聚类可以帮助我们选择聚类数目。但不能告诉我们每一类别的聚类中心的位置,因此具有一定的局限性,因此可以选择快速聚类方法进行深入分析。spss统计分析及应用教程第7章 聚类分析与判断分析实验总结实验总结 值得注意的是,选用不同的聚类方法,计算距离的方法不同,所得到的分类结果会存在差异,建议选用其他聚类方法,对多种聚类结果进行比较。比较的
25、方法有两种,一是根据对分类问题本身有关的专业知识来判断哪种分类结果更合理;二是将各种结果中的共性取出来,将有疑问的个案先放在一边待判,先将其余个案进行分类。最后用最短距离法对待判的个案作特殊处理以决定它们的归属。 spss统计分析及应用教程第7章 聚类分析与判断分析实验二 快速聚类分析 实验目的实验目的 找出各类别的聚类中心及类别归属情况; 理解快速聚类的基本思想与原理; 熟练掌握应用SPSS软件进行快速聚类的方法; 能对快速聚类结果进行深入分析; 培养运用快速聚类方法解决身边实际问题的能力。 spss统计分析及应用教程第7章 聚类分析与判断分析实验二 快速聚类分析 准备知识准备知识快速聚类的
26、思想 快速聚类是在知道该样本可以划分为几个类别,然后依据一定的聚类方法将样本中的个案按照最短距离法进行归类,并最后算出每一类别的聚类中心的方法。 spss统计分析及应用教程第7章 聚类分析与判断分析 快速聚类的步骤 找出原始聚类中心 计算距离 归类并调整直至合理 spss统计分析及应用教程第7章 聚类分析与判断分析 应用spss软件进行快速聚类的步骤 选择聚类指标 确定聚类数目 选择聚类方法 选择快速聚类各选项 spss统计分析及应用教程第7章 聚类分析与判断分析实验二 快速聚类分析 实验内容实验内容 以系统聚类实验数据为本实验的数据,对牙膏购买时考虑的“护牙因子”和“美牙因子”为聚类指标,对
27、30个个案进行快速聚类,对划分为三类时的个案归属及各类特点进行分析。分析每一类别的特点和规律。 spss统计分析及应用教程第7章 聚类分析与判断分析实验二 快速聚类分析 实验步骤实验步骤 (1)准备工作。在SPSSl7.0中打开数据文件7-1-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口 。spss统计分析及应用教程第7章 聚类分析与判断分析 (2)从菜单上依次选择“分析分类K-均值聚类”,打开其对话框,如图所示,执行上述操作即可打开快速聚类主对话框 spss统计分析及应用教程第7章 聚类分析与判断分析 (3)选择聚类指标从快速聚类主对话框中左侧源变量框中选择聚
28、类指标移入右侧的变量框中,如本案例中选择“护牙因子”和“美牙因子”两个变量移入右侧的变量框中。(4)确定聚类数在“聚类数”功能区右侧的方框中输入聚类数目,如本案例已知把30个个案划分为3类,因此在“聚类数”后的方框内输入3。 spss统计分析及应用教程第7章 聚类分析与判断分析 (5)确定聚类方法快速聚类中有两种聚类方法:迭代与分类、分类。“迭代与分类”,该方法是系统默认的方法,表示在迭代过程中不断地更新聚类中。“分类”,用初始聚类中心对个案进行聚类,聚类中心始终不变。(6)选择标记变量从左侧源变量框中选择一个具有唯一标识作用的变量移入“个案标记依据”下的变量框中。如本案例选择“order”变
29、量。 spss统计分析及应用教程第7章 聚类分析与判断分析 (7)选择是否从外部提取初始聚类中心在快速聚类主对话框的下方,有一个“聚类中心”功能区,该功能区有两项功能:读取初始聚类中心和写入最终聚类中心。 本案例选择写入最终聚类中心。 spss统计分析及应用教程第7章 聚类分析与判断分析 (8)“迭代”选项单击“迭代”功能按钮,展开如图7-2-4的对话框,设置迭代的参数。在“最大迭代次数”后输入一个整数以限定最大的迭代步数,系统默认值为10,即最多进行10步迭代。“收敛性标准”后输入一个不超过1的正数作为判定迭代收敛的标准。缺省的收敛标准值为0.02,表示当两次迭代计算的聚类中心之间距离的最大
30、改变量小于初始聚类中心间最小距离的2%时终止迭代。spss统计分析及应用教程第7章 聚类分析与判断分析 (9)单击“保存”功能按钮保存对话框总选择保存新变量的方式。“聚类成员”,在工作文件中建立一个名为“QCL-1”的新变量,其值为各观测量隶属于哪一类别的状况。本案例中“QCL-1”变量的取值为1,2,3。“与聚类中心的距离”,在在工作文件中建立一个名为“QCL-2”的新变量,其值为各观测量与所属类聚类中心之间的欧式距离。spss统计分析及应用教程第7章 聚类分析与判断分析 (10)单击“选项”功能按钮选项对话框中定义输出的统计量值及缺失值的处理方法。“统计量”栏用于指定输出的统计量。“初始聚
31、类中心”选项为系统默认选项,输出初始聚类中心表。“ANOVA”选项输出方差分析表。 “每个个案的聚类信息”选项,选中后,在输出结果中显示各观测量最终被聚入的类别、各观测量与最终聚类中心之间的欧氏距离、以及最终各类聚类中心之间的欧氏距离。“缺失值”栏用于指定缺失值的处理方式。 spss统计分析及应用教程第7章 聚类分析与判断分析 “按列表排除个案”,该选项为系统默认选项,当聚类指标中有缺失值时,剔除该观测量。“按对排除个案”,选择此选项,只有当一个观测量的全部聚类指标变量值均缺失时才将其从分析中剔除,否则根据所有其他非缺失变量值,把它分配到最近的一类中去。单击继续按钮,返回快速聚类主对话框,单击
32、确定按钮,SPSS自动完成计算。 spss统计分析及应用教程第7章 聚类分析与判断分析实验结果实验结果 组间因素组间因素 spss统计分析及应用教程第7章 聚类分析与判断分析迭代历史记录迭代历史记录 spss统计分析及应用教程第7章 聚类分析与判断分析迭代历史记录迭代历史记录 本案例共进行了10次迭代,每次迭代类中心与上次迭代类中心的变化量。表下的注释显示,本案例完成了最大次数的迭代,迭代无法收敛。即表示任何中心的最大绝对坐标更改为2.41E-009,初始中心间的最小距离为3.026。 spss统计分析及应用教程第7章 聚类分析与判断分析 聚类成员聚类成员 spss统计分析及应用教程第7章 聚
33、类分析与判断分析 聚类成员聚类成员 spss统计分析及应用教程第7章 聚类分析与判断分析 聚类成员聚类成员 本例给出了聚类成员归属结果,也叫做样品隶属类表。指出了聚类后各个案所隶属的类。从表中的数据可以看出,个案4,10,14,24,28,29共6个样品归为第一类。表中的第四列“距离”表示该个案与聚类中心之间的距离。个案2,5,9,12,15,21,30共个样品归为第二类;其余样品归为第三类。此表中最后两列的数据分别作为变量“QCL-1”和“QCL-2”的观测值保存于当前工作的数据文件中。 spss统计分析及应用教程第7章 聚类分析与判断分析最终聚类中心最终聚类中心 spss统计分析及应用教程
34、第7章 聚类分析与判断分析最终聚类中心散点图最终聚类中心散点图 spss统计分析及应用教程第7章 聚类分析与判断分析最终聚类中心间的距离最终聚类中心间的距离 spss统计分析及应用教程第7章 聚类分析与判断分析每个聚类中的案例数每个聚类中的案例数 spss统计分析及应用教程第7章 聚类分析与判断分析 实验总结实验总结 快速聚类要事先知道划分为多少类。 快速聚类分析的重点是会解读最终的聚类中心的坐标,该聚类中心就表示了该类的特点和规律。 快速聚类结果与系统聚类的结果往往不同,因为两种聚类方法思路和步骤存在很大的区别,因此,要依据对案例个案的理论了解通过比较分析确定最终的聚类结果。 系统聚类的优点
35、是能很好地判断划分为多少类别比较合适,判断的依据是类内的差异最小,类间差异最大。快速聚类的优点是能计算出最终的聚类中心,对类的特点有一个较好的把握。 spss统计分析及应用教程第7章 聚类分析与判断分析实验三实验三 判别分析判别分析 实验目的实验目的 明确判别分析有关的概念; 熟练掌握判别的过程; 能用SPSS软件进行判别分析; 培养运用判别分析方法解决身边实际问题的能力。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的定义与基本思想 根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。也就是希望利用调查数据,找出一种判
36、别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标数据的一个新样本,能判断这个样本归属于哪一类。 SPSS软件提供的判别分析过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判的分类,给出错分概率。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的过程 第一阶段,分析和解释各组的指标特征之间存在的差异,并建立判别函数。在这部分工作中,一是要处理的是已知分组属性的那些案例。(1)确定是否能在
37、特征变量数据的基础上判别出已知的分组来;(2)分组能被判别的程度;(3)哪些特征变量是最有用的判别因素。二是为了分组的目的推导一个或多个数学方程,这些数学方程称为“判别函数”,他们以某种数学形式将表示特征的判别变量与分组属性结合起来,是我们能辨识一个案例所最近似的分组。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的过程 第二阶段要处理的是未知分组属性的案例,以第一阶段的分析结果为根据将这些案例进行判别分组。这相当于根据以往经验来“预测”案例的分组属性。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的类别 (1)按判别的总
38、体数来区分: 两个总体判别分析; 多个总体判别分析。 (2)按区分不同总体所用的数学模型来分 线性判别; 非线性判别。(3)按判别时所处理的变量方法不同 逐步判别; 序惯判别。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别准则 马氏距离最小准则Fisher准则平均损失最小准则(贝叶斯判别法)最小平方准则最大似然准则最大概率准则spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的基本假设 当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。其假设条件:(1)每一个判别变量(解释变量)不能是其他判别变量的线性组合
39、。即解释变量之间不存在多重共线性。(2)各组变量的协方差矩阵相等。(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。(4)分组类型在两种以上,各鉴别变量的测度水平在间距测度等级以上;各分组的案例在各鉴别变量的数值上能够体现差别;要求案例数量(n)比变量的个数(K)多于两个。 spss统计分析及应用教程第7章 聚类分析与判断分析 知识准备知识准备 判别分析的基本模型 判别分析的基本模型就是判别函数,它表示为分组变量与满足假设的条件的判别变量的线性函数关系 判别函数值y又称为判别值(Discriminant Score),它代表各分组在某一空间上的坐标。bi为各判
40、别变量对于判别函数值的影响。判别模型的几何含义是:各判别变量代表了k维空间。 判别分析的实质就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析模型的各参数指标及其统计检验 非标准化判别系数 判别系数又称函数系数(Function Coefficient),包括两种:非标准化的判别系数(Unstandardized Discriminant Coefficient)和标准化的判别系数。非标准化的判别系数也称为粗系数(Raw Coefficient)将原始变量值直
41、接输入模型,得到的系数估计就是非标准化的粗系数。非标准化系数是用来计算判别值(Discriminant Score)的。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析模型的各参数指标及其统计检验 标准化判别系数 标准化使得每个变量都以自己的平均值作为数轴原点,以自己的标准差作为单位,这样一来,每个案例的原始变量值,一方面表现为与平均值之间的距离,另一方面以正负号形式表示了自己偏离平均值的方向、并且各标准化系数之间具有横向可比性。哪个变量的标准化系数绝对值大,就意味着将对判别值有更大的影响,于是可以用来比较各变量对判别值的相对作用。 spss统计分析及应用教程第7章 聚类分析与
42、判断分析 判别分析模型的各参数指标及其统计检验 结构系数 判别分析中的结构系数(Structural Coefficient) 又称为判别负载(Discriminant Loading),它实际上是某个判别变量xi 与判别值y 之间的相关系数,它表达了两者之间的拟合水平。 当这个系数的绝对值很大时,这个判别函数表达的信息与这个变量的信息几乎相同,当这个系数接近于0 时,它们之间就没有什么共同之处。如果一些变量与一个函数之间有很大的结构系数值,我们就可以用这些变量的名字命名这个函数。spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析模型的各参数指标及其统计检验 分组的矩心 分组的矩心
43、(Group Centroid)描述在判别空间中每一组案例的中心位置。其计算过程是将每一组别的每一个判别变量的平均值分别代入两个判别函数。 分组的矩心表示每个分组在各判别轴上的坐标值。考察在判别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析模型的各参数指标及其统计检验 判别力指数 有时判别分析可以推导出多个判别函数,然而这些判别函数 不一定都很有用。可以根据一定指标来描述其对于判别的效益。这里所说的判别力,既包括了每个判别变量对于判别函数的作用,也包括了本判别函数对于所有原始变量总方差的代表性。 判别力指数
44、(Potency Index)就是这样一个指标,有时它也叫做方差百分比(Percent of Variance)。判别分析通过判别函数所能代表的所有原始变量的总方差百分比来表示每个判别函数的判别力。spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析模型的各参数指标及其统计检验 残余判别力 残余判别力的含义是,在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。 残余判别力用统计量Wilks Lambda 来测量,其值是一个反面度量,值越小表示越高的判别力,即分组矩心极大地分离,并且相对于分组内部的离散程度非常明显。当Wilks Lambda 增加到最大值1时,
45、组矩心就完全吻合了,这时没有分组之间的差别。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤 解释变量和被解释变量的选择解释变量和被解释变量的选择 1 解释变量为定量变量; 被解释变量为定性变量。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤 样本的分割样本的分割 2分割成两个子样本,一个用于估计判别函数,另一个用于验证。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤估计判别模型估计判别模型 3 全模型法 先前选择法 向后选择法 逐步选择法注意:当样本容量与解释变量个数之比低于20时,逐步估计变得不稳定。这些情况下用多种方法
46、来验证结果尤其重要。spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤评估判别函数的统计显著性评估判别函数的统计显著性 4 在计算了判别函数以后,必须评估它的显著性。Wilks Lamada,Hotelling和Pillai准则都是评估判别函数的判别效力的显著性统计量。Roy最大特征根只检验第一个判别函数。 如果使用逐步法来估计判别函数,则马氏距离和RaosV测量是最合适的 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤评估整体拟合评估整体拟合 5 一旦判别方程通过了显著性检验,注意力转向确定保留的判别函数的整体拟合。这个评估包括三个任务:计算每个观测的
47、判别Z得分,检验各组在判别Z得分上的差异和评估组的关系的预测精度。 spss统计分析及应用教程第7章 聚类分析与判断分析 判别分析的步骤利用判别函数对观测量进行分类利用判别函数对观测量进行分类 6 用判别分析过程导出的线性判别函数的数目与类别数目相同。确定一个观测量属于哪一类,可以把该观测量的各变量值代入每一个判别函数,哪个判别函数值大,该观测量就属于哪一类。 spss统计分析及应用教程第7章 聚类分析与判断分析实验三实验三 判别分析判别分析 实验内容实验内容 利用聚类分析一章的某牙膏公司调查消费者购买牙膏时考虑哪些因素的数据。该数据中,消费者购买牙膏时考虑的因子有两大类“护牙因子”和“美牙因
48、子”,应用聚类分析,可以将30位顾客划分为三个类群。应用该数据,计算判别函数。 spss统计分析及应用教程第7章 聚类分析与判断分析 实验表格 spss统计分析及应用教程第7章 聚类分析与判断分析实验三实验三 协方差分析协方差分析 实验步骤实验步骤 (1)准备工作。在SPSSl7.0中打开数据文件7-1.sav,通过选择“文件打开”命令将数据调入SPSSl7.0的工作文件窗口。数据文件中,因子分析提取出的两个公因子“美牙因子”和“护牙因子”作为研究对象特征的变量,聚类分析得到的类别归属保存在“类别”变量中。 spss统计分析及应用教程第7章 聚类分析与判断分析 (2)执行“分类-判别”命令,打
49、开判别分析的主对话框。操作过程见图 spss统计分析及应用教程第7章 聚类分析与判断分析 (3)从判别分析主对话框左侧的源变量框中选择反映研究对象特征的变量作为自变量,移入右侧的“自变量”下的变量框中。本案例选择“护牙因子”和“美牙因子”作为自变量。 spss统计分析及应用教程第7章 聚类分析与判断分析 (4)从判别分析主对话框左侧的源变量框中选择保存分组信息的变量作为分组变量,移入右侧的“分组变量”下的变量框中。注意,这里所选择的分组变量是离散型变量,且其分组数至少多于两类。本案例选择“类别”变量作为分组变量移入“分组变量”框中,此时矩形框下面的定义范围置亮,单击该按钮,打开定义分组范围的小
50、对话框如图所示。在“最小值”框中输入该分组变量的最小值,本案例输入“1”。“最大”框中输入该分组变量的最大值,本案例中输入“3”。 spss统计分析及应用教程第7章 聚类分析与判断分析 (5)如果希望使用一部分观测量进行判别分析,推导出判别函数,而另一部分观测量用于验证判别函数的盘错率,而且,在数据文件中有一个变量的某个值可以作为这些观测量的标识,则应用判别分析主对话框中的“选择变量”功能进行选择。spss统计分析及应用教程第7章 聚类分析与判断分析 (6)操作方法是从左侧原变量框中选择标识变量,移入“选择变量”框中,点击其后的“值”按钮,可以打开图7-3-4所示的对话框。在展开的“设置值”子