1、 第第9章章 SPSS的多元统计统计分析9.1 SPSS在因子分析中的应应用9.1.1 因子分析的基本原理1、方法概概述 人们在研究实际问题时,往往希望尽可能多的收集相关变量,以期望对问题有比较全面、完整的把握和认识 。 为解决这些问题,最简单和最直接的解决方案是减少变量数目,但这必然又会导致信息丢失或不完整等问题。为此,人们希望探索一种有效的解决方法,它既能减少参与数据分析的变量个数,同时也不会造成统计信息的大量浪费和丢失。 因子分析就是在尽可能不损失信息或者少损失信息的情况下,将多个 变量减少为少数几个因子的方法。这几个因子可以高度概括大量数据中的信息,这样,既减少了变量个数,又同样能再现
2、变量之间的内在联系。9.1 SPSS在因子分析中的应应用2、基本原理通常针对变量作因子分析,称为R型因子分析;另一种对样品作因子分析,称为Q型因子分析,这两种分析方法有许多相似之处。R型因子分析数学模型是:设原有p个变量 且每个变量(或经标准化处理后)的均值为0,标准差为1。现将每个原有变量用k( )个因子 的线性组合来表示,即有:上式就是因子分析的的数学模型,也可以用矩阵的形式表示为 1,.,pxx kp111 112 211221 122 2221 12 2kkkkppppkkpxa fa fa fxa fa fa fxa fa fa fXAF12,kf ff9.1 SPSS在因子分析中的
3、应应用其中,X是可实测的随机向量。F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。A称为因子载荷矩阵, 称为因子载荷。 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0 因子分析的基本思想是通过对变量的相关系数矩阵内部结构的分析,从中找出少数几个能控制原始变量的随机变量 选取公共因子的原则是使其尽可能多的包含原始变量中的信息,建立模型 ,忽略 , 以F代替X,用它再现原始变量X的信息,达到简化变量降低维数的目的。(1,2, ;1,2, )ija ip jk(1,2, )if ikXA F9.1 SPSS在因子分析中的应应用3、基本步骤骤 由于实际中数据背景
4、、特点均不相同,故采用因子分析步骤上可能略有差异,但是一个较完整的因子分析主要包括如下几个过程:(1) 确认待分析的原变量是否适合作因子分析 因子分析的主要任务是将原有变量的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。故它要求原始变量之间应存在较强的相关关系。进行因子分析前,通常可以采取计算相关系数矩阵、巴特利特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析。(2)构造因子变量 将原有变量综合成少数几个因子是因子分析的核心内容。它的关键是根据样本数据求解因子载荷阵。因子载荷阵的求解方法有基于主成分模型的主成分分析法、基于因子分析模型的主轴因子法、极大似然法等。9
5、.1 SPSS在因子分析中的应应用(3)利用旋转方法使因子变量更具有可解释性 将原有变量综合为少数几个因子后,如果因子的实际含义不清,则不利于后续分析。为解决这个问题,可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷,这样使提取出的因子具有更好的解释性。(4)计算因子变量得分 实际中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分。于是,在以后的分析中就可以利用因子得分对样本进行分类或评价等研究,进而实现了降维和简化问题的目标。9.1 SPSS在因子分析中的应应用 根据上述步骤,可以得到进行因子分析的详细计算过程如下。将原始数据标准化,以消除变量间在
6、数量级和量纲上的不同。求标准化数据的相关矩阵。求相关矩阵的特征值和特征向量。计算方差贡献率与累积方差贡献率。确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的 数据信息总量(即其累积贡献率)不低于85%时,可取前m个因子来反映原评价指标。因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。用原指标的线性组合来求各因子得分。综合得分:通常以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。9.1 SPSS在因子分析中的应应用9.1.2 因子分析的SPSS操作详详解Step01:打开对话框选择菜单栏中的【Analyze(
7、分析)】【Data Reduction(降维)】【Factor(因子)】命令,弹出【Factor Analysis(因子分析)】对话框,这是因子分析的主操作窗口。9.1 SPSS在因子分析中的应应用 Step02:选择因子分析变量 在【Factor Analysis(因子分析)】对话框左侧的候选变量列表框中选择进行因子分析的变量,将其添加至【Variables(变量)】列表框中。如果要选择参与因子分析的样本,则需要将条件变量添加至【Selection Variable(选择变量)】列表框中,并单击【Value】按钮输入变量值,只有满足条件的样本数据才能进行后续的因子分析。Step03:选择描述
8、性统计量 单击【Descriptives】按钮,在弹出的对话框中可以选择输出描述性统计量及相关矩阵等内容 。9.1 SPSS在因子分析中的应应用具体选项含义如下: 【Statistics(统计量)】选项组 Univariate descriptives:单变量描述统计量,即输出参与分析的各原始变量的均值、标推差等。 Initial solution:初始分析结果,系统默认项。输出各个分析变量的初始共同度、特征值以及解释方差的百分比等。 【Correlation Matrix(相关矩阵)】选项组 Coefficients:原始分析变量间的相关系数矩阵。 Significance levels:显
9、著性水平。输出每个相关系数相对于相关系数为0 的单尾假设检验的概率水平。 Determinant:相关系数矩阵的行列式。 Inverse:相关系数矩阵的逆矩阵。 Reproduced:再生相关矩阵。输出因子分析后的相关矩阵以及残差阵。 Anti-image:象相关阵。包括偏相关系数的负数以及偏协方差的负数。在一个好的因子模型中,除对角线上的系数较大外,远离对角线的元素应该比较小。9.1 SPSS在因子分析中的应应用 KMO and Bartletts test of sphericity:KMO 和Bartlett 检验。前者输出抽样充足度的Kaisex-Meyer-Olkin 测度,用于检验
10、变量间的偏相关是否很小。后者Bartlett 球度方法检验相关系数阵是否是单位阵。如果是单位阵,则表明因子模型不合适采用因子模型。9.1 SPSS在因子分析中的应应用Step04:选择因子提取方法 单击【 Extract(抽取)】按钮,在弹出的对话框中可以选择提取因子的方法及相关选项。 在【Method(方法)】框下拉列表框中可以选择因子提取方法。 Principal components:主成份分析法。该方法假设变量是因子的纯线性组合。第一成分有最大的方差,后续的成分其可解释的方差逐个递减。 Unweighted least square :不加权最小二乘法。 Generalized lea
11、st squares :加权最小二乘法。 Maximum likelihood :极大似然法。 Principal axis factoring :主轴因子提取法。 Alphafa ctoring:因子提取法。 Image factoring:映象因子提取法。9.1 SPSS在因子分析中的应应用 【Analyze(分析)】选项组 Correlation matrix:相关系数矩阵,系统默认项。 Covariance matrix:协方差矩阵。 【Display(输出)】选项组:输出与因子提取有关的选项。 Unrotated factor solution:输出未经旋转的因子提取结果。此项为系统
12、默认的输出方式。 Scree plot:输出因子的碎石图。它显示了按特征值大小排列的因子序号。它有助于确定保留多少个因子。典型的碎石图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。9.1 SPSS在因子分析中的应应用 【Extract(抽取)】 选项组:输出与提取结果有关的选择项。由于理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因子代替多个原始变量,选择提取多少个因子是由本栏来决定。 Eigenvalues over:指定提取的因子的特征值数目。在此项后面的矩形框中给出输入数值(系统默认值为1),即要求提取那些特征值大于1 的因子。 Nu
13、mber of f actors:指定提取公因子的数目。用鼠标单击选择此项后,将指定其数目。 Maximum iterations for Convergence:在对应的文本框中指定因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。9.1 SPSS在因子分析中的应应用Step05:选择因子旋转方法 单击【Rotation】按钮,在弹出的对话框可以选择因子旋转方法及相关选项。9.1 SPSS在因子分析中的应应用【Method(方法)】选项组选择旋转方法。None:不进行旋转,此为系统默认的选择项。Varimax:方差最大旋转法。这是一种正交旋转方法。它使每个因子具有最高载荷的变量数最小
14、,因此可以简化对因子的解释。 Direct Oblimin:直接斜交旋转法。指定此项可以在下面的“Delta”矩形框中键入值,该值应该在01 之间。系统默认的值为0。Quartma:四次方最大正变旋转法。该旋转方法使每个变量中需要解释的因子数最少。Equamax:平均正交旋转法。Promax:斜交旋转方法。允许因子彼此相关。它比直接斜交旋转更快,因此适用于大数据集的因子分析。指定此项可以在下面的“Kappa”矩形框中键入“”值,默认为4(此值最适合于分析)。【Display(输出)】选项组:选择有关输出显示。 Rotated solution:旋转解。在Method栏中指定旋转方法才能选择此项
15、。 Lodingp lot(s):因子载荷散点图。指定此项将给出以前两因子为坐标轴的各变量的载荷散点图。 Maximum iterations for Convergence:可以指定旋转收敛的最大迭代次数。系统默认值为25。可以在此项后面的文本框中输入指定值。9.1 SPSS在因子分析中的应应用Step06:选择因子得分单击【Scores】按钮,在弹出的对话框中可以选择因子得分方法及相关选项。具体选项含义如下。9.1 SPSS在因子分析中的应应用【Save as variables(保存为变量)】选项组:将因子得分作为新变量保存在数据文件中。 Save as variables:将因子得分作
16、为新变量保存在工作数据文件。中。程序运行结束后,在数据窗中显示出新变量。【Method(方法)】选项组:指定计算因子得分的方法。Regression:回归法。选择此项,其因子得分的均值为0。方差等于估计的因子得分与实际因子得分值之间的复相关系数的平方。 Bartlett:巴特利特法。选择此项,因子得分均值为0。超出变量范围的各因子平方和被最小化。Anderson-Rubin:安德森一鲁宾法。选择此项,是为了保证因子的正交性。本例选中“Regression”项。 在输出窗中显示因子得分。 Display factor score coefficient matrix:输出因子得分系数矩阵。9.1
17、 SPSS在因子分析中的应应用Step07:其他选项输出单击【Options】按钮,在弹出的对话框中可以选择一些附加输出项。具体选项含义如下。9.1 SPSS在因子分析中的应应用【MissingValues(缺失值)】选项组:选择处理缺失值方法。 Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。 Exclude cases pairwise:成对剔除带有缺失值的观测量。 Replace with mean:用该变量的均值代替工作变量的所有缺失值。【Coefficient Display Format(系数显示格式)】选项组:选择载荷系数的显示格式。
18、Sorted by size:将载荷系数按其大小排列构成矩阵,使在同一因子上具有较高载荷的变量排在一起。便于得出结论。 Suppress absolute values less than:不显示那些绝对值小于指定值的载荷系数。选择此项后还需要在该项的参数框中键入01之间的数作为临界值。系统默认的临界值为0.10。Step08:单击【OK】按钮,结束操作,SPSS软件自动输出结果。9.1 SPSS在因子分析中的应应用9.1.3 9.1.3 实例分析:居民消费结构的变动实例分析:居民消费结构的变动1. 1. 实例内容实例内容 消费结构是指在消费过程中各项消费支出占居民总支出的比重。它是反映居民生
19、活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。而消费结构的变动不仅是消费领域的重要问题, 而且也关系到整个国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高, 而且也为建立合理的产业结构和产品结构提供了重要的依据。 表9-1是某市居民生活费支出费用,具体分为食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、文教娱乐及服务、居住和杂项商品与服务等8个部分。请利用因子分析探讨该市居民消费结构,为产业政策的制定和宏观经济的调控提供参考。9.1 SPSS在因子分析中的应应用2. 实实例操作 数据文件9-1.sav是某市居民在食品、衣着、医疗保健等
20、八个方面的消费数据,这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,无法能够分析居民消费结构的特点。因此,可以考虑采用因子分析,将这八个指标综合为少数几个因子,通过这些公共因子来反映居民消费结构的变动情况。9.1 SPSS在因子分析中的应应用3. 实实例结结果及分析(1)描述性统计表 下表显示了食品、衣着等这八个消费支出指标的描述统计量,例如均值、标准差等。这为后续的因子分析提供了一个直观的分析结果。可以看到,食品支出消费所占的比重最大,其均值等于39.4750%,其次是文化娱乐服务支出消费和交通通信支出消费。所有的消费支出中,医疗保健消费支出占的比重最低。9.1 SPSS在因子分析
21、中的应应用Mean Std. Deviation Analysis N 食品 39.4750 2.29705 8衣着 6.4875 .86592 8家庭设备用品及服务 7.9125 2.87772 8医疗保健 6.3625 1.54729 8交通和通信 8.1750 2.61302 8文化娱乐服务 14.4750 2.30016 8居住 12.1625 2.91545 8杂项商品与服务 2.9125 .52491 89.1 SPSS在因子分析中的应应用(2)因子分析共同度 下表是因子分析的共同度,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度。它表明,对原有八个变量如果采用主
22、成分分析法提取所有八个特征根,那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。 事实上,因子个数小于原有变量的个数才是因子分析的目的,所以不可能提取全部特征根。于是,第二列列出了按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,所有变量的绝大部分信息(全部都大于83)可被因子解释,这些变量信息丢失较少。因此本次因子提取的总体效果理想。9.1 SPSS在因子分析中的应应用Initial Extraction食品 1.000 .842 衣着 1.000 .842家庭设备用品及服务 1.000 .976医疗保健 1.000 .954交通和通信 1
23、.000 .925文化娱乐服务 1.000 .953居住 1.000.978杂项商品与服务 1.000.9479.1 SPSS在因子分析中的应应用 (3)因子分析的总方差解释 接着Spss软件计算得到相关系数矩阵的特征值、方差贡献率及累计方差贡献率结果如表9-4所示。在下页表中,第一列是因子编号,以后三列组成一组,组中数据项的含义依次是特征根、方差贡献率和累计贡献率。 第一组数据项(第二至第四列)描述了初始因子解的情况。可以看到,第一个因子的特征根值为4.316,解释了原有8个变量总方差的53.947。前三个因子的累计方差贡献率为94.196,并且只有它们的取值大于1。说明前3个公因子基本包含
24、了全部变量的主要信息,因此选前3个因子为主因子即可。 同时,Extraction Sums of Squared Loadings和Rotation Sums of Squared Loadings部分列出了因子提取后和旋转后的因子方差解释情况。从表中看到,它们都支持选择3个公共因子。9.1 SPSS在因子分析中的应应用因子分析的总方差解释 9.1 SPSS在因子分析中的应应用(4)因子碎石图 下图为因子分析的碎石图。横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征值很高,对解释原有变量的贡献最大;第三个以后的因子特征根都较小,取值都小于1,说明它们对解释原有变量的贡献很小,称为可
25、被忽略的“高山脚下的碎石”,因此提取前三个因子是合适的。9.1 SPSS在因子分析中的应应用9.1 SPSS在因子分析中的应应用 (5)旋转前的因子载荷矩阵 下表中显示了因子载荷矩阵,它是因子分析的核心内容。通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看,大部分因子解释性较好,但是仍有少部分指标解释能力较差,例如“食品”指标在三个因子的载荷系数区别不大。因此接着采用因子旋转方法使得因子载荷系数向0或1两极分化,使大的载荷更大,小的载荷更小。这样结果更具可解释性。9.1 SPSS在因子分析中的应应用旋转前的因子载荷矩阵 9.1 SPSS在因子分析中的应应用(6)旋转后的因子
26、载荷矩阵 下表中显示了实施因子旋转后的载荷矩阵。可以看到,第一主因子在“交通和通信”和“医疗保健”等五个指标上具有较大的载荷系数,第二主因子在“居住”和“衣着”指标上系数较大,而第三主因子在“杂项商品与服务”上的系数最大。此时,各个因子的含义更加突出。9.1 SPSS在因子分析中的应应用实施因子旋转后的载荷矩阵 9.1 SPSS在因子分析中的应应用 可以看出第一个公因子主要反映了交通和通信、医疗保健、文化娱乐服务、家庭设备用品及服务和食品上有较大载荷,说明第一个公因子综合反映这几个方面的变动情况,可以将其命名为第一基本生活消费因子,即享受性消费因子。 第二个公因子在居住、衣着上的载荷系数较大,
27、代表了这两个方面的变动趋势,可以将其命名为第二基本生活消费因子,即发展性消费因子。 第三个公因子在杂项商品与服务上的消费变动较大,因此可以将第三个公因子命名为第三基本生活消费因子,即其他类型消费因子。 9.1 SPSS在因子分析中的应应用(7)因子得分系数 下表中列出了采用回归法估计的因子得分系数。根据表中内容可写出以下因子得分函数: 因子F1=-0.198X1+0.058X2-0.226X3+0.212X4+0.221X5+0.211X6+0.079X7+0.015X8; 因子F2=0.123X1+0.425X2+0.200X3+0.094X4+0.008X5+0.096X6-0.498X7
28、+0.015X8; 因子F3=0.365X1-0.059X2-0.174X3+0.069X4+0.119X5-0.077X6-0.088X7+0.779X8;9.1 SPSS在因子分析中的应应用因子得分系数 9.1 SPSS在因子分析中的应应用 不仅如此,原数据文件中增加了FAC1_1、FAC2_1和FAC3_1三个变量,它们表示了三个因子在不同年份的得分值。为了进一步揭示因子的变动情况,绘制了如下图所示的因子变动趋势图。9.2 SPSS在聚类类分析中的应应用9.2.1 9.2.1 聚类分析的基本原理聚类分析的基本原理1 1、方法概述、方法概述 聚类分析又称群分析,它是研究(样品或指标)分类问
29、题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。 2 2、聚类分析的分类、聚类分析的分类根据分类对象的不同可分为样品聚类和变量聚类。(1)样品聚类 样品聚类在统计学中又称为Q 型聚类。用SPSS 的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。它是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。由上图可以看出,在20002007年期间,第一公因子除了在开始阶段有些下降外,此后每年都在逐步回升,并于2006年达到最高点。这主要是由于前几年国企改革和中国经济的软着陆,下岗职工大量增加,因此这段时间人们在享受性消费上的支出是减少的,而在其他基本
30、生活消费上的支出增加。而随着经济的发展和收入的增加,享受性消费逐步增加,其他生活消费由于享受性消费的突然增加而减少后也会逐渐增加。第二公因子得分的起伏波动主要是由市民住房比重有升有降的变动引起的,根本原因还是和国家执行住房改革的力度密切相关,但由于住房改革政策的推行相对于其他政策而言较为缓慢,所以市民对住房消费存在一定的不确定性,这就造成了住房比重在总消费中的升降变化。第三公因子一直波动不已,这说明市民在杂项上的消费仍有较大的发展空间。9.2 SPSS在聚类类分析中的应应用(2)变量聚类 变量聚类在统计学又称为R 型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物
31、的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。 值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。9.2 SPSS在聚类类分析中的应应用3 3、距离和相似系数、距离和相似系数 为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的
32、绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大。9.2 SPSS在聚类类分析中的应应用常用的距离和相似系数定义如下:(1)距离如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:明氏(Minkowski)距离当q=1时 即绝对距离当q=2时 即欧氏距
33、离当 时 即切比雪夫距离q qpaqjaiaijxxqd11)(11( )qpqijiajaadqxx1( 1 )pi ji aj aadxx1221( 2 )()pi ji aj aadxx1()ma xi ji aj aapdxxq9.2 SPSS在聚类类分析中的应应用马氏(Mahalanobis)距离 其中 表示指标的协差阵,即: 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。21()()()ijijijd MXXXX()i jpp11()() i,j 1,p1nijijaiajaxx
34、xxn1111 xnnjia ia jaaxxxnn9.2 SPSS在聚类类分析中的应应用 兰氏(Canberra)距离 它是由Lance和Williams最早提出的,故称兰氏距离。 此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。 11( ) i,j 1, ,npiajaijaiajaxxd Lpxx0i jx9.2 SPSS在聚类类分析中的应应用(2)相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有: 夹角余弦将任何两个样品 与 看成p维空间的两个向量,这两个向量的夹
35、角余弦用 表示。则当 ,说明两个样品 与 完全相似; 接近1,说明 与 相似密切; ,说明 与 完全不一样; 接近0,说明 与 差别大。1ij2211cos 1cos1piajaaijppiajaaax xxxco sijiXcosijiXjXcos0ijiXjXiXjXcos1ijcosijiXiXjXjX9.2 SPSS在聚类类分析中的应应用 相关系数 通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相关系数定义为:其中 聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等。本节主要介绍使用较多的快速
36、聚类法和系统聚类法。12211()() -11()()pijiajaaijijppijiajaaaxxxxrrxxxx1111 ppijiajaaaxxxxpp9.2 SPSS在聚类类分析中的应应用9.2.2 快速聚类类法的SPSS操作详详解 K-均值聚类法又叫快速聚类法,可以用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下: 1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。 2、确定k个初始类的中心。两种方式:一种是用户指定方式,二是根据数据本身结
37、构的中心初步确定每个类别的原始中心点。 3、根据距离最近原则进行分类。逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点 4、按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类。 5、重复步骤4,直到达到一定的收敛标准。 这种方法也常称为逐步聚类分析,即先把被聚对象进行初始分类,然后逐步调整,得到最终分类。9.2 SPSS在聚类类分析中的应应用Step01:打开对话框 选择菜单栏中的【Analyze(分析)】【Classify(分类)】【K-Means Cluster(K均值聚类)】命令,弹出【K-Means Clus
38、ter Analysis(K均值聚类分析)】对话框,这是快速聚类分析的主操作窗口。9.2 SPSS在聚类类分析中的应应用 Step02:选择聚类分析变量 在【K-Means Cluster Analysis(K均值聚类分析)】对话框左侧的候选变量列表框中选择进行聚类分析的变量,将其添加至【Variables(变量)】列表框中。同时可以选择一个标识变量移入【Label Cases by(个案标记依据)】列表框中。Step03:确定分类个数 在【Number of Clusters(聚类数)】列表框中,可以输入确定的聚类分析数目,用户可以根据需要自行修改调整。系统默认的聚类数为2.Step04:选
39、择聚类方法 在【Method(方法)】下拉列表框中可以选择聚类方法。系统默认值选择【Iterative and classify(迭代与分类)】项。 Iterate and classify:选择初始类中心,在迭代过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。 Classify only:只使用初始类中心对观测量进行分类,聚类中心始终不变。9.2 SPSS在聚类类分析中的应应用Step05:聚类中心的输入与输出 在主对话框中,【Cluster Centers(聚类中心)】选项组表示输入和输出聚类中心。用户可以指定外部文件或数据集作为初始聚类中心点,也可以将聚类分析的聚
40、类中心结果输出到指定文件或数据集中。 Read initial:要求使用指定数据文件中的观测量或建立数据集作为初始类中心。 Write final as File:要求把聚类结果中的各类中心数据保存到指定的文件或数据集中。9.2 SPSS在聚类类分析中的应应用 在主对话框中单击Iterate(迭代)按钮,打开设置迭代参数的对话框图,这里可以进一步选择迭代参数。 Maximum Iterations:输入K-Means 算法中的迭代次数。改变后面参数框中的数字,则改变迭代次数。当达到限定的迭代次数上限时,即使没有满足收敛判据,迭代也停止。系统默认值为10。选择范围为1-999。 Converge
41、nce Criterion:指定K-Means 算法中的收敛标准,输入一个不超过1的正数作为判定迭代收敛的标准。系统缺省的收敛标准是0.02,表示当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的百分之2%时迭代停止。提示:如果设置了以上两个参数,只要在迭代过程中满足了一个参数,迭代就停止。 Use running means:使用移动平均。选中该复选框,限定在每个观测量被分配到一类后立刻计算新的类中心。如果不选择此项,则在完成了所有观测量的一次分配后再计算各类的类中心,这样可以节省迭代时间。9.2 SPSS在聚类类分析中的应应用Step07:输出聚类结果在主对话框中单击【Save(保
42、存)】按钮,弹出【Save New Variables(保存新变量)】对话框,它用于选择保存新变量。 Cluster membership:在当前数据文件中建立一个名为“qcl_1”新变量。其值表示聚类结果,即各观测量被分配到哪一类。它的取值为1、2、3的序号。 Distance from cluster center:在当前数据文件中建立一个名为“qcl_2”新变量。其值为各观测量与所属类中心之间的欧氏距离。9.2 SPSS在聚类类分析中的应应用Step08:其他选项输出在主对话框中单击【Option(选项)】按钮,弹出【Option(选项)】对话框,它用于指定要计算的统计量和对带有缺失值的
43、观测量的处理方式。具体见图 :【Statistics(统计量)】选项组:选择输出统计量。 Initial cluster centers:初始聚类中心。 ANOVA table:方差分析表。Cluster information for each case:显示每个观测量的聚类信息。【Missing Values(缺失值)】选项组:选择处理缺失值方法。 Exclude cases listwise:分析变量中带有缺失值的观测量都不参与后续分析。 Exclude cases pairwise:成对剔除带有缺失值的观测量。Step09:单击【OK】按钮,结束操作,SPSS软件自动输出结果。9.2
44、SPSS在聚类类分析中的应应用9.2.3 实实例分析:全国环境污染程度分析 为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。 9.2 SPSS在聚类类分析中的应应用 现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”、“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。 打随书光盘中的数据文件9-
45、2.sav,选择菜单栏中的【Analyze(分析)】【Classify(分类)】【K-Means Cluster(K均值聚类)】命令,弹出【K-Means Cluster Analysis(K均值聚类分析)】对话框。 在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【Label Cases by(个案标记依据)】列表框中。 在【Number of Clusters(聚类数)】文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。 单击【Save(保存)】按钮,弹出【K-Means
46、Cluster Analysis:Save(K均值聚类分析:保存)】对话框;勾选【Cluster membership(聚类新成员)】和【Distance from cluster center(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框。 单击【Options(选项)】按钮,弹出【K-Means Cluster Analysis:Options(K均值聚类分析:选项】对话框;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击【Continue(
47、继续)】按钮返回主对话框,单击【OK(确定)】按钮完成操作。9.2 SPSS在聚类类分析中的应应用实实例结结果及分析(1)快速聚类分析的初始中心 SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。 快速聚类分析的初始中心9.2 SPSS在聚类类分析中的应应用(2)迭代历史表 下表显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。迭代历史表 9.2 SPSS在聚类类分析中的应应用
48、(3)聚类分析结果列表 通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。 表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。9.2 SPSS在聚类类分析中的应应用(4)最终聚类分析中心表 如下表所示列出了最终聚类分析中心。可以看到,最后的中
49、心位置较初始中心位置发生了较大的变化。最终聚类分析中心 9.2 SPSS在聚类类分析中的应应用 (5)最终聚类中心位置之间的距离 如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。最终聚类中心位置之间的距离 9.2 SPSS在聚类类分析中的应应用(6)方差分析表 如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证了聚类分析结果的有效性。 方差分析表
50、 9.2 SPSS在聚类类分析中的应应用(7)聚类数目汇总 如下表所示是聚类数据汇总表,显示了聚类分析最终结果中各个类别的数目。其中第一类的数目最多,等于20;而第三类的数目最少,只有4个。聚类数目汇总表 9.2 SPSS在聚类类分析中的应应用9.2.4 系统统聚类类法的SPSS操作详详解 系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。同时根据聚类过程不同,又分为分解法和凝聚法。 分解法:开始把所有个体(观测量或变量)都视为同属一大类,然后根据距离和相似性逐层分