1、第第12章章 因子分析与对应分析因子分析与对应分析 主成分分析是将多个指标化为少数相互无关的综合指标的统计方法,通常数学上的处理就是将原来的p个指标做线性组合,作为新的综合指标,记第一个综合指标为F1。 选取这个线性组合的原则是令F1的方差最大,称F1为第一主成分;然后选取第二主成分F2,且F1与F2的协方差为0,类似构造其余的主成分。主成分分析主成分分析【Factor】过程过程对观测量数目没有严格要求第一节第一节 因子分析因子分析【FACTOR】过程主成分分析的推广和发展,对观测量数目要求至少是变量的5倍以上,且越多越好 一、因子分析简介做什么? 因子分析是多元统计分析中处理降维的一种统计方
2、法,它主要将具有错综复杂关系的变量或者样品综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。基本思想: (1)首先,通过变量(或样品)的相关系数矩阵(或相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量(常称为因子)去描述多个变量(或样品)之间的相关(相似)关系; (2)然后,根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间的相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。依据处理的对象不同,可以分为两类: R型因子分析,对变量变量做降维处理 Q型因子分析,对样本样本做降维处理 R型因子分析因子分析的几个概念:
3、1、因子载荷2、变量共同度 3、公因子Fj的方差贡献 4、因子旋转 因子旋转的目的是为了使得因子载荷阵的结构简化,便于对公共因子进行解释。 这里所谓的结构简化是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上载荷比较小。 这种变换因子载荷阵的方法称为因子轴的旋转。旋转的方法有很多种,如正交旋转,斜交旋轴等。 5、因子得分因子分析的一般步骤二、引例二、引例(练习一)(练习一)例1 利用因子分析过程分析各个城市的市政设施建设情况。数据文件:“各地区城市市政设施.sav”,下表是部分数据。【Analyze】/【Data Reduction】/【Factor】要求:选入分析变量(因子分析的
4、变量)(定义记录旋转条件)要求:输出相关系数矩阵;进行因子分析适用条件的检验Descriptives:选择需要输出的统计量(统计量)单变量描述统计量:各分析变量的均值、标准差及观测数原始分析结果:原变量的公因子方差、与变量相同个数的因子、各因子的特征根及其所占总方差的百分比和累计百分比(相关矩阵)所有变量间的相关系数矩阵显著性水平相关系数矩阵的行列式值KMO 检验和Bartlett球形检验相关系数矩阵的逆矩阵再生相关系数矩阵反映像协方差阵和相关阵要求:输出碎石图Extraction:选择因子提取的方法(选择公共因子的提取方法)公共因子的提取方法:(1)主成分分析法(默认);(2)不加权最小二乘
5、法;(3)广义最小二乘法;(4)极大似然法;(5)主轴因子法;(6) 因子法;(7)影像因子法相关矩阵协方差矩阵(设定公共因子提取标准)显示未经旋转变换的因子提取结果显示碎石图,体现各因子重要程度自定义提取因子的数量以特征根大于指定数值为提取标准(收敛时的最大迭代次数)Rotation:选择因子旋转的方法方差最大化正交旋转斜交旋转法四分旋转法平均正交旋转法斜交旋转法(设置旋转解的输出)(因子旋转的方法)输出主成分转换矩阵输出二维或三维的因子载荷图要求:输出因子得分系数矩阵Factor Scores:因子得分(在数据文件中建立一个新变量,用于保存各观测量的因子得分)(因子得分计算方法)回归法巴特
6、列特法安德森-鲁宾法(输出因子得分系数矩阵及因子协方差矩阵)要求:用均值代替缺失值Options对话框(选择缺失值处理方法)(选择系数的输出方式)因子载荷矩阵和结构矩阵按数值大小排序不显示绝对值小于指定数的载荷系数变量间相关性很高结果解读:结果解读:1、相关系数矩阵表接近0.9,适合做因子分析拒绝原假设,认为各变量之间不独立 2、 KMO检验和Bartlett球形检验结果表 注: KMO检验用于检验变量间的偏相关系数是否过小,一般, KMO大于0.9时效果最佳,小于0.5时不适宜做因子分析。 Bartlett球形检验用于检验相关系数矩阵是否是单位阵,如果结论是不拒绝该假设,则表示各个变量都是各
7、自独立的。该变量95.4的信息已经被提取 3、变量共同度表给出了提取公共因子前后各变量的共同度(衡量公共因子的相对重要性指标)说明:比如变量X1的共同度位0.954,即提取的公共因子对变量X1的方差做出了95.4%的贡献。 4、主成分表列出了所有的主成分,且按照特征根从大到小次序排列。说明:第一主成分特征根为5.280,方差贡献率为88.001%,前两个主成分的累计贡献率为94.504%,根据提取因子的条件特征值大于1,本例只选出一个因子。提取一个主成分即可5、碎石图按照特征根大小排列的主成分散点图。纵坐标为特征值,横坐标为因子数。10.977 11,60.927 16XFXF 6、因子负荷矩
8、阵用来反映各个变量的变异主要由哪些因子解释。10.185 10.18220.16330.18240.17850.1766FXXXXXX 7、因子得分系数矩阵得出用各个变量的线性组合表达的主成分。 8、因子得分的协方差矩阵反映各因子间的联系程度。注:本例只提取了一个公共因子,故表格内容无实际意义。例2 利用因子分析过程分析一年内各个城市的日照情况。数据文件:“主要城市日照数.sav” 。【Analyze】/【Data Reduction】/【Factor】要求:选入分析变量要求:输出因子分析适用条件的检验要求:输出碎石图要求:输出因子得分系数阵要求:采用方差最大化正交旋转;输出因子载荷图结果解读
9、:结果解读: 1、 KMO检验和Bartlett球形检验结果表 说明: KMO检验结果为0.798,大于0.5,比较适合作因子分析; Bartlett球形检验的Sig.值为0,各变量不独立。2、变量共同度表说明:变量“Jan”的共同度为0.915,即选取的公共因子提取了变量“Jan”91.5%的信息。 3、主成分表说明:第一主成分特征根为6.854,方差贡献率为57.041%,前3个主成分的累积贡献率为84.421%,根据提取因子的条件特征值大于1,本例选出3个因子。 4、碎石图说明:前3个主成分的特征根都在1以上。5、因子载荷矩阵给出各变量的因子表达式。10.852 1 0.435 20.0
10、15 320.854 1 0.419 20.115 3120.562 1 0.164 20.715 3XFFFXFFFXFFF6、旋转后因子载荷矩阵经过正交旋转后的因子载荷矩阵,给出旋转后的各变量的因子表达式。10.837 10.014 20.463 320.882 10.013 20.375 3120.140 10.018 20.913 3XFFFXFFFXFFF说明:第一主因子主要由前5个变量决定,第二主因子主要由中间4个变量决定,第三主因子主要由最后3个变量决定。7、因子转换矩阵旋转前的因子载荷矩阵乘以因子转换矩阵等于旋转后的因子载荷矩阵。8、因子旋转后的因子载荷图图中的坐标轴就是各个主
11、因子。9、因子得分系数矩阵得到因子得分表达式。10.195 1 0.22920.25230.169 1220.142 1 0.12620.04830.100 1230.081 1 0.01520.08630.516 12FXXXXFXXXXFXXXX 10、因子得分的协方差矩阵说明:因子得分的协方差矩阵为单位阵,得出提取的3个公共因子之间是不相关的。第二节 简单对应分析【CORRESPONDEBCE ANALYSIS】过程又称列联表对应分析一、对应分析简介一、对应分析简介 对应分析是通过进行主成分分析来描述两个或多个分类变量各水平间相关性的分析方法,它的分析结果主要采用反映变量变量间相互关系的
12、对应分析图来表示。对应分析在SPSS中分为两类: 简单对应分析简单对应分析【Correspondebce Analysis】过程:主要研究两个分类变量之间的关系。 多元对应分析多元对应分析 【Optimal Scaling】过程对应分析表(列联表): 最后分别对行剖面点集和列剖面点集做主成分分析,以判断两个变量的联系情况。 例2 利用简单对应分析过程分析不同年龄段选民的倾向。数据文件:voter.sav二、引例二、引例(练习二)(练习二)【Analyze】/【Dimension Reduction】/【Correspondence Analysis】要求:选入行变量(取值范围为13)与列变量(
13、取值范围为14)(行变量)定义行变量取值范围(列变量)定义列变量取值范围Model:模式子对话框(设置分析结果维数)(选择距离测量方式)卡方距离欧氏距离,主要用于连续变量(变量的标准化方式)(正则化方法)对称法(默认)Satistics:设置需要输出的统计量输出对应分析表(列联表)输出行点概述表输出列点概述表输出行轮廓表输出列轮廓表指定的前n个维度输出基于行列得分的原始表格(输出行点和列点的标准差、以及各维度坐标间的相关系数)Plots:设置需要输出图形(输出对应分析图)双变量散点图行点图列点图限制标签长度输出各行变量分类对应于行得分的散点图输出各列变量分类对应于列得分的散点图(图形维度)输出
14、分析结果的所有维度限制输出维度的数目结果解读:1、对应分析表给出不同年龄阶段的人群分别投票给三位总统候选人的人数。2、结果汇总表列出维数、奇异值(惯量的平方根)、惯量(又指特征根)、总的卡方检验及Sig.值维数奇异值特征根总的卡方检验注:惯量用于说明对应分析各个维度的结果能够解释列联表中两个变量联系的程度。说明:表中两个维度分别解释了总信息量的99.6%和0.4%,说明二维图形完全可以表示两个变量间的信息,且观察时以第一维度为主。3、行点概述表给出行变量的3个分组在两个维度中的分值每组所占百分比每组所对各个维度的贡献量(点对维度惯量的贡献量)(维度对点惯量的贡献量)分组在第一、第二维度的坐标值
15、4、列点概述表给出列变量的4个分组在两个维度中的分值每组所占百分比分组在第一、第二维度的坐标值每组所对各个维度的贡献量(点对维度惯量的贡献量)(维度对点惯量的贡献量)5、对应分析图首先看同一变量的不同分组在某一侧维度上靠的远近程度,较近表示这些分组在该维度上区别不大,比如第二维度;然后看不同变量的各分组间的位置,从图形中心(0,0)出发,相同方位上大致相同的区域内的不同变量的分组彼此有联系。说明:可看出4564岁这个阶段的选民都倾向于克林顿,其他的没有明显的倾向性。第三节 最优尺度分析【Optimal Scaling】过程初步认识【Analyze】/【Dimension Reduction】/
16、【Optimal Scaling】多元对应分析分类变量主成分分析非线性典型相关分析分析变量中存在无序多分类变量时(确定是在不同变量间分析还是在几组变量间分析)(当数据中存在复选集变量时)(分析方法) 在SPSS中【Optimal Scaling】过程提供了三种分析方法:(1)多元对应分析多元对应分析(Multiple Correspondence Analysis) 所有变量均在名义测量时使用,用于分析多个无序分类变量间的关系。(2)分类变量的主成分分析分类变量的主成分分析(Categorical Principal Components) 当一些变量为有序分类或者连续性变量时使用,该方法使用
17、主成分提取方式,以尽量稍等主成分解释尽量多的原始信息。(3)非线性典型相关分析非线性典型相关分析(Nonlinear Canonical Correlation) 当分析变量中有复选集变量时,用于分析两个或多个变量集之间的关系,运行变量为任何类型。注:每个模型适用于不同的数据情况。最优尺度分析的优点:(1)可以同时分析多个分类变量间的关系;(2)可以同时处理各种类型的变量,如对无序多分类变量、有序多分类变量和连续性变量进行分析;(3)对多选题的分析提供支持。缺点:不能自动筛选变量,变量较多时会影响分析结果。要求:掌握要求:掌握(1) 因子分析【Factor】过程(2)简单对应分析【Correspondebce Analysis】过程