1、第10章主成分分析与因子分析主成分分析与因子分析 主成分分析主成分分析因子分析因子分析中央财经大学统计学院学习目标学习目标l1.1.主成分分析的基本思想主成分分析的基本思想l2.2.主成分分析的软件实现和结果分析主成分分析的软件实现和结果分析l3.3.因子分析的基本思想因子分析的基本思想l4.4.因子分析的软件实现和结果分析因子分析的软件实现和结果分析2中央财经大学统计学院 2主成分分析主成分分析中央财经大学统计学院主成分分析的原理主成分分析的原理l多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存
2、在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维降维”的思想。l“主成分分析”、“因子分析”都可以用来对数据进行降维。4中央财经大学统计学院 4主成分分析的基本思想主成分分析的基本思想l主成分分析(Principal components analysis)是由Hotelling于1933年首先提出的。l由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。l当这些变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个提取的
3、过程,直到提取足够多的信息为止。这就是主成分分析的思想。5中央财经大学统计学院 5主成分分析的基本思想主成分分析的基本思想l主成分分析适用于原有变量之间存在较高程度相关的情况。l在主成分分析适用的场合,一般可以用较少的主成分得到较多的信息量,从而得到一个更低维的向量。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。6中央财经大学统计学院 6例:斯通关于国民经济的研究例:斯通关于国民经济的研究l一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料
4、和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。l在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。7中央财经大学统计学院 7主成分分析的几何意义主成分分析的几何意义2x1x2x如果仅考虑X1或X2中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃x1或x2分量不是“降维”的有效办法。8中央财经大学统计学院 8主成分分析的几何意义主成分分析的几何意义平移、旋转坐标轴1F2F2x1x2x对坐标轴进行旋转,n个点在F1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,欲将二维空间的点投影到某个一维方向上,则选择F1轴方向能使信
5、息的损失最小。9中央财经大学统计学院 9主成分分析的几何意义主成分分析的几何意义l第一主成分的效果与椭圆的形状有关。椭圆越扁平,n个点在F1轴上的方差就相对越大,在F2轴上的方差就相对越小,用第一主成分代替所有样品造成的信息损失就越小。10中央财经大学统计学院 102x1x1F2F主成分分析的几何意义主成分分析的几何意义l原始变量不相关时,主成分分析没有效果。11中央财经大学统计学院 112x1x1F2F 主成分分析的几何意义主成分分析的几何意义l原始变量相关程度越高,主成分分析效果越好。12中央财经大学统计学院 12主成分分析的数学模型主成分分析的数学模型ppppppppppxaxaxaFx
6、axaxaFxaxaxaF22112222121212121111方程满足下列条件:(1)(2)Fi与Fj不相关。(3)F1与Fp到 方差依次递减。122221ipiiaaa13中央财经大学统计学院 13主成分分析的数学模型主成分分析的数学模型l有p个x,相应可以计算出p个主成分。但一般只使用少数几个主成分就可以提取大部分信息。l主成分分析的基本任务是计算系数矩阵a11 app。14中央财经大学统计学院 14主成分求解的步骤主成分求解的步骤l主成分可以按以下步骤计算得出:l计算原始变量的相关系数矩阵R。l计算相关系数矩阵R的特征值,并按从大到小的顺序排列,记为l 计算特征值对应的特征向量,即为
7、主成分F1Fp相应的系数。p2115中央财经大学统计学院 15主成分得分主成分得分l把原始变量的值代入主成分表达式中,可以计算出主成分得分。l注意在计算主成分得分时需要先对原始变量进行标准化。l得到的主成分得分后,可以把各个主成分看作新的变量代替原始变量,从而达到降维的目的。16中央财经大学统计学院 16主成分的贡献率主成分的贡献率l对于第k个主成分,其对方差的贡献率为l前k个主成分贡献率的累计值称为累计贡献率。piik117中央财经大学统计学院 17主成分个数的确定主成分个数的确定l通常有两种方式:l1、根据大于1的特征值的个数确定主成分的个数;l2、根据主成分的累计贡献率确定主成分的个数,
8、使累计贡献率85%或者其他值。l最常见的情况是主成分的个数为2-3个。18中央财经大学统计学院 18主成分分析的应用主成分分析的应用l主成分回归。即把各主成分作为新自变量代替原来自变量x做回归分析。还可以进一步还原得到Y与x的回归方程(可以避免多重共线性的问题)。l用于综合评价。l按照单个的主成分(例如第一主成分)可以对个体进行排序。l按照几个主成分得分的加权平均值对个体进行排序也是一种评价方法。一般用各个主成分的方差贡献率加权。由于加权得分缺少实际意义,这种方法理论上有争议。19中央财经大学统计学院 19主成分分析在主成分分析在SPSS中的实现中的实现lSPSS没有直接提供主成分分析的功能,
9、需要借助于“因子分析”的模块实现。l用SPSS进行主成分分析有几个操作环节需要特别注意。l下面我们以讲义中应聘的例子加以说明。20中央财经大学统计学院 20主成分分析在主成分分析在SPSS中的实现中的实现l1、在SPSS中打开数据文件(或者录入数据)。21中央财经大学统计学院 21主成分分析在主成分分析在SPSS中的实现中的实现l2、选择“分析”“降维”“因子分析”。l3、把除了“编号”以外的变量选入“变量”框;l4、单击“描述”按钮,在弹出的对话框中选中“系数”,以输出相关系数。l其余选项使用默认值。单击“确定”。22中央财经大学统计学院 22SPSS结果分析:相关系数表结果分析:相关系数表
10、l相关系数表中有较大的相关系数,主成分分析可能有效。自信心洞察力诚信度推销能力工作经验简历格式.092.228-.107.271.548外貌.431.371.354.490.141研究能力.001.077-.030.055.266兴趣爱好.302.483.645.362.141自信心1.000.808.410.800.015洞察力.8081.000.356.818.147诚信度.410.3561.000.240-.156推销能力.800.818.2401.000.255工作经验.015.147-.156.2551.000工作魄力.704.698.280.815.337志向抱负.842.758.
11、215.860.195理解能力.721.883.386.782.299潜能.672.777.416.754.348求职渴望度.482.527.448.563.215适应力.250.416.003.558.69323中央财经大学统计学院 23特征值和贡献率特征值和贡献率l前4个特征值为7.51,2.05,1.46,1.20。l默认提取4个主成分,累计贡献率为81.49%。24中央财经大学统计学院 24因子载荷矩阵因子载荷矩阵l这个表是因子分析的因子载荷矩阵,不是特征向量矩阵。l要得到特征向量,需要将各列除以对应特征值的平方根。第1列除以根号7.5,第二列除以根号2.05,等等。25中央财经大学统
12、计学院 25特征向量特征向量l这是根据SPSS的结果在Excel计算出的特征向量。l根据这个表可以写出4个主成分的表达式。成份成份1 12 23 34 4简历格式简历格式0.162 0.162 0.429 0.429 0.315 0.315-0.094-0.094 外貌外貌0.213 0.213-0.035-0.035-0.023-0.023 0.262 0.262 研究能力研究能力0.040 0.040 0.237 0.237-0.430-0.430 0.636 0.636 兴趣爱好兴趣爱好0.225 0.225-0.130-0.130 0.466 0.466 0.345 0.345 自信心
13、自信心0.290 0.290-0.249-0.249-0.241-0.241-0.173-0.173 洞察力洞察力0.315 0.315-0.131-0.131-0.150-0.150-0.071-0.071 诚信度诚信度0.158 0.158-0.405-0.405 0.284 0.284 0.416 0.416 推销能力推销能力0.324 0.324-0.029-0.029-0.186-0.186-0.198-0.198 工作经验工作经验0.134 0.134 0.553 0.553 0.083 0.083 0.068 0.068 工作魄力工作魄力0.315 0.315 0.046 0.0
14、46-0.080-0.080-0.156-0.156 志向抱负志向抱负0.318 0.318-0.068-0.068-0.209-0.209-0.199-0.199 理解能力理解能力0.331 0.331-0.023-0.023-0.117-0.117 0.075 0.075 潜能潜能0.333 0.333 0.022 0.022-0.073-0.073 0.188 0.188 求职渴望度求职渴望度0.259 0.259-0.082-0.082 0.467 0.467-0.201-0.201 适应力适应力0.236 0.236 0.421 0.421 0.089 0.089-0.020-0.0
15、20 26中央财经大学统计学院 26主成分表达式主成分表达式lF1=0.162简历格式*+0.213外貌*+0.040学习能力*+0.236适应力*。l式中带星号的变量表示标准化后的变量l其余主成分的表达式依此类推。l把标准化后的各个变量带入方程可以计算出主成分得分。27中央财经大学统计学院 27用用SPSS计算的主成分得分计算的主成分得分l1、把原始变量标准化;按照主成分的计算公式可以计算出主成分得分。l注:SAS、S-plus、R等软件可以直接给出主成分的系数表和主成分得分。28中央财经大学统计学院 28主成分分析案例主成分分析案例2l100个学生的六门成绩(数学、物理、化学、个学生的六门
16、成绩(数学、物理、化学、语文、历史、英语)见语文、历史、英语)见STUDENT.SAV。l根据数据进行主成分分析。根据数据进行主成分分析。29中央财经大学统计学院 29SPSS结果分析结果分析l有比较高的相关系数,可以使用主成分分析方法。30中央财经大学统计学院 30特征值和贡献率特征值和贡献率l前2个主成分的贡献率为81.42%。31中央财经大学统计学院 31成分矩阵和特征向量成分矩阵和特征向量l成分矩阵各列除以相应的特征值可以得出特征向量。第第1主成分主成分第第2主成分主成分数学数学-0.41700.3313物理物理-0.34880.4986化学化学-0.34910.4818语文语文0.4
17、6190.2877历史历史0.42690.4090英语英语0.43250.3996特征向量特征向量除以根号3.735除以根号1.13332中央财经大学统计学院 32主成分得分主成分得分lcom1,com2为用公式计算出的主成分得分。33中央财经大学统计学院 33因子分析因子分析中央财经大学统计学院因子分析因子分析l因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为
18、因子。35中央财经大学统计学院 35一个例子一个例子l例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。l 但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。36中央财经大学统计学院 36因子分析的例子因子分析的例子l这三个公共因子可以表示为:iiiiiiFFFx33221124,1i 称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。321F
19、FF、i37中央财经大学统计学院 37因子分析与主成分分析的区别因子分析与主成分分析的区别l主成分分析分析与因子分析不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。l 主成分分析:原始变量的线性组合表示新的综合变量,即主成分;l 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。38中央财经大学统计学院 38因子分析的数学模型因子分析的数学模型l假设有p个变量X,有m个因子(mp),则因子分析的数学模型可以表示如下:i=1ml称 为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。1 1iiiimmiXa Fa F)(pm
20、mFFF,21i39中央财经大学统计学院 39因子分析的数学模型因子分析的数学模型l因子 之间互不相关,并且方差等于1。l因子载荷 是第i个变量与第j个公共因子的相关系数,反映了第j个公共因子对第i个变量的影响程度。mFFF,21 ija40中央财经大学统计学院 40变量共同度变量共同度l如果对变量X进行了标准化,可以证明l定义 为变量 Xi 的共同度。l变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。mjiija1221mjijiah12241中央财经大学统计学院 41公共因子公共因子Fj的方差贡献的方差贡献l因子载荷矩阵中各列元素的平方和 称为公共因子Fj对原始
21、变量 X的方差贡献。可以衡量衡量因子 的相对重要性。piijjaS12jF42中央财经大学统计学院 42因子载荷矩阵的估计因子载荷矩阵的估计l因子载荷矩阵的估计方法有多种,估计结果并不唯一。l最常用的方法之一是主成分法:求解变量X的前m个主成分,进行简单后的数学变换就可以得到因子载荷矩阵。l与主成分分析类似,可以根据因子的累计贡献率确定因子的个数。43中央财经大学统计学院 43因子旋转因子旋转 l因子分析中得出的各个因子如果有明确的含义,则因子分析的模型会更加易于解释和有实际意义。l在因子分析中可以对因子载荷阵进行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小
22、。通过旋转,因子可以有更加明确的含义。l常用的一种方法是方差最大旋转。44中央财经大学统计学院 44因子得分l前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。l如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,就需要计算每个个体在每个因子上的得分。45中央财经大学统计学院 45因子得分的计算因子得分的计算l要计算因子得分,需要估计以下表达式:要计算因子得分,需要估计以下表达式:l因子得分有多种计算方法,常用的一种是因子得分有多种计算方法,常用的一种是回归法。回归法。l如果对变量都进行了标准化,则模型中没如果对变量都进行了标准化
23、,则模型中没有常数项。有常数项。pjpjjjXbXbbF110()46中央财经大学统计学院 46因子分析的步骤因子分析的步骤l1根据问题选取原始变量;l2求其相关阵R,探讨其相关性;l3从R求解初始公共因子F及因子载荷矩阵A(主成分法);l4因子旋转,分析因子的含义;l5计算因子得分函数;l6根据因子得分值进行进一步分析(例如综合评价)。47中央财经大学统计学院 47因子分析案例因子分析案例l应聘数据的例子。l步骤:l1、在SPSS中打开数据文件;l 2、选择“分析”“降维”“因子分析”。l3、把除了“编号”以外的变量选入“变量”框;l4、单击“描述”按钮,在弹出的对话框中选中“系数”,以输出
24、相关系数。48中央财经大学统计学院 48SPSS因子分析操作因子分析操作l5、单击“旋转”,选中“最大方差法”,单击“继续”;49中央财经大学统计学院 49SPSS因子分析操作因子分析操作l5、单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”;l其余选项使用默认值。单击“确定”。50中央财经大学统计学院 50因子分析结果分析因子分析结果分析l变量的共同度表。l除了“外貌”变量外其他变量的共同度都比较高。51中央财经大学统计学院 51贡献率贡献率l根据下表,前4个因子的贡献率为81.49%。旋转之后各因子的旋转之后各因子的方差贡献率可能会方差贡献率可能会发生变化!发生变化
25、!52中央财经大学统计学院 52旋转前后的因子载荷矩阵旋转前后的因子载荷矩阵l旋转后的系数矩阵中在一行中一般只有一个较大的值。l根据旋转后的因子载荷矩阵更容易解释因子的含义。因子因子旋转后旋转后1 12 23 34 4简历格式简历格式.116.116.830.830.109.109-.136-.136外貌外貌.440.440.151.151.399.399.227.227研究能力研究能力.064.064.128.128.007.007.928.928兴趣爱好兴趣爱好.220.220.245.245.871.871-.081-.081自信心自信心.916.916-.107-.107.163.16
26、3-.065-.065洞察力洞察力.863.863.097.097.255.255.002.002诚信度诚信度.219.219-.242-.242.863.863.001.001推销能力推销能力.910.910.223.223.103.103-.041-.041工作经验工作经验.087.087.851.851-.055-.055.211.211工作魄力工作魄力.800.800.349.349.156.156-.052-.052志向抱负志向抱负.918.918.159.159.100.100-.041-.041理解能力理解能力.811.811.255.255.331.331.143.143潜能潜
27、能.747.747.326.326.413.413.224.224求职渴望度求职渴望度.440.440.363.363.534.534-.524-.524适应力适应力.383.383.797.797.076.076.084.08453中央财经大学统计学院 53各变量的因子表达式各变量的因子表达式l标准化的简历格式分0.116第一个因子+0.830第二个因子+0.109第三个因子-0.136第四个因子l标准化的外貌分0.440第一个因子+0.151第二个因子+0.399第三个因子+0.227第四个因子54中央财经大学统计学院 54因子含义的解释因子含义的解释l第一个因子在 外貌 自信心 洞察力
28、推销能力 工作魄力 志向抱负 理解能力 潜能 等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子l第二个因子在 简历格式 工作经验 适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子l第三个因子在兴趣爱好 诚信度 求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。l第四个因子在研究能力变量上系数较大,可抽象为应聘者的学习能力因子。55中央财经大学统计学院 55标准化因子得分矩阵标准化因子得分矩阵l根据因子得分系数矩阵可以计算因子得分。注意计算中需要先对原始变量进行标准化。lSPSS可以把因子得分作为变量存储起来以便进行后续的分析。56中央财经大学统计学院 56因子
29、得分函数因子得分函数lFAC1-1-0.099简历格式分+0.016外貌分-0.020学习能力分-0.159兴趣爱好分+0.251自信心分+0.185洞察力分-0.093诚信度分+0.217销售能力分-0.082工作经验分+0.155工作魄力分+0.228志向抱负分+0.129理解能力分+0.080潜能分-0.026求职渴望度分-0.014适应力分57中央财经大学统计学院 57SPSS计算的因子得分计算的因子得分l根据因子得分可以对应聘者进行综合评价。l例如可以按照第一因子进行排序,对应聘者主客观工作能力进行评价。58中央财经大学统计学院 58学生考试成绩案例的因子分析学生考试成绩案例的因子分析l根据旋转后的载荷矩阵,因子1在文科课程的系数较大,可命名为文科因子;因子2在理科课程的系数较大,可命名为理科因子;59中央财经大学统计学院 59因子得分系数矩阵因子得分系数矩阵l因子得分系数矩阵可以用来计算因子得分。60中央财经大学统计学院 60因子得分的应用因子得分的应用l根据因子得分可以对学生的学习情况进行综合分析。例如可以知道哪些学生文科好,哪些学生理科好等等61中央财经大学统计学院 61小结小结l主成分分析的基本原理和模型lSPSS主成分分析结果的解释l因子分析的基本原理和模型lSPSS因子分析结果的解释62中央财经大学统计学院 62
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。