1、主成分分析与因子分析法主成分分析与因子分析法主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别主成分分析法主成分分析法(Principal Components Analysis,PCA)主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 一、主成分分析概述假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包括众多的变量众多的变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔
2、借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗?引子当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的相关的。人们希望能够找出它们的少少数数“代表代表”来对它们进行描述。来对它们进行描述。需要把这种有需要把这种
3、有很多变量很多变量的数据进行高的数据进行高度概括,度概括,用少数几个指标简单明了地用少数几个指标简单明了地把情况说清楚。把情况说清楚。主成分分析主成分分析法法(Principal Components Analysis)和因子分析和因子分析法法(Factor Analysis)就就是把变量维数是把变量维数降低以便于描述、理解和分析的方法。降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)个综合变量(综合指标),而这
4、几个综合变量可以,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,这些综合变量就叫因子或主成分,它是不可观测的,即即它不是具体的变量它不是具体的变量,只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?成绩数据5353个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分
5、)。史、英语的成绩如下表(部分)。从本例可能提出的问题能不能把这个数据表中的能不能把这个数据表中的6 6个变量用一个变量用一两个综合变量来表示呢?两个综合变量来表示呢?这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经研究中,也会经常遇到。它常遇到。它所涉及的问题可以推广到对企业、所涉及的问题可以推广到对企业、对学校、对区域进行对学校、对区域进行分析、评价、排序和分分析、评价、排序和分类类等。等。比如对比如对n n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样样本本特征的指标很多,而这些
6、指标往往存在特征的指标很多,而这些指标往往存在一一定的相关性定的相关性(既不完全独立,又不完全相(既不完全独立,又不完全相关),这就给研究带来很大不便。关),这就给研究带来很大不便。若选指标若选指标太多,会增加分析问题的难度与复杂性,选太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对指标太少,有可能会漏掉对样本样本影响较大的影响较大的指标,影响结果的可靠性。指标,影响结果的可靠性。这就需要我们在相关分析的基础上,这就需要我们在相关分析的基础上,采用主成分分析法找到几个采用主成分分析法找到几个新的相互独新的相互独立的综合指标立的综合指标,达到既减少指标数量、,达到既减少指标数量、又
7、能区分样本间差异的目的。又能区分样本间差异的目的。二、主成分分析的基本原二、主成分分析的基本原理理(一)(一)主成分分析的几何解释主成分分析的几何解释(一)主成分分析的几何解释(一)主成分分析的几何解释例中数据点是六维的;即每个观测值是例中数据点是六维的;即每个观测值是6 6维空维空间中的一个点。希望把间中的一个点。希望把6 6维空间用低维空间表维空间用低维空间表示。示。先假定只有二维,即只有两个变量,语文成先假定只有二维,即只有两个变量,语文成绩(绩(x x1 1)和数学成绩()和数学成绩(x x2 2),分别由横坐标),分别由横坐标和纵坐标所代表;和纵坐标所代表;每个学生都是二维坐标系中的
8、一个点。每个学生都是二维坐标系中的一个点。因为在实际应用中,往往存在指标的量纲因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。为了实现样本响,而将原始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方数据的标准化,应求样本数据的平均和方差。对数据矩阵差。对数据矩阵Y Y作标准化处理,即对每一作标准化处理,即对每一个指标分量作标准化变换,变换公式为:个指标分量作标准化变换,变换公式为:其中,其中,样本均值:样本均值:样本标准差:样本标准差:原始变量原始变量 经规格化后变为新变经规格化后变为新变量量 ,其
9、均值为零,方差为,其均值为零,方差为1 1。对二维空间来讲对二维空间来讲n n个标准化后的样本在二个标准化后的样本在二维空间的分布大体为一椭圆形,维空间的分布大体为一椭圆形,该椭圆该椭圆有一个长轴和一个短轴。在短轴方向上有一个长轴和一个短轴。在短轴方向上数据变化很少数据变化很少,极端的情况极端的情况下下,短轴如,短轴如退化成一点,长轴的方向可以完全解释退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就这些点的变化,由二维到一维的降维就自然完成了。自然完成了。假定语文成绩假定语文成绩(X1)和数学成和数学成绩绩(X2)分别为)分别为标准化后的分数,标准化后的分数,右图为其散点图
10、,右图为其散点图,椭圆倾斜为椭圆倾斜为45度。度。如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标,那么点在新坐标系中的坐标(系中的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的)有如下的关系:关系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相关。而且大部分关。而且大部分点沿点沿 Y1 轴散开,轴散开,在在 Y1 轴方向的轴方向的变异较大(即变异较大(即 Y1的方差较的方差较大
11、)大),相对来说,相对来说,在在 Y2轴方向的轴方向的变异较小(即变异较小(即 Y2 的方差较的方差较小)小)。在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一主成分和第二主成分。实际上第一主成的第一主成分和第二主成分。实际上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就代表了这些点的分布情况,因此可以选代表了这些点的分布情况,因此可以选 Y1 为一为一个新的综合变量。当然如果再选个新的综合变量。当然如果再选 Y2也作为综
12、合也作为综合变量,那么变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部的全部信息。信息。22 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,X X2 2,X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1,X X2 2,X Xp p),设,设 X X 的均值向量为的均值向量为,协方差矩阵为,协方差矩阵为。设。设Y Y=(=(Y Y1 1,Y Y2 2,Y Yp p)为对为对 X X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1)设设
13、 i i=(=(i i1 1,i i2 2,ipip),A A=(=(1 1,2 2,p p),则有,则有 (2)23且且 (3)由是式由是式(1)(2)(1)(2)能够看出,可以对原始变量进行任意能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量的线性变换,不同线性变换得到的合成变量Y Y的统计特征显的统计特征显然是不一样的。每个然是不一样的。每个Y Yi i 应尽可能多地反映应尽可能多地反映 p p 个原始变量的个原始变量的信息,通常用方差来度量信息,通常用方差来度量“信息信息”,Y Yi i 的方差越大表示它的方差越大表示它所包含的信息越多。由式(所包含的信息越多。由
14、式(3 3)可以看出将系数向量)可以看出将系数向量 i i 扩大扩大任意倍数会使任意倍数会使Y Yi i 的方差无限增大,为了消除这种不确定性,的方差无限增大,为了消除这种不确定性,增加约束条件:增加约束条件:24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的的不同分量包含的信息不应重叠。综上所述,式(信息不应重叠。综上所述,式(1 1)的线性变换需要满足下)的线性变换需要满足下面的约束:面的约束:(1)(1)即即 ,i i=1,2,=1,2,p p。(2)(2)Y Y1 1在满足约束在满足约束 (1)(1)即的情况下,方差最大;即的情况下,方差最大;Y
15、Y2 2是在满是在满足约束足约束(1)(1),且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在满足约束是在满足约束(1)(1),且与,且与Y Y1 1,Y Y2 2,Y Y p-p-1 1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。在各种线性组合中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y Y1 1,Y Y2 2,Y Yp p分别称分别称为原始变量的第一主成分、第二主成分、为原始变量的第一主成分、第二主成分、第、第 p p 主成分,主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究而且各
16、成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。结构的目的。三、主成分分析的计算步骤(一一)计算相关系数矩阵计算相关系数矩阵(二二)计算特征值与特征向量计算特征值与特征向量(三三)计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率(四四)计算主成分载荷计算主成分载荷(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量)为原变量xi与与xj标准化后的标准化后的相关系数,相关系数,rij=rji,其计算公式为其计算公式为(3.5.3)(3.5.4)(二
17、)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,、解特征方程,求出特征值,并使其按大小顺序排列并使其按大小顺序排列 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求=1,即,即,其中表示向量,其中表示向量 的第的第j个分量个分量,也就是说也就是说 为单位向量。为单位向量。29(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不个不相关随机变量的方差之和相关随机变量的方差之和 1 1 2 2 P P,则总方差中属,则
18、总方差中属于第于第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对个主成份对原始变量的解释程度。原始变量的解释程度。(四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主主成分载荷就是主成成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子
19、分析法概述因子分析法的模型因子分析法的模型附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别(一)因子分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。析法,但两者有较大的区别。主成分分析主成分分析是通过坐标变换提取主成分,也就是将一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性量,将主成分表示为原始观察变量的线性组合。而组合。而因子分析因子分析法是要构造因子模型,法是要构造因子模型,将原始观察变量分解为因子的线性组合。将原始观察
20、变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。因此因子分析法是主成分分析法的发展。(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为:将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序因子模型的表达式为:其矩阵形式为:其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。附、主成分分析与因子分析的区别