1、主成分分析完整版n主成分分析的基本思想主成分分析的基本思想n主成分的计算主成分的计算n主成分分析的应用主成分分析的应用主成分分析的基本思想主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来代表性较好的综合指标,这少数几个指标能够反映原来指标指标大部分大部分的信息(的信息(85%以上以上),并且各个指标之间保),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着持独立,避免出现重叠信息。主成分分析主要起着降维降维和和简化数据结构简化数据结构的作用。的作用。1 1 基本思想基本思
2、想 主成分分析是把各变量之间互相关联的复杂关系进行简化主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简
3、化,也就是说,这种多变量的截面数据表进行最佳综合简化,也就是说,对对高维变量空间进行降维处理。高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。容易得多。(1)基于相关系数矩阵基于相关系数矩阵/协方差矩阵做主成分分析?协方差矩阵做主成分分析?(2)选择几个主成分?选择几个主成分?(3)如何解释主成分所包含的实际意义?如何解释主成分所包含的实际意义?在力求数据信息丢失最少的原则下,对高维的变量空间降在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性维,即研究指标体
4、系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。的信息。这些综合指标就称为主成分。要讨论的问题是:要讨论的问题是:2 2 数学模型与几何解释数学模型与几何解释 假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p个指标,我们把这个指标,我们把这p个指标看作个指标看作p个随机变量,记为个随机变量,记为X1,X2,Xp,主成分分,主成分分析就是要把这析就是要把这p个指标的问题,转变为讨论个指标的问题,转变为讨论 m 个新的指标个新的指标F1,F2,Fm(mp),按
5、照保留主要信息量的原则充分反映),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。原指标的信息,并且相互独立。npnnppXXXXXXXXXX212222111211 pXXX21 niiiiXXXX21其中其中ppppppppppXaXaXaFXaXaXaFXaXaXaF 22112222112212211111 这种由讨论这种由讨论多个指标多个指标降为降为少数几个少数几个综合指标的过程在数学上就叫综合指标的过程在数学上就叫做做降维降维。主成分分析通常的做法是,。主成分分析通常的做法是,寻求原指标的线性组合寻求原指标的线性组合Fi。满足如下的条件:满足如下的条件:122221 p
6、iiiaaapjijiFFCovji,),(210 )()(21pFVarFVarFVar )(主成分之间相互独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即2x2x1F2F主成分分析的几何解释主成分分析的几何解释旋转坐标轴旋转坐标轴 2121212211cossinsincoscossinsincosxxFFxxFxxF 旋转变换的目的是为了使得旋转变换的目的是为了使得n个个样本点在样本点在F1轴方向上的离散程度轴方向上的离散程度最大,即最大
7、,即F1的方差最大,变量的方差最大,变量F1代表了原始数据的绝大部分信息,代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑在研究某经济问题时,即使不考虑变量变量F2也损失不多的信息。也损失不多的信息。F1与与F2除起了浓缩作用外,还具除起了浓缩作用外,还具有不相关性。有不相关性。F1称为第一主成分,称为第一主成分,F2称为第二称为第二主成分。主成分。主成分的计算主成分的计算先讨论二维情形先讨论二维情形212122211211XXXXXXXXXnn求第一主成分求第一主成分F1和和F2。21,xx 我们已经把主成分我们已经把主成分F1和和F2 的坐标原点放在平的坐标原点放在平均值均值
8、所在处,从而使得所在处,从而使得F1和和F2 成为中心化的成为中心化的变量,即变量,即F1和和F2 的样本均值都为零。的样本均值都为零。因此F1可以表示为)()(222111111xxaxxaF),(2111aa关键是,寻找合适的单位向量 ,使F1的方差最大。1问题的答案是:X的协方差矩阵S 的最大特征根 所对应的单位特征向量即为 。并且 就是F1的方差。2111,aa1同样,同样,F2可以表示为可以表示为)()(222211122xxaxxaF),(2212aa寻找合适的单位向量寻找合适的单位向量 ,使,使F2与与F1独立,且独立,且使使F2的方差(除的方差(除F1之外)最大。之外)最大。2
9、问题的答案问题的答案是:是:X的协方差矩阵的协方差矩阵S 的第二大特征根的第二大特征根 所对应的单位特征向量即为所对应的单位特征向量即为 。并且。并且 就是就是F2的方差。的方差。2212,aa2)()(222111111xxaxxaF)()(222211122xxaxxaF其中,其中,aij称为因子载荷量称为因子载荷量因子载荷量:主成分与变量间的相关系数,因子载荷量:主成分与变量间的相关系数,即:因子载荷量的大小和它前面的正负号直接反映了即:因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。从而可以说主成分与相应变量之间关系的密切程度和方向。从而可以说明各主
10、成分的意义明各主成分的意义求解主成分的步骤:求解主成分的步骤:1.求样本均值求样本均值 和样本协方差矩阵和样本协方差矩阵S;),(21xxX 2.求求S的特征根的特征根求解特征方程求解特征方程 ,其中,其中I是单位矩阵,解得是单位矩阵,解得2个特征根个特征根 0 IS2121,3.求特征根所对应的单位特征向量求特征根所对应的单位特征向量4.写出主成分的表达式写出主成分的表达式)()(222111111xxaxxaF)()(222211122xxaxxaF身高身高x1(cm)胸围胸围x2(cm)体重体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.21
11、59.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例例1 下表是下表是10位学生的身高位学生的身高1x、胸围、胸围2x、体重、体重3x的数据。的数据。对此进行主成分分析。对此进行主成分分析。1.求样本均值和样本协方差矩阵求样本均值和样本协方差矩阵 2.513.772.161321xxx53.5558.3200.3011.2112.1767.46S 2.求解协方差矩阵的特征方程求解协方差矩阵的特征方程 0 IS 053.5558.3200.3058.3211.2112.
12、1700.3012.1767.463.解得三个特征值解得三个特征值 15.98160.23256.13)71.0,42.0,56.0(),(312111aaa)48.0,33.0,81.0(),(322212aaa)53.0,85.0,03.0(),(332313aaa和对应的单位特征向量:和对应的单位特征向量:4.由此我们可以写出三个主成分的表达式:)2.51(71.0)3.77(42.0)2.161(56.03211xxxF)2.51(48.0)3.77(33.0)2.161(81.03212xxxF)2.51(53.0)3.77(85.0)2.161(03.03213xxxF5.主成分的
13、含义F1表示学生身材大小。F2反映学生的体形特征 三个主成分的方差贡献率分别为:%6.7931.12315.9856.160.2315.9815.98311ii%1.1931.12360.23312ii%3.131.12356.1313ii前两个主成分的累积方差贡献率为:%7.9831.12375.1213121ii在一般情况下,设有n个样品,每个样品观测p个指 标,将原始数据排成如下矩阵:npnnppxxxxxxxxx.212222111211多指标多指标 求解主成分的步骤:求解主成分的步骤:),.,(21pxxxX1.求样本均值和样本协方差矩阵S;2.求解特征方程IS=0,其中I是单位矩阵
14、,解得p个特征根p,.,21).(21p3.求k所对应的单位特征向量k),.,2,1(pk 解得),.,(21pkkkkaaa4.写出主成分的表达式 )(.)()(222111pppkkkkxxaxxaxxaF ppkkkkxaxaxaF .2211或或根据累积贡献率的大小取前面m 个(mp)主成分选取原则:且%8580111piimii%85801piiimii主成分个数的选取原则n例例 设设 的协方差矩阵为的协方差矩阵为作主成分分析。作主成分分析。12(,)TXX X144 100 解:解:如果从如果从 出发作主成分分析,易求得其特征出发作主成分分析,易求得其特征值和相应的正交单位化特征向
15、量为值和相应的正交单位化特征向量为 的两个主成分分别为的两个主成分分别为 第一主成分的贡献率为第一主成分的贡献率为1122100.16,(0.040,0.999),0.84,(0.999,0.040).TTeeX1122120.0400.999,0.9990.040.YXXYXX112100.1699.2%101R 型分析为消除为消除量纲量纲影响,在计算之前先将原始数据影响,在计算之前先将原始数据标准化标准化。标准。标准化变量的化变量的 S=R,所以用,所以用标准化变量标准化变量进行主成分分析相当于进行主成分分析相当于从原变量的从原变量的相关矩阵相关矩阵 R 出发进行主成分分析。统计学上称出发
16、进行主成分分析。统计学上称这种分析法为这种分析法为R R型分析型分析,由协方差矩阵出发的主成分分析为,由协方差矩阵出发的主成分分析为S S型分析型分析。S型分析和型分析和R型分析的结果是不同的。在一般情况下,型分析的结果是不同的。在一般情况下,若各变量的量纲不同,通常采用若各变量的量纲不同,通常采用R R型分析型分析。R型分析的概念型分析的概念这里我们需要进一步强调的是,从相关阵求得的这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。实际表明,这种差异有时很大。我们认为,如果各指标之
17、间的数量级相差悬殊,我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的特别是各指标有不同的物理量纲的话,较为合理的做法是使用做法是使用R代替代替。对于研究经济问题所涉及的变量单位大都不统一,对于研究经济问题所涉及的变量单位大都不统一,采用采用R代替代替后,可以看作是用标准化的数据做分后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。析实际问题,又可以避免突出数值大的变量。主成分分析的步骤主成分分析的步骤 n1.1.将原始数据标准化;将原始数据标准化;
18、n2.2.根据标准化变量求出协方差矩阵(标准化后协方差矩根据标准化变量求出协方差矩阵(标准化后协方差矩阵与相关矩阵完全一样);阵与相关矩阵完全一样);n3.3.求出相关矩阵的特征值,计算累计贡献率,及其对应求出相关矩阵的特征值,计算累计贡献率,及其对应的特征向量;的特征向量;n4.4.确定主成分,进一步分析。确定主成分,进一步分析。对于对于X=(X1,X2,Xp),设设E(),Var()kkkkkXX则标准化变量为则标准化变量为*,1kkkkkXXkp企业的经济效益分析企业的经济效益分析某市对下属某市对下属1010个企业作经济效益分析,根据经济统计原理,用个企业作经济效益分析,根据经济统计原理
19、,用取得的生产成果与各项成本的消耗作对比,来衡量每个企业的取得的生产成果与各项成本的消耗作对比,来衡量每个企业的经济效益,也就是用下述五个指标来对每个企业进行分析。经济效益,也就是用下述五个指标来对每个企业进行分析。Z1:固定资产的产值率:固定资产的产值率 Z2:净产值劳动生产率:净产值劳动生产率 Z3:万元产值的流动资金占用率:万元产值的流动资金占用率 Z4:万元产值利润率:万元产值利润率 Z5:万元资金的利润率:万元资金的利润率 1、数据标准化、数据标准化2、求相关矩阵求相关矩阵R3、计算计算R的特征值及累积贡献率,并计算相应的特征的特征值及累积贡献率,并计算相应的特征向量向量)(ijii
20、ijijzZsxxz TZZnR11 经过计算取经过计算取2个主成分,信息的可靠程度超过个主成分,信息的可靠程度超过85%54321158.017.045.048.0445.0ZZZZZF 54321216.065.0436.040.045.0ZZZZZF 4、分析意义jjjjjjZZZZZF54321158.017.045.048.0445.0 第第 j个企业的第一主成分值为个企业的第一主成分值为各企业的第一主成分值如下表各企业的第一主成分值如下表0.77-1.8-1.160.105-0.84-1.2053.830.960.33-0.99311.第第 一主成分一主成分F1的意义的意义在在F1
21、的表达式中,只有第三个指标的表达式中,只有第三个指标Z3(万元产值流动资金占用(万元产值流动资金占用率)的系数为负值(率)的系数为负值(-0.45),而),而Z5的系数最大,的系数最大,Z5与与Z3是刻画是刻画企业经营水平高低的。当企业经营水平高低的。当Z3取值较小,取值较小,Z5取值较大时,取值较大时,F1就较就较大。于是大。于是F1在此突出地反映了一个企业经营水平的高低。在此突出地反映了一个企业经营水平的高低。由计算结果可见,企业由计算结果可见,企业7的经营水平最高,企业的经营水平最高,企业2的经营水平最的经营水平最低。低。2.第二主成分第二主成分F2的意义的意义jjjjjjZZZZZF5
22、4321216.065.0436.040.045.0 第第 j个企业的第二主成分值为个企业的第二主成分值为各企业的第二主成分值如下表各企业的第二主成分值如下表-2.070.0927-2.1803-0.70770.4047-0.1223-0.43401.96021.7771.3257F2除了第一系数为正之外,其他约为负值,其中除了第一系数为正之外,其他约为负值,其中Z4系数绝对值最大。系数绝对值最大。Z1的意义是投资水平,的意义是投资水平,Z4的意义是销售水平。如果投资大,销售水的意义是销售水平。如果投资大,销售水平低,自然平低,自然F2的值会增大。所以的值会增大。所以F2的值较小时,反映企业的投资与的值较小时,反映企业的投资与收益比值较小。由此看来,企业收益比值较小。由此看来,企业8,9,10的的F2值趋大,应属于不景值趋大,应属于不景气范围。企业气范围。企业7的投资虽最大,但盈利水平居高,因此的投资虽最大,但盈利水平居高,因此F2值较小。企值较小。企业业1,3的的F2值最小,反映这两个企业投资额与销售额之比最小,因值最小,反映这两个企业投资额与销售额之比最小,因此是经济效益好的企业。由于此是经济效益好的企业。由于 上述分析应该有上述分析应该有90%以上的可信度。以上的可信度。%95521