1、主成分的基本思想主成分的基本思想主成分的数学原理主成分的数学原理主成分分析的应用主成分分析的应用内容提要:内容提要:一、主成分分析的基本思想一、主成分分析的基本思想在多数实际问题中,不同指标之间是有一定相关性。在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。分析问题的复杂性。主成分概念首先由主成分概念首先由 Karl ParsonKarl Parson在在19011901年引进,当时年引进,当时只对非随机变量来讨论的。只对非随机变量来讨论的。19331933年年HotellingHotell
2、ing将这个概将这个概念推广到随机变量。念推广到随机变量。1 1、主成分分析产生背景、主成分分析产生背景主成分分析就是设法将原来指标重新组合成一组主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。尽可能多地反映原来的指标的信息。导出几个主成分,使它们尽可能多地保留原导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关始变量的信息,且彼此间不相关。主成分分析是通过考察多个数值变量间相关主成分分
3、析是通过考察多个数值变量间相关性,研究如何通过少数几个主成分来解释多性,研究如何通过少数几个主成分来解释多变量的方差变量的方差协方差结构的一种统计方法。协方差结构的一种统计方法。2、主成分分析的基本思想、主成分分析的基本思想以两个指标为例,信息总量以总方差表示:以两个指标为例,信息总量以总方差表示:原指标:原指标:12,x x特点:具有相关性特点:具有相关性新指标:新指标:12,y y特点:新变量是原变量的函数,特点:新变量是原变量的函数,且新变量之间不具有相关性且新变量之间不具有相关性要求:要求:1212()()D yyD xx将原来众多具有一定相关性的指标重新组合成一将原来众多具有一定相关
4、性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。组新的相互无关的综合指标来代替原来指标。主成分分析就是通过适当的变量替换,使新变量主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事成为原变量的线性组合,并寻求主成分来分析事物的一种方法物的一种方法。其中其中y y1 1、y y2 2分别都是分别都是x x1 1、x x2 2的线性组合,并且信息的线性组合,并且信息尽可能地集中在尽可能地集中在y y1 1上。在以后的分析中舍去上。在以后的分析中舍去y y2 2,只,只用主成分用主成分y y1 1来分析问题,起到了降维的作用。来分析问题,起到了降维的作用
5、。3、几何解释、几何解释2121212211cossinsincoscossinsincosxxyyxxyxxyx1x2y1y2y y1 1称为第一主成分,称为第一主成分,y y2 2称为第二主成分。称为第二主成分。旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样本点在个样本点在y y1 1轴方向轴方向上的离散程度最大,即上的离散程度最大,即y y1 1的方差最大,变量的方差最大,变量y y1 1代表了代表了原始数据的绝大部分信息,在研究某经济问题时,原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量即使不考虑变量y y2 2也损失不多的信息。也损失不多的信息。y y1 1与
6、与y y2 2除起了浓缩作用外,还具有不相关性。除起了浓缩作用外,还具有不相关性。推广开来,对于推广开来,对于p p维总体维总体 ,寻求正交,寻求正交变换变换 , 使得使得12,nXXXX()ijp pAa111122211pjjjpjjjppppjjjaXYA XYA XaXYYA XaX二、主成分分析的数学原理二、主成分分析的数学原理正交变换中,所选正交矩阵正交变换中,所选正交矩阵A A,使,使YAX1( )D Y2()D Y3( )DY1Y3,Y2,Y,两两不相关两两不相关1Y第一主成分第一主成分2Y第二主成分第二主成分要求:要求:111 12121212122221122.pppppp
7、ppppya xa xa xya xa xaxya xaxax22212.1var( )cov( )cov( ,)cov( )kkpkiiiijijaaayAx Ay yAx A12(,)iiiipAaaa12( ,)px xxx对原有变量作坐标变换对原有变量作坐标变换: :111A A1var( )maxvar()iyAx 12cov(,)0y y221A A21var()maxvar()iiyAx11yAx 则称则称y y1 1为为x x的第一主成分的第一主成分y y2 2为第二主成分为第二主成分对于对于P P维总体维总体 ,其主成分总体,其主成分总体 存在的必要条件是,相应正交矩阵存在的
8、必要条件是,相应正交矩阵A A满足条件满足条件 其中其中12,.px xxxAyx0ipIA iE xx12()iipD y1 1、主成分总体存在的必要条件、主成分总体存在的必要条件证明:证明:1212121212,cov(,)0cov(,),ppijijijyijp ppppyAy yyD yD yD yyy yijyD yD yy yD ydiag D yD yD ydiag xx为 的主成分总体互不相关且与y 的协方差与y 的协方差矩阵 1212121211220yppppppiiiipiyAyE yyE AAAAA AA AAAA AAA AAAAAAAAAAIA xxxE xx又的协
9、方差矩阵从公式的计算推导可以发现,主成分方程中的从公式的计算推导可以发现,主成分方程中的系数向量系数向量A A恰好是原有变量协方差矩阵的特征恰好是原有变量协方差矩阵的特征向量,其特征根是主成分的方差。向量,其特征根是主成分的方差。只要证明其他任意存在的一个正交矩阵只要证明其他任意存在的一个正交矩阵L L,使得,使得 中中 ,那么,那么zLx 1122,mmD zD yD zD yD zD y2 2、主成分总体存在的充分条件、主成分总体存在的充分条件由由L L矩阵所产生的主成分方差永远都比相应的矩阵所产生的主成分方差永远都比相应的U U矩阵产生的方差小矩阵产生的方差小3、量纲对于主成分分析的影响
10、及消除方法、量纲对于主成分分析的影响及消除方法 对数据进行标准化处理,以使每一个变量的均对数据进行标准化处理,以使每一个变量的均值为值为0 0,方差为,方差为1 1。 *iiiixE xD xx数据标准化后数据标准化后, ,总体的协方差矩阵与总体的相关总体的协方差矩阵与总体的相关系数相等系数相等.*cov( ,)( )( )( ( )cov( ,)cov( ,)( )( )ijiijjijijijijijx xE xE xxE xE x xx xx xD xD x4、样本主成分、样本主成分变量X样本协方差为总体协方差的无偏估计样本协方差为总体协方差的无偏估计相关矩阵相关矩阵R R为总体相关矩阵
11、的估计为总体相关矩阵的估计nkjkjikixxxxnS111ppppppxxxxxxxxxX2122221112111212cov( )cov()cov( ).ppYAAAAAA A XXS111211121111211212221222212222121212.ppppppppppppppppppARAA ARAARAArrraaaaaarrraaaaaarrraaaaaa 12.p若若X X已标准化,则可用相关矩阵代替协方差矩阵已标准化,则可用相关矩阵代替协方差矩阵11 1112121111 112112212211211 11212111.ppppppppppr ar ar aar aa
12、 ur aar ar ar aa11111121211121122112211 1121211().0().0.()0ppppppppprar ar ar arar ar ar ara10RI1为相关矩阵为相关矩阵R的特征值的特征值111121212212121.0.pppppprrrrrrrrr同理,同理,i为相关矩阵为相关矩阵R的特征值,的特征值,i=1,2,将将R R的特征根依大小顺序排列的特征根依大小顺序排列其对应的特征向量记为其对应的特征向量记为A A1 1,A A2 2,A,Ap p说明说明y1y1有最大方差,有最大方差,y2y2有次大方差。有次大方差。111var()var()v
13、ar( )var()cov( ,)cov(,)iiiijijijyAXyAXy yAX A XARA112212121 1221 1122221,.,.,.,.ppppppppppiiiiRAARAAAAA AAAAAAAAAAAAAAAA A又由于1112121cov(,)()()().()(.).pijijitttjtptittjtptijpjtipy yARAAA A AA AA AAAAAAAAAAA00.1.000.1.001ptt说明新的综合指标即主成分彼此不相关说明新的综合指标即主成分彼此不相关5、样本主成分的性质、样本主成分的性质1 1、第、第K K个主成分个主成分y yk k
14、的系数向量是第的系数向量是第K K个特征根个特征根 k k所对应的所对应的标准化特征向量。标准化特征向量。2 2、第、第K K个主成分的方差为第个主成分的方差为第K K个特征根个特征根 k k,且任意两个,且任意两个主成分都是不相关的,也就是主成分都是不相关的,也就是y y1 1,y ,y2 2,y,yp p的样本协方差矩的样本协方差矩阵是对角矩阵阵是对角矩阵3 3、样本主成分的总方差等于原变量样本的总方差,为、样本主成分的总方差等于原变量样本的总方差,为p p4 4、第、第K K个样本主成分与第个样本主成分与第j j个变量样本之间的相关系数为:个变量样本之间的相关系数为: (因子载荷量)(因
15、子载荷量)kjku6、主成分模型中各统计量的意义、主成分模型中各统计量的意义、主成分的方差贡献率:、主成分的方差贡献率: 这个值越大,表明第这个值越大,表明第i i主成分综合信息的能力越强。主成分综合信息的能力越强。2 2、主成分的累计贡献率、主成分的累计贡献率 表明取前几个主成分基本包含了全部测量指标所具表明取前几个主成分基本包含了全部测量指标所具有信息的百分率有信息的百分率. .piii1ii7、主成分个数的选取、主成分个数的选取1. 1.累积贡献率达到累积贡献率达到85%85%以上以上 2. 2.根据特征根的变化来确定根据特征根的变化来确定 i111piip8 8、主成分分析的基本步骤及
16、、主成分分析的基本步骤及spssspss实现实现 1. 1.将原始数据进行标准化处理将原始数据进行标准化处理 2. 2.计算样本相关矩阵计算样本相关矩阵R R 3. 3.求相关矩阵求相关矩阵R R的特征值与特征向量的特征值与特征向量, ,并计算贡献率并计算贡献率 4. 4.选择主成分选择主成分 5. 5.对所选主成分做经济解释对所选主成分做经济解释Spss实现: 1.analyze-description statistic-description-save standardized as variables 2.analyze-data reduction-factor 3.指定参与分析的变
17、量 4.运行factor 过程例例3.1 3.1 某主管局管辖某主管局管辖2020个工厂个工厂, ,现要对每个工厂作经现要对每个工厂作经济效益分析济效益分析, ,经研究确定从所取得的生产成果同所消经研究确定从所取得的生产成果同所消耗的人力耗的人力, ,物力物力, ,财力的比率财力的比率, ,选取五个指标作分析选取五个指标作分析x1-x1-固定资产产值率固定资产产值率,X2-,X2-净产值劳动生产率净产值劳动生产率,X3-,X3-百元产值百元产值流动资金占用率流动资金占用率,X4-,X4-百元产值利润率百元产值利润率,X5-,X5-百元资金利百元资金利润率润率.( .(数据见数据见spssex/
18、ex301spssex/ex301) )Y1=0.5031*zx1+0.4994*zx2-0.4731*zx3+0.0690*zx4+0.5183*zx5Y2=-0.3451*zx1+0.2871*zx2+0.3833*zx3+0.7460*zx4+0.3093*zx5F=0.5365*y1+0.34302*y29、解析主成分的实际意义、解析主成分的实际意义从系数的大小、系数的符号上进行分析。从系数的大小、系数的符号上进行分析。系数绝对值较大,则表明该主成分主要综合了系数绝对值较大,则表明该主成分主要综合了绝对值大的变量。绝对值大的变量。正号表示变量与主成分作用同方向,负号表示正号表示变量与主
19、成分作用同方向,负号表示原变量与主成分作用反方向。原变量与主成分作用反方向。如果变量分组较有规则,则从特征向量各分量如果变量分组较有规则,则从特征向量各分量数值作出组内组间对比分析。数值作出组内组间对比分析。例例3.2 3.2 在企业经济效益的评价中在企业经济效益的评价中, ,涉及的指标往往很涉及的指标往往很多多. .为了简化系统结构为了简化系统结构, ,抓住经济效益评价中的主要问抓住经济效益评价中的主要问题题, ,我们可由原始数据矩阵出发求主成分我们可由原始数据矩阵出发求主成分. .在对我国部在对我国部分省分省, ,市市, ,自治区独立核算的工业企业的经济效益评价自治区独立核算的工业企业的经
20、济效益评价中中, ,涉及到涉及到9 9项指标项指标,x1-100,x1-100元固定资产原值实现产元固定资产原值实现产值值,X2-100,X2-100元固定资产原值实现利税元固定资产原值实现利税,X3-100,X3-100元资金实元资金实现利税现利税,X4-100,X4-100元工业总产值实现利税元工业总产值实现利税,X5-100,X5-100元销售元销售收入实现利税收入实现利税,X6-,X6-每吨标准煤实现工业产值每吨标准煤实现工业产值,X7-,X7-每千每千瓦时电力实现工业产值瓦时电力实现工业产值,X8-,X8-全员劳动生产率全员劳动生产率,X9-100,X9-100元流动资金实现产值元流
21、动资金实现产值( (数据见数据见spssex/ex302spssex/ex302) )Y1=0.928*zx1+0.977*zx2+0.935*zx3+0.232*zx4+0.460*zx5+0.934*zx6+0.894*zx7+0.959*zx8+0.904*zx9Y2=-0.329*zx1+0.150*zx2+0.310*zx3+0.873*zx4+0.568*zx5-0.210*zx6-0.288*zx7-0.01679*zx8-0.174*zx9职工健康职工健康( (数据见数据见spssexspssex/ /职工健康情况分析职工健康情况分析) )Y1=0.3369Y1=0.3369*
22、 *zx1+0.371zx1+0.371* *zx2+0.4029zx2+0.4029* *zx3-zx3-0.00130.0013* *zx4+0.3771zx4+0.3771* *zx5+0.3876zx5+0.3876* *zx6+0.2202zx6+0.2202* *zx7+0.3933zx7+0.3933* *z zx8+0.3015x8+0.3015* *zx9zx9Y2=0.2983Y2=0.2983* *zx1-0.0596zx1-0.0596* *zx2-0.2184zx2-0.2184* *zx3+0.5998zx3+0.5998* *zx4-zx4-0.01410.014
23、1* *zx5-0.2603zx5-0.2603* *zx6+0.55zx6+0.55* *zx7+0.2113zx7+0.2113* *zx8-0.2904zx8-0.2904* *zx9zx9Y3=-0.354Y3=-0.354* *zx1+0.4649zx1+0.4649* *zx2-zx2-0.01290.0129* *zx3+0.5038zx3+0.5038* *zx4+0.4085zx4+0.4085* *zx5+0.0419zx5+0.0419* *zx6-zx6-0.37740.3774* *zx7-0.1303zx7-0.1303* *zx8-0.2762zx8-0.2762
24、* *zx9zx9三、主成分分析在指标综合评价中的三、主成分分析在指标综合评价中的应用应用核心:通过主成分分析,选择核心:通过主成分分析,选择m m个主成分个主成分y y1 1,y ,y2 2,y,ym m,以每个主,以每个主成分成分y yi i的方差贡献率的方差贡献率 i i作为权数,构造综合评价函数,作为权数,构造综合评价函数,其中其中 为第为第i i个主成分的得分(求出主成分的表达式后,将标个主成分的得分(求出主成分的表达式后,将标准化后的数据再代入准化后的数据再代入y yi i中)中)当把当把m m个主成分得分代入个主成分得分代入F F函数后,即可得到每个样本的综合函数后,即可得到每个
25、样本的综合评价函数得分,以得分的大小排序,可排列出每个样本的经济评价函数得分,以得分的大小排序,可排列出每个样本的经济效益的名次。效益的名次。mmyyyF.2211iy 一、选用一个主成分的排序一、选用一个主成分的排序二、选用多个主成分的排序二、选用多个主成分的排序11 yFmimiimmyyyyF12211.例例3.8 3.8 全国重点水泥企业某年的经济效益分析全国重点水泥企业某年的经济效益分析.X1.X1为为固定资产利税率固定资产利税率,X2,X2为资金利税率为资金利税率,X3,X3为销售收入利税为销售收入利税率率,X4,X4为资金利润率为资金利润率,X5,X5为固定资产产值率为固定资产产
26、值率,X6-,X6-流动资流动资金周转天数金周转天数,X7-,X7-万元产值能耗万元产值能耗,X8-,X8-全员劳动生产全员劳动生产率率.( .(数据见数据见spssex/ex308spssex/ex308) )Y1=0.431*zx1+0.4052*zx2+0.3768*zx3+0.4186*zx4+0.3999*zx5+0.1392*zx6-0.2962*zx7+0.2558*zx8Y2=-.0097*zx1+0.2828*zx2-0.1057*zx3+0.2476*zx4+0.1894*zx5+0.7393*zx6+0.0555*zx7-0.5111*zx8Y3= .2227*zx1 -
27、.1108*zx2+.3510*zx3-.0293*zx4-.0217*zx5+.3314*zx6+.7378*zx7+.3988*zx8用主成分分析综合评价经济效益的优点用主成分分析综合评价经济效益的优点: : 1. 1.可比性可比性: :由于主成分分析过程中,对各个指标进行了由于主成分分析过程中,对各个指标进行了标准化处理,所以使各种不同度量的指标化成了同度标准化处理,所以使各种不同度量的指标化成了同度量的指标,同时也消除了原始数据数量级上的差别,量的指标,同时也消除了原始数据数量级上的差别,使得各个指标间具有可比性及可加性。使得各个指标间具有可比性及可加性。 2. 2.全面性:通过正交变
28、换寻找主成分,克服了原始指全面性:通过正交变换寻找主成分,克服了原始指标相关性的影响。标相关性的影响。 3. 3.合理性:在综合评价过程中,权数的确定是客观合合理性:在综合评价过程中,权数的确定是客观合理的,克服了某些评价方法中人为确定权数的缺陷。理的,克服了某些评价方法中人为确定权数的缺陷。主成分回归分析主成分回归分析一、主成分估计一、主成分估计主成分估计是以主成分估计是以P P个主成分中的前个主成分中的前q q个贡献大的个贡献大的主成分为自变量建立回归方程,估计参数的一主成分为自变量建立回归方程,估计参数的一种方法。种方法。它可以消除变量间的多重共线性它可以消除变量间的多重共线性。回归方程
29、回归方程对各变量进行标准化处理对各变量进行标准化处理对于解释变量对于解释变量X X* *,使得,使得z=Xz=X* *U Uexbxbxbbypp22110eXY*eUUXeXY*eZYU*令qiiqiiniiiniiiqniiiniiiqnqqccccqqccyzyzyzyzyzyzyyyzzzYZZZZZZYqceZY*/*.*),.,2 , 1(*22111112111212121121122111 1、给定、给定c c,2 2、删去、删去 的特征根所对应的主成分。的特征根所对应的主成分。3 3、cpcpqjjqjj111,qqjj511qqccnijiijjUUUUUUyz*22111
30、01. 0SPSSSPSS实现实现1 1、对所有变量进行标准化、对所有变量进行标准化(Analyse(Analyse-description)-description)2 2、对所有标准化后的自变量求主成分、对所有标准化后的自变量求主成分Z(factor)Z(factor)3 3、选择前几个主成分、选择前几个主成分4 4、计算主成分得分、计算主成分得分(transform-compute)(transform-compute)5 5、y y与主成分进行回归与主成分进行回归(analyse(analyse-regression)-regression),求出,求出 系数值。系数值。6 6、com
31、pute ,compute ,求出求出 系数,即可得出消除多重共线性的系数,即可得出消除多重共线性的标准回归方程。标准回归方程。U例3.9 经济工作者希望通过国内总产值x1,存储量x2,消费总量x3,去预测进口总额y,为此收集了某地区共计十一年的有关数据,利用主成分估计建立回归方程。(数据见spssex/ex309)Z1=0.7066*zx1+0.0435*zx2+0.7066*zx3Z2=-0.0357*zx1+0.9990*zx2-0.0258*zx32191. 01690. 0*zzy例例3.10 3.10 影响电的需求量的指标有影响电的需求量的指标有:(1)(1)钢的产量钢的产量x1;
32、(2)x1;(2)生铁产量生铁产量x2;(3)x2;(3)钢材产量钢材产量x3;(4)x3;(4)有色金属产量有色金属产量x4;(5)x4;(5)原煤产量原煤产量x5;(6)x5;(6)水泥产水泥产量量x6;(7)x6;(7)机械工业总产值机械工业总产值x7;(8)x7;(8)化肥产量化肥产量x8;(9)x8;(9)硫酸产量硫酸产量x9;(10)x9;(10)烧烧碱产量碱产量x10;(11)x10;(11)棉纱产量棉纱产量x11x11共共1111个指标。收集了个指标。收集了2323年的指标值,年的指标值,建立发电站需求模型。建立发电站需求模型。( (数据见数据见spssex/ex310spss
33、ex/ex310) )Z1=0.3145*zx1+0.3027*zx2+0.3100*zx3+0.2782*zx4+0.2518*zx5+0.3110*zx6+0.3116*zx7+0.3075*zx8+0.3034*zx9+0.3145*zx10+0.3050*zx11Z2=-0.0522*zx1+0.2949*zx2-0.0469*zx3+0.3696*zx4+0.7199*zx5-0.1919*zx6-0.1391*zx7-0.2421*zx8-0.3361*zx9-0.1481*zx10-0.0536*zx111 1、将原始样本数据标准化后,作主成分变换、将原始样本数据标准化后,作主成
34、分变换Z= XZ= X* *U U2 2、剔除、剔除U Up p中绝对值最大的中绝对值最大的u ui1pi1p所对应的变量所对应的变量具有较小特征根对应的主成分含有较少的信息。具有较小特征根对应的主成分含有较少的信息。pppppuuuU21主成分分析筛选变量法主成分分析筛选变量法3 3、将剩余、将剩余p-1p-1个标准化变量个标准化变量X X* *(1)(1)再作主成分分再作主成分分析析 Z(1)=XZ(1)=X* *(1) U(1)(1) U(1)4 4、再考虑最小特征根对应的特征向量,找出绝、再考虑最小特征根对应的特征向量,找出绝对值最大的特征向量,剔除与之对应的变量。对值最大的特征向量,
35、剔除与之对应的变量。直至满足给定条件时停止。直至满足给定条件时停止。5 5、将因变量与剩余变量作回归、将因变量与剩余变量作回归先将原始变量作主成分估计,得到标准化后的先将原始变量作主成分估计,得到标准化后的y y与主成分的回归方程。与主成分的回归方程。离差平方和分解:离差平方和分解:三、主成分回归法三、主成分回归法 212222121212211212121*2*2*2*2*2*2*2*jpjjppppppppiiiiiiiiiZZZZYYyyyyyyyyyyy任一构成任一构成 是主成分是主成分Z Zj j 对对Y Y* *的的偏回归平方偏回归平方和和。找出偏回归平方和最小的主成分,其系数向量找出偏回归平方和最小的主成分,其系数向量中,最大的中,最大的U Uij ij所对应的自变量被剔除。所对应的自变量被剔除。找出次小的偏回归平方和,类似做之找出次小的偏回归平方和,类似做之最后将最后将y y* *与剩下自变量做回归。与剩下自变量做回归。2jj下课喽!