1、罗树生主成分分析主成分分析x2c1x1x2C1x1x2x3 主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将多个具有较强相关性的实测变量综合成少量综合变量。一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异
2、方面的信息。这些综合指标就称为主成分。2x1x1C2C主成分分析的几何解释平移、旋转坐标轴 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Cl和C2。Cl和C2是两个新变量。根据旋转变换的公式:cossinsincos212211xxCxxC2121cossinsincosxxCC 旋转变换的目的是为了使得n个样品点在Cl轴方向上的离 散程度最大,即Cl的方差最大。变量Cl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量C2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Cl轴上,对数据中包含的信息起到了浓缩作用。Cl,C2除了可以对包含在Xl,
3、X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Cl轴上,而C2轴上的方差很小。Cl和C2称为原始变量x1和x2的综合变量。C简化了系统结构。主成分分析的数学模型 通常情况下,所分析的多个变量具有不同量纲或均数/方差相差很大,不适于用协方差矩阵做主成分分析,而采用基于相关系数矩阵的主成分分析。首先将原变量标准化。设有n个样本,x1,x2xp为p个原指标变量,经过标准化后得到标准化变量X1,X2Xp:iiiisxxXi=1,2,p我们作如下定义:(1)若C1=w11X1+w12X2+w1pXp,且使 V
4、ar(C1)最大,则称C1为第一主成分;但系数w若无限制可使Var(C1)无限大,故加约束条件:w112+w122+w1p2=1 组合系数(w11,w12,w1p)可看作一个向量,代表p维空间中的一个方向,相当于全部n个个体在该方向上的一个投影。要求Var(C1)最大就是要找一个最“好”的方向,使得所有个体在该方向上的投影最为分散。如果第一主成分不足以代表原所有p个变量,则考虑第二个主成分:C2=w21X1+w22X2+w2pXp,要求使 Var(C2)最大;约束条件:w212+w222+w2p2=1 Cov(C1,C2)=0 Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数)为零
5、,目的是为了使C1中已有的信息不在C2中出现。结果是在与第一个向量垂直的所有方向中,找到一个使得所有个体在其上的投影与在其它方向上的投影相比最为分散。同样的方法,可以继续寻找第三、第四主成分,至多有p个。(全)主成分模型ppppppppppXwXwXwCXwXwXwCXwXwXwC.22112222121212121111主成分的性质主成分的性质:主成分主成分C1,C2,Cp具有如下几个性质:具有如下几个性质:(1)主成分间互不相关,即对任意主成分间互不相关,即对任意i和和j,Ci 和和Cj的相关的相关系数系数Corr(Ci,Cj)=0 i j (2)组合系数组合系数(wi1,wi2,wip)
6、构成的向量为单位向量构成的向量为单位向量,wi12+wi22+wip2=1(3)各主成分的方差是依次递减的,各主成分的方差是依次递减的,即即Var(C1)Var(C2)Var(Cp)(iCVari(4)(4)总方差不增不减,总方差不增不减,即即VarVar(C C1 1)+)+VarVar(C C2 2)+)+VarVar(C Cp p)=VarVar(x x1 1)+)+VarVar(x x2 2)+)+VarVar(x xp p)=p p这一性质说明,主成分是原变量的线性组合,是对原变这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种重组,主成分不增加总信息量,也不减少总量信息的
7、一种重组,主成分不增加总信息量,也不减少总信息量。信息量。(5)(5)主成分和原变量的相关系数主成分和原变量的相关系数 CorrCorr(C Ci i,x xj j)=)=w wijij=wij(6)令令X1,X2,Xp的相关矩阵为的相关矩阵为R,(wi1,wi2,wip)则是相关矩阵则是相关矩阵R的第的第i个特征向量个特征向量(eigenvector)。而且,特征。而且,特征值值 i就是第就是第i主成分的方差,主成分的方差,即即Var(Ci)=i 其中其中 i为相关矩阵为相关矩阵R的第的第i个特征值个特征值(eigenvalue)1 2 p0(7)第)第i个主成分对所有原变量的贡献为:个主成
8、分对所有原变量的贡献为:(8)所有主成分对原变量)所有主成分对原变量xj的贡献为:的贡献为:ipjiijpjxCwrji1212,piiijpixCjwrhji1212,2求主成分的步骤 1.计算相关系数矩阵RpppppprrrrrrrrrR.212222111211 2.解特征方程|R-I|=0,求出相关阵R的特征根(eigenvalue)i,且按从大到小顺序排列:1 2 p,3.求矩阵R关于i的满足正规条件的特征向量(eigenvector):Li=(li1,li2,lip)特征向量即为主成分系数。当变量较多时,特征根的计算较复杂,需借助计算机软件实现。一个简单例子例1.测得10名幼儿的身
9、高,体重如下表,求主成分。对象号x1 体重(kg)x2 身高(cm)116.3108213.0 88318.3111415.0 95511.9 88614.4 95713.5 94812.1 88913.3 931013.5 95均数 14.13 95.5标准差 1.965847 7.989577 1.求相关系数矩阵R r11=r22=1,r12=r21=0.954719547.09547.01R 2.求R的特征根,解方程:019547.09547.01 即(1-)*(1-)-0.9547*0.9547=0 得两个根 1.9547和0.0453,记为:1=1.9547,2=0.0453 3.求
10、特征向量Li 1=1.9547所对应的特征向量用下式解:l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071,l12=0.7071,第一主成分为:C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。主成分的数目的选取主成分的数目的选取 如前所述,如前所述,p个随机变量,便有个随机变量,便有p个主成分。由于总方差不个主成分。由于总方差不增不减,增不减,C1,C2等前几个综合变量的方差较大等前几个综合变量的方差较大,而而Cp,Cp-1等等后几个综合变量的方差较
11、小。后几个综合变量的方差较小。一般来说,只有前几个综合变一般来说,只有前几个综合变量才称得上主量才称得上主(要要)成份,后几个综合变量实为成份,后几个综合变量实为“次次”(要要)成份。成份。实践中总是保留前几个,忽略后几个。实践中总是保留前几个,忽略后几个。保留多少个主成分主要考虑保留部分的累积方差在方差总保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比和中所占百分比(即累积贡献率即累积贡献率),它标志着前几个主成分,它标志着前几个主成分概括信息之多寡。实践中,一般推荐达到概括信息之多寡。实践中,一般推荐达到80%的累积方差的累积方差即可。常用的判断方法有:即可。常用的判断方法
12、有:1.特征值准则:取特征值特征值准则:取特征值1的主成分。是的主成分。是SPSS软件默认软件默认的方法。的方法。2.累积方差比例原则:一般推荐累积方差比例达到累积方差比例原则:一般推荐累积方差比例达到80以上时,即可停止选择主成分。以上时,即可停止选择主成分。3.利用碎石图:将主成分按特征根从大到小排列,画出特利用碎石图:将主成分按特征根从大到小排列,画出特征根随主成分个数变化的散点图,根据图的形状来判断保征根随主成分个数变化的散点图,根据图的形状来判断保留主成分的个数。曲线开始变平的前一个点(拐点)认为留主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根
13、的变化速率来是提取的最大主成分数。也就是根据特征根的变化速率来确定。确定。例2:测得某地19-22岁年龄的部分城市男生身体形态指标:身高(x1,cm)、坐高(x2,cm)、体重(x3,kg)、胸围(x4、cm)、肩宽(x5,cm)、骨盆宽(x6,cm)。试进行主成分分析。T To ot ta al l V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d3.17252.87452.8743.17252.87452.8741.31721.95274.8251.31721.95274.825.93615.60490.429.93615.60490
14、.429.4207.00197.430.4207.00197.430.1222.04199.471.1222.04199.471.032.529100.000.032.529100.000Component123456Total%of Variance Cumulative%Total%of Variance Cumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.特征值、方差比例和特征值、方差比例和累积贡献率累积贡献率本例考虑
15、保留本例考虑保留3个主成分,累积贡献个主成分,累积贡献率可达率可达90%。主成分Ci表达式:SPSS软件不能直接给出主成分系数wij,经过FACTOR 过程产生的是因子负荷系数,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子负荷系数输入数据编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子负荷系数”的性质用TRANSFORMCOMPUTE 来计算特征向量,得到主成分的线性表达式。Component MatrixComponent Matrixa a.930-.224-.184-.165.076.131.936-.093-.161-.252.109-.118.910-
16、.208-.101.218-.265-.018.617-.053.717.296.121-.002.336.754-.456.322.089.003.330.803.379-.301-.110.016x1x2x3x4x5x6123456ComponentExtraction Method:Principal Component Analysis.6 components extracted.a.因子负荷系数转换为主成分系数(特征向量)因子负荷系数转换为主成分系数(特征向量)55432155432111850.01884.03465.05111.05255.05224.0172.3/330.01
17、72.3/336.0172.3/617.0172.3/910.0172.3/936.0172.3/930.0XXXXXXXXXXXXC特征向量:特征向量:Prin1Prin2Prin3Prin4Prin5Prin6x10.522386-.195138-.190578-.2547110.2159430.735666x20.525457-.081135-.166475-.3889580.312044-.664032x30.511104-.181008-.1046390.336278-.756343-.099605x40.346489-.0463000.7410220.4563170.346929-
18、.010197x50.1883790.656718-.4713550.4963100.2539520.015620 x60.1850380.6993940.392082-.464976-.3147870.087106主成分的应用一、主成分综合评价 医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题:1.各指标量纲不同,不能直接相加;2.各指标间存在相关,直接相加产生信息重叠;3.相加时需要考虑各指标的权重。主成分分析可方便解决以上问题。例3.为评价31个地区的生殖健康状况,某研究者考察了此31个地区的4个
19、有关生殖健康指标的得分,这4个指标的得分均是越高越好,它们各自反映了生殖健康的一个方面。对这31个地区进行综合评价。Total Variance ExplainedTotal Variance Explained3.30682.65582.6553.30682.65582.655.3548.85391.508.3548.85391.508.2065.14796.655.2065.14796.655.1343.345100.000.1343.345100.000Component1234Total%of VarianceCumulative%Total%of VarianceCumulative
20、%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.特征向量:特征向量:Prin1Prin2Prin3Prin4x10.499296-.3807370.7759410.060475x20.518859-.132563-.338619-.773660 x30.510915-.290727-.5197290.619940 x40.4695260.8677240.1146010.116050 第一主成分贡献率达到82.66%,考虑只以第一主成分作为综
21、合评价指标。C1=0.4993X1+0.5189X2+0.5109X3+0.4695X 4这里Xj为标准化值。根据上述主成分得分计算公式,可得出31个地区各自的主成分得分。根据得分的大小顺序可将这些地区分组。如需分为4个组,则可取第25分位数、中位数、第75分位数为分界点。分值最高的25%为生殖健康较优组。二、主成分回归 当自变量间存在明显共线性时,回归方程的结果可能出现重大问题,以致无法解释。主成分之间相关性为零,可解决原变量的共线性问题。主成分回归指用原变量的主成分代替原自变量作回归分析。主成分回归的步骤1.求自变量的主成分;2.舍去贡献率近于0的主成分;3.将留下的主成分代替原变量,建立
22、与应变量的回归方程;4.将主成分的表达式代入回归方程,得到原自变量与应变量的回归方程。例例4.有有22例胎儿受精龄(例胎儿受精龄(Y,周)与胎儿外周)与胎儿外形测量指标:身高(形测量指标:身高(X1,cm),头围(),头围(X2,cm),体重),体重(X3,g)的数据。试求由)的数据。试求由X1,X2,X3推算推算Y的回归方程。的回归方程。用原始资料建立回归方程,得:y=11.0117+1.6927x1-2.1589x2+0.0075x3 这里x2的系数为负,意为头围与胎儿周龄成负相关,与实际情况不符。原因是3个自变量之间相关性较强:Correlation MatrixCorrelation
23、Matrix1.000.997.944.9971.000.947.944.9471.000heightheadweightCorrelationheightheadweightT To ot ta al l V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d2.92697.53897.5382.92697.53897.538.0712.38099.918.0712.38099.918.002.082100.000.002.082100.000Component123Total%of VarianceCumulative%Total%of V
24、arianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.最大条件指数最大条件指数=1/3=1184.7,说明说明x1-x3存存在严重共线性。在严重共线性。进行主成分分析,得到特征值和特征向量:进行主成分分析,得到特征值和特征向量:1=2.9261,l1=(0.58057 0.58107 0.57034)2=0.0714,l2=(-0.41852 -0.38789 0.82121)3=0.00247,l3=(0.69
25、841 -0.71547 0.01799)根据特征向量计算出主成分根据特征向量计算出主成分C1和和C2,取这两个主成分与,取这两个主成分与y作回归作回归C1=0.58057X1+0.58107X2+0.57034X3C2=-0.41852 X1+-0.38789 X2+0.82121 X3其中,其中,X Xi i是原始变量是原始变量x xi i标准化变换后的变量:标准化变换后的变量:X X1 1=(x x1 1-33.0455-33.0455)/9.7102/9.7102,X X2 2=(x x2 2-23.2636-23.2636)/6.8575/6.8575X X3 3=(x x3 3-9
26、36.9091-936.9091)/690.3048/690.3048得到方程:y=23.7273+3.8822C1+3.0991C2再将C1和C2与原变量x1-x3的关系代入上式即得出主成分回归方程:y=10.4369+0.09854x1+0.1537x2+0.0069x3此结果用到C1和C2,累积贡献率为99.92%,即最终方程利用了原始资料99.92%的信息 如果原有p个自变量X1,X2,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。谢 谢!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。