1、主成分分析法主成分分析法4.1 主成分分析法的基本原理主成分分析法的基本原理 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。4.1.1 基本思想基本思想 对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。借助于一个正交变换T,将其分量相关的原随机向量x=(x1,x2,L,xp)T,转化成其分向量不相关的新随机向量u=(u1,u
2、2,L,up)T,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。定义:称为第k主成分分量的方差贡献率,称为前k个主成分分量的累计方差贡献率。11pkii111pkiiii 例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据:变量观测量身高h体重w1h1w12h2w23h3w3nhnwn使用散点图表示儿童身高与体重 y1y2 wh i=1,2,n 以该直线为一个坐标轴
3、y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而 y1 与 y2 是两个相互垂直的坐标轴,因此彼此不相关。上述也可以看成是将h轴和w轴同时按逆时针方向旋转角度,得到新的坐标轴y1和 y2,y1和 y2是两个新的变量。根据旋转公式 y1=h cos+w sin y2=-h sin+w cos 我们看到新变量 y1和 y2 是原变量h和w的线性组合,它的矩阵表示形式为 y1 cos sin h =Ux y2 一sin cos w其中其中U为正交矩阵,即有为正交矩阵,即有U=U-1,U U-1=I 旋转变换的目的是为了使得n个样本点在 y1 轴方向上的离散程度最大,即 y
4、1的方差最大。变量 y1 代表了原始数据的绝大部分信息,即把原始数据的信息集中到 y1轴上,对数据中包含的信息起到了浓缩作用。y1和 y2 可称为原始变量h和w的综合变量。由于n个点在 y1 轴上的方差最大,因而将二维空间的点的描述用 y1这个综合变量来代替,所损失的信息最小,由此称 y1 为第一主成分,y2为第二主成分。4.1.2 主成分分析法与因子分析法主成分分析法与因子分析法 主成分分析通过线性组合将原变量综合主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原成几个主成分,用较少的综合指标来代替原来较多的指标来较多的指标(变量变量)。在多变量分析中,某些。在多变量分
5、析中,某些变量间往往存在相关性。是什么原因使变量变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?但影响可观测变量变化的公共因子?因子分析法因子分析法(Factor Analysis)就是寻找就是寻找这些公共因子的模型分析方法,它是在主成这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量以它们为框架分解原变量,以此考察原变量间的联系与区别。间的联系与区别。4.1.2 主成分分析法与因子分析法主成
6、分分析法与因子分析法 例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即
7、将相关性高的变量分为一组,用共性因子代替该组变量。4.2 主成分分析的一般数学模型主成分分析的一般数学模型 变量观测量X1X2X3X4Xm1X11X12X13X14X1m2X21X22X23X24X2mnXn1Xn2Xn3Xn4Xnm 推广到一般情况,实测变量X1Xm,共测得n个样品:原始数据矩阵为:X11 X12 X1m X21 X22 X2m Xn1 Xn2 XnmX=在原始变量的m维空间中,找到新的m个坐标轴,新变量与原始变量的关系可以表示为:y1=u11x1+u12x2+u1mxmy2=u21x1+u22x2+u2mxm ym=um1x1+um2x2+ummxm 并且满足uk12+uk
8、22+ukm2=1 k=1,2,m系数uij由下列原则来确定:(1)yi与yj(i j,i,j=1,2,p)相互无关。(2)y1是x1、x2、xp的一切线性组合中方差最大者;y2是与y1不相关的x1、x2、xp的所有线性组合中方差最大者;yp是与y1、y2、yp-1都不相关的x1、x2、xp的所有线性组合中方差最大者。如此决定的综合变量y1、y2、yp分别称为原始变量的第1、第2、第p个主成分。其中y1在总方差中占的比重最大,综合变量y1、y2、yp的方差依次递减,在具体分析时只挑选前几个方差最大的主成分,从而达到简化系统结构的目的。4.3 主成分分析法的算法主成分分析法的算法 主成分分析法原
9、理应用于实际课题,必须主成分分析法原理应用于实际课题,必须解决两个问题:解决两个问题:一是随机向量一是随机向量x的协方差阵的协方差阵T 或相关系数或相关系数阵阵R通常是未知的,需借助于随机抽样的途径通常是未知的,需借助于随机抽样的途径,对,对T或或R作出极大似然估计;作出极大似然估计;二是随机向量二是随机向量x的各个分量通常是不同的的各个分量通常是不同的自然科学量或社会科学量,需通过标准化变换自然科学量或社会科学量,需通过标准化变换的方法,以解决不可公度的问题。的方法,以解决不可公度的问题。步骤1:采集p维随机向量x=(x1,x2,xp)T的n个样品xi=(xi1,xi2,xip)T,i=1,
10、2,n,np,构造样本阵X x1T x11 x12 x1p x2T x21 x22 x2p X=xnT xn1 xn2 xnp 步骤步骤2 对样本阵X中的元进行如下变换 x ij,对正指标 Y ij=-x ij,对逆指标 得 Y=Y ij np 步骤步骤3 对Y正中元进行如下标准化变换 ijjjyyijs1,2,;1,2,in jp其中得标准化矩阵Z:2211,1nnijijjiijjyyyysnnZ=z1T z11 z12 z1p z2T =z21 z22 z2p znT zn1 zn2 znp步骤步骤4 对标准化阵Z求样本相关系数阵 其中1Tijp pZ ZRrn1.,1,2,1nkjkj
11、kijz zri jpn步骤步骤5 解样本相关系数阵R的特征方程 得p个特征值 0pRI120p步骤步骤6 按按 得单位特征向量得单位特征向量:110.85mjjpjj使信息的利用率达到使信息的利用率达到85%以上。以上。确定确定m值。值。,1,2,jim对每个对每个 解方程组解方程组 jRbb0jjjbbb 步骤7 求出zi=(zi1,zi2,zip)T,i=1,2,n的m个主成分量 uij=ziTbj0,j=1,2,m 得主成分决策阵 U=TnTTuuu21=nmnnmmuuuuuuuuu212222111211 其中ui为第i个样品的主成分向量,i=1,2,n,它的第j个分量uij是向量
12、zi在单位特征向量bj0 上的投影,j=1,2,m。步骤步骤8 选择适当的主成分价值函数模型,选择适当的主成分价值函数模型,进一步把进一步把m维系统降成一维系统。维系统降成一维系统。一般评一般评价函数模型为:价函数模型为:Fi=,i=1,2,n。其中其中 ,j=1,2,m。mjijjuw1miijjw1 4.4 实例分析:企业经济效益的主成分分析实例分析:企业经济效益的主成分分析 企业经济效益是指企业在一定的计划期内,以尽量少的资金占用、生产出尽量多的符合社会需求的产品。对企业经济效益的考核、分析和评价,是国家发展经济、实施宏观调控和科学管理所必须的,也是企业自我认识、自我发展、进行科学决策和
13、科学管理的依据。4.4.1 评价指标体系设计评价指标体系设计 (1)销售利润率 (2)总资产报酬率(3)资本收益率 (4)资本保值增值率(5)资产负债率 (6)速动比率(7)应收帐款周转率 (8)存货周转率(9)社会贡献率 (10)社会积累率 4.4.2 建立数学模型 (1)根据调查研究,取n个样本,每个样本观测p项指标,从十个企业的财务报表中计算出所需的十个评价指标,得出原始数据矩阵如表1 Book1.xls(2)为了消除原来各指标的量纲,使各指标之间具有可比性,对原始数据作标准化处理,其计算公式为:(i=1,2,.n;j=1,2,p)标准化原始数据矩阵所得结果如表2 Book1.xls j
14、jijsxx XIj*=(3)计算相关系数矩阵:R=其中,rij=(i=1,2,3,p;j=1,2,3,p)根据标准化矩阵计算相关矩阵,结果如表3 Book1.xlspppppprrrrrrrrr21222211121111nnttjtixx1 (5)根据特征根计算主成分的贡献率和主成分的累计贡献率,选择m个主分量。当其达到一定水平时,说明前r个主成分来描述原样本所包含的信息量已经达到要求。计算公式如下:第k个主主成分的贡献率=,前r个主成分的累计贡献率=计算结果如表4(Book1.xls)piik1piirii11 选择的4个主分量的方差和占全部方差总和的比例为0.9070接近1,即基本保留
15、了原来的信息,而因子由10个减少为4个。故主成分为4个,根据Z=CX计算4个主成分的值z1,z2,z3,z4,如下:第一主成分:z1=0.0620 x1+0.4439x2+0.4501x3+0.3072x4-0.0803x5-0.1923x6+0.3089x7-0.1153x8+0.4061x9+0.4301x10 第二主成分:z2=0.5554x1+0.0170 x2+0.0148x3+0.2455x4-0.4081x5+0.3854x6+0.1437x7-0.4850 x8-0.2443x9+0.0117x10 第三主成分:z3=-0.0660 x1-0.0813x2+0.1591x3-0
16、.4107x4-0.6418x5+0.2796x6+0.2931x7-0.4270 x8-0.0570 x9+0.1832x10 第四主成分:z4=0.2372x1-0.0673x2-0.1638x3-0.1553x4-0.1369x5-0.5447x6+0.6281x7-0.2381x8-0.1733x9-0.3026x10 用这四个主成分来评价各企业的综合经济效益,其计算公式如下:Y=0.4443z1+0.2550z2+0.1128z3+0.0949z4 第四主成分:z4=0.2372x1-0.0673x2-0.1638x3-0.1553x4-0.1369x5-0.5447x6+0.6281x7-0.2381x8-0.1733x9-0.3026x10 用这四个主成分来评价各企业的综合经济效益,其计算公式如下:Y=0.4443z1+0.2550z2+0.1128z3+0.0949z4