1、1因子分析洪金益洪金益中南大学地学院中南大学地学院地质数据处理基础132第13章 因子分析 1 引言 2 正交因子模型 3 参数估计 4 因子旋转 5 因子得分 31 引言 主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释 。(是主成分分析的困难之处) 因子分析的用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。4 从方法上来说,因子分析比主成分分析更为精细,自然理论上也就更为复杂。主成分分析只涉及一般的线性变换,不涉及模
2、型,仅需假定二阶矩存在。而因子分析需建立一个数学模型,并作一定的假定。 因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。 因子分析的目的是为了降维,降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。5 例林登(Linden)根据收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为:100米跑(x1),跳远(x2),铅球(x3),跳高(x4),400米跑(x5),11米跨
3、栏(x6),铁饼(x7),撑杆跳高(x8),标枪(x9),1500米跑(x10)。经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:xi=i+fi1+fi2+fi3+fi4+i, i=1,2, ,10 其中f1, f2, f3, f4表示四个因子,称为公共因子(common factor),aij称为xi在因子fj上的载荷(loading),i是xi的均值,i是xi不能被四个公共因子解释的部分,称之为特殊因子(specific factor)。62 正交因子
4、模型 一、数学模型 二、正交因子模型的性质 三、因子载荷矩阵的统计意义7一、数学模型 设有p维可观测的随机向量 ,其均值为 ,协差阵为=(ij)。因子分析的一般模型为其中f1, f2, , fm为公共因子,1, 2, , p为特殊因子,它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+12( ,)px xxx12(,)p 1111 1122112221 1222221 122mmmmpppppmmpxa fa fafxa fafafxafafaf8式中 为公共因子向量, 为特殊因子向量, 称为因子载荷矩阵。通常
5、假定 该假定和上述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。 12,mffff12,p :ijapmA 22212diag,Cov,pEEVVEffIDf f0009二、正交因子模型的性质 1. x的协差阵的分解 2.模型不受单位的影响 3.因子载荷是不唯一的101. x的协差阵的分解 故得=AA+D如果x为各分量已标准化了的随机向量,则就是相关阵R= (ij),即有R =AA+D Cov,Cov,Cov,VVVVVVxAfAf AfAf AAf f AAf A11 例 设随机向量x=(x1,x2,x3,x4)的协
6、方差矩阵为则可分解为=AA+D其中911520112717425175252042586214000430200,170020920001AB12 若取 ,则有分解式此时m=p,没有达到降维目的,故所作的因子分析没有意义。 出于降维的需要,我们常常希望m要比p小得多,这样前述的分解式通常只能近似成立,即有=AA+D近似程度越好,表明因子模型拟合得越佳。一般来说,m选取得越小,上述近似效果就越差,即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的,故实践中m也不应选得过小。12,AD01122 0132.模型不受单位的影响将x的单位作变化,通常是作一变换x*=Cx,这里C=dia
7、g(c1,c2, ,cp),ci0,i=1,2, ,p,于是x*=C+CAf+C令*=C,A*=CA,*=C,则有 x*=*+A*f+*这个模型能满足类似于前述因子模型的假定,即 *Cov,Cov,EEVVffIDf f C000其中 因此,单位变换后新的模型仍为正交因子模型。*2*2*2*22212*diag(,),1,2,piiicipD,143.因子载荷不是唯一的 设T为任一mm正交矩阵,令A*=AT,f*=Tf,则模型能表示为x=+A*f*+因为E(f*)=TE(f)=0V(f*)=TV(f)T=TT=ICov(f*,)=E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A
8、*+D 因此,因子载荷矩阵A不是唯一的,在实际应用中常常利用这一点,通过因子的旋转,使得新的因子有更好的实际意义。15三、因子载荷矩阵的统计意义 1.A的元素aij 2.A的行元素平方和 3.A的列元素平方和221miijjha221pjijiga161.A的元素aij xi=i+ai1f1+ai2f2+ +aimfm+i即aij是xi与fj之间的协方差。 若x为各分量已标准化了的随机向量,则xi与fj的相关系数 此时aij表示xi与fj之间的相关系数。1Cov,Cov,Cov,mijijijijx fafffa Cov,Cov,ijijijijijx fx fx faV x Vf17 2.A
9、的行元素平方和 xi=i+ai1f1+ai2f2+ +aimfm+i令于是221miijjha 2221122222212,1,2,iiiimmiiiimiV xa Vfa Vfa VfVaaaip221,1,2,miijjhaip22,1,2,iiiihip18 反映了公共因子对xi的影响,可以看成是公共因子f1,f2, ,fm对xi的方差贡献,称为共性方差(communality);而 是特殊因子i对xi的方差贡献,称为特殊方差(specific variance)。 当x为各分量已标准化了的随机向量时,ii=1,此时有2ih2i221,1,2,iihip19 3.A的列元素平方和其中 反
10、映了公共因子fj对x1,x2, ,xp的影响, 是衡量公共因子fj重要性的一个尺度,可视为公共因子fj对x1,x2, ,xp的总方差贡献。221pjijiga221,1,2,pjijigajm2jg 2211111122211ppppiiimmiiiiipmiiV xa Vfa VfVgg203 参数估计 一、主成分法 二、主因子法 三、极大似然法21一、主成分法 设样本协方差矩阵S的特征值依次为 ,相应的正交单位特征向量为。选取相对较小的因子数m,并使得累计贡献率 达到一个较高的百分比,则S可近似分解如下:其中 为pm矩阵, ,i=1,2, ,p。这里的 和 就是因子模型的一个主成分解。 对
11、主成分解,当因子数增加时,原来因子的估计载荷并不变,第j个因子fj对x的总方差贡献仍为 。11pmiiii1 1 11111 1 1 1 m m mmmmp p pm m mSt tt tttt tt tt tDAAD1 1,m mijaAtt221diag,pDAD221miiiijjsa12 ,pt tt120pi22 例 在林登例中,分别取m=1和m=2,用主成分法估计的因子载荷和共性方差列于下表。当m=1和m=2时的主成分解变 量m=1m=2因子载荷共性方差因子载荷共性方差f1 f2f1 f2 :100米0.8170.6680.8170.5310.950 :200米0.8670.752
12、0.8670.4320.939 :400米0.9150.8380.9150.2330.892 :800米0.9490.9000.9490.0120.900 :1500米0.9590.9200.959-0.1310.938 :5000米0.9380.8790.938-0.2920.965 :10000米0.9440.8910.944-0.2870.973 :马拉松0.8800.7740.880-0.4110.943所解释的总方差的累计比例0.8280.8280.9381f2ih1f2f2ih*1x*2x*3x*4x*5x*6x*7x*8x2ih*1x*2x*3x*4x*5x*6x*7x*8x23
13、主成分解的近似关系式 主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力,可称为强弱因子;因子f2反映了速度与耐力的对比。*1121*2122*3123*4124*5125*6126*71271000.8170.531000.8670.4324000.9150.2338000.9490.01215000.9590.131000.9380.292100000.9440.287xffxffxffxffxffxffxff(米)(2米)(米)(米)(米)(50米)(米)*81280.8800.411xff(马拉松)24二、主因子法 假定原始向量x的各分量已作了标准化变换。如果
14、随机向量x满足正交因子模型,则有R=AA+D其中R为x的相关矩阵,令R*=RD=AA 则称R*为x的约相关矩阵(reduced correlation matrix)。 R*中的对角线元素是 ,而不是1,非对角线元素和R中是完全一样的,并且R*也是一个非负定矩阵。2ih25 设 是特殊方差 的一个合适的初始估计,则约相关矩阵可估计为其中 是 的初始估计。又设 的前m个特征值依次为 ,相应的正交单位特征向量为 ,则A的主因子解为2i2i211212*2122212ppppphrrrhrrrhRRD 2222212,diag,1ijpiirh RD,2ih*R*120m*12 ,mttt*1122
15、,m mAttt26由此我们可以重新估计特殊方差, 的最终估计为 如果我们希望求得拟合程度更好的解,则可以采用迭代的方法,即利用上式中的 再作为特殊方差的初始估计,重复上述步骤,直至解稳定为止。2i222111,1,2,miiijjhaip 2i27特殊(或共性)方差的常用初始估计方法 (1)取 ,其中rii是 的第i个对角线元素,此时共性方差的估计为 ,它是xi和其他p1个变量间样本复相关系数的平方,该初始估计方法最为常用。 (2)取 ,此时 。 (3)取 ,此时 ,得到的 是一个主成分解。21iiir1R221iih 2maxiijj ihr221iih 20i21ih A28 例 在上例
16、中,取m=2,为求得主因子解,选用xi与其他七个变量的复相关系数平方作为 的初始估计值。计算得于是约相关矩阵为2ih22221234222256780.877,0.888,0.845,0.8840.927,0.955,0.967,0.905hhhhhhhh*0.8770.9230.8880.8410.8510.8450.7560.8070.8700.8840.7000.7750.8350.9180.9270.6190.6950.7790.8640.9280.9550.6330.6970.7870.8690.9350.9750.9670.5200.5960.7050.8060.8660.9320
17、.9430.905R29 的特征值为从 起特征值已接近于0,故取m=2,相应的计算结果列于表。*R*1234*56786.530,0.779,0.051,0.0060.014,0.015,0.036,0.053 *3变 量因子载荷共性方差f1f2 :100米0.8070.4960.897 :200米0.8580.4120.906 :400米0.8900.2160.856 :800米0.9390.0240.881 :1500米0.9560.1140.926 :5000米0.9380.2820.960 :10000米0.9460.2810.974 :马拉松0.8740.3780.907所解释的总方
18、差的累计比例0.8160.914*1x*2x*3x*4x*5x*6x*7x*8x30三、极大似然法 设公共因子fNm(0,I),特殊因子Np(0,D),且相互独立,则必然有原始向量xNp(,)。由样本x1,x2, ,xn计算得到的似然函数是和的函数L(,)。由于=AA+D,故似然函数可更清楚地表示为L(,A,D)。记(,A,D)的极大似然估计为( ),即有 可以证明, ,而 满足以下方程组: , A D ( ,)max,LL A D A D xAD和11 () diag()mD A A IA D ADAA=31其中 。由于A的解是不唯一的,故为了得到唯一解,可附加计算上方便的唯一性条件:AD1
19、A是对角矩阵上述方程组中的 一般可用迭代方法解得。 对极大似然解,当因子数增加时,原来因子的估计载荷及对x的贡献将发生变化,这与主成分解及主因子解不同。11()()niiinxxxxAD和324 因子旋转 因子的解释带有一定的主观性,我们常常通过旋转公共因子的方法来减少这种主观性。 公共因子是否易于解释,很大程度上取决于因子载荷矩阵A的元素结构。 如果载荷矩阵A的所有元素都接近0或1,则模型的公共因子就易于解释。反之,如果载荷矩阵A的元素多数居中,不大不小,则对模型的公共因子往往就不易作出解释,此时应考虑进行因子旋转,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离。33 因子旋
20、转方法有正交旋转和斜交旋转两类,本章只讨论正交旋转。 对公共因子作正交旋转相当于对载荷矩阵A作一正交变换,右乘正交矩阵T,使A*=AT能有更鲜明的实际意义。旋转后的公共因子向量为f*=Tf,它的几何意义是在m维空间上对原因子轴作一刚性旋转。 因子旋转不改变共性方差,这是因为A*A*=ATTA=AA 正交矩阵T的不同选取法构成了正交旋转的各种不同方法,在这些方法中使用最普遍的是最大方差旋转法(varimax),本节仅介绍这一种正交旋转法。 在林登例中分别使用最大方差旋转法,旋转后的因子载荷矩阵列于下表。34旋转后的因子载荷估计变 量主成分主因子极大似然 :100米0.2740.9350.2870
21、.9030.2880.914 :200米0.3760.8930.3810.8720.3790.883 :400米0.5430.7730.5410.7510.5410.746 :800米0.7120.6270.6950.6310.6890.624 :1500米0.8130.5250.7990.5370.7970.532 :5000米0.9020.3890.8950.3990.8990.397 :10000米0.9030.3970.9000.4050.9060.402 :马拉松0.9360.2610.9090.2840.9140.281所解释的总方差的累计比例0.5230.9380.5100.91
22、40.5120.9171f2f2ih*1x*2x*3x*4x*5x*6x*7x*8x*1f*1f*1f*2f*2f*2f35三种方法的因子载荷估计经因子旋转之后给出了大致相同的结果, 在因子 上的载荷依次增大,在因子 上的载荷依次减小,可称 为耐力因子,称 为(短跑)速度因子。将(主成分解的)因子载荷配对( )在下图中用点表示,在点上标出相应变量的序号。使用最大方差旋转法后,因子按顺时针方向旋转了=40.6,点i在新坐标系下的坐标为旋转后的因子载荷配对( )。从图中容易直接看出旋转后因子的实际意义。*1f*2f*1f*1f12,iiaa12,iiaa36 主成分解的因子旋转375 因子得分 一、加权最小二乘法 二、回归法38一、加权最小二乘法 采用类似于回归分析中加权最小二乘估计的想法将 估计为 在实际应用中,用估计值 分别代替上述公式中的,A和D ,并将样品xj的数据代入,便可得到相应的因子得分12,mffffxAD, 和111jjfA D AA Dxx111fA D AA Dx39二、回归法 在正交因子模型中,假设 服从(m+p)元正态分布,用回归预测方法可将 估计为在实际应用中,可用 分别代替上式中的,A和 来得到因子得分。样品xj的因子得分12,mffff1fA xfx1jjfA SxxxA, 和40结结 束束