1、1第五章第五章 主成分分析与典型相关分析主成分分析与典型相关分析 主成分分析是研究如何通过原来变量的少数几个线主成分分析是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差性组合来解释随机向量的方差协方差结构。协方差结构。具体地说,其目的具体地说,其目的(1)化简数据化简数据 当当p个变量的大部分变量能够由它们的个变量的大部分变量能够由它们的k(比(比p小很小很多)个主成分(特殊的线性组合)来概括。如果所考多)个主成分(特殊的线性组合)来概括。如果所考虑的问题是这种情况,那么包括在这虑的问题是这种情况,那么包括在这k个主成分中的信个主成分中的信息与原来息与原来p个变量几乎一样多,可以用
2、这个变量几乎一样多,可以用这k个主成分代个主成分代替原替原p个变量,这样一来,由个变量,这样一来,由p个变量的个变量的n次观测组成的次观测组成的数据就被简化为数据就被简化为k个主成分的个主成分的n次观测数据。次观测数据。2(2)揭示变量间的关系揭示变量间的关系 主成分的另一种作用是揭示变量之间的一些关系,主成分的另一种作用是揭示变量之间的一些关系,而这些关系往往是用别的方法或具体专业知识所难以而这些关系往往是用别的方法或具体专业知识所难以预料的。例如主成分应用在回归分析中,可以给出回预料的。例如主成分应用在回归分析中,可以给出回归自变量的近似复共线关系,这对于数据分析会带来归自变量的近似复共线
3、关系,这对于数据分析会带来一些重要信息。一些重要信息。35.1 总体主成分总体主成分 设设X1,X2,Xp为某实际问题所涉及的为某实际问题所涉及的p个随机变量。个随机变量。记记X=(X1,X2,Xp)T, 其均值向量其均值向量 =E(X), 协方差矩阵协方差矩阵它是一个它是一个p阶非负定矩阵。设阶非负定矩阵。设li=(li1,li2,lip)T (i=1,2,p)为为p个常数向量,考虑如下线性组合:个常数向量,考虑如下线性组合:1111112212221122221122.TppTppTpppppppYl Xl Xl Xl XYl Xl Xl XlXYlXl XlXl XL LM ML L =
4、( ij)p p=E(X-E(X)(X-E(X)T4易知有易知有( )(),1,2, ,( ,)(,),1,2, .TTiiiiTTTijijijVar YVar l XllipCov Y YCov l X lXlljpL LL L如果我们希望用如果我们希望用Y1代替原来代替原来 p个变量个变量X1,X2,Xp,这就要这就要求求Y1尽可能地反映原尽可能地反映原 p个变量的信息。这里个变量的信息。这里“信息信息”用用Y1的方差来度量,即要求的方差来度量,即要求111( )TVar Yll达到最大。达到最大。 若若l1不加限制,则不加限制,则Var(Y1)无界。在约束条件无界。在约束条件l1Tl1
5、=1之之下,求下,求 l1使使Var(Y1)达到最大,由此达到最大,由此l1所确定的随机变量所确定的随机变量11TYl X称为称为 X1,X2,Xp的的第一主成分第一主成分。5 如果第一主成分如果第一主成分Y1还不足以反映原变量的信息,进一还不足以反映原变量的信息,进一步求步求Y2。为了使。为了使Y1和和Y2反映原变量的信息不相重叠,要反映原变量的信息不相重叠,要求求Y1与与Y2不相关,即不相关,即1212( ,)0TCov Y Yll 于是,在约束条件于是,在约束条件l2Tl2 =1及及l1T l2 =0之下,求之下,求l2 使使Var(Y2)达到最大,由此达到最大,由此l2 所确定的随机变
6、量所确定的随机变量Y2=l2TX 称称为为X1, X2, , Xp的的第二主成分第二主成分。一般地,在约束条件一般地,在约束条件 及及( ,)0(1,2,1)kTikiCov Y YllkiL L下,求下,求li 使使Var(Yi) 达到最大,由此达到最大,由此li所确定的所确定的 1Tiil l TiiYl X称为称为X1,X2,Xp的的第第i个主成分个主成分 。6总体主成分的求法总体主成分的求法关于总体主成分有如下结论:关于总体主成分有如下结论:定理定理5.1 设设 是是X=(X1,X2,Xp)T 的协方差矩阵,的协方差矩阵, 的特征的特征值及相应的正交单位化特征向量分别为值及相应的正交单
7、位化特征向量分别为 1 2. p 及及 1, 2, p,则,则X的第的第i 主成分为主成分为1122,1,2,TiiiiippYXXXXipL LL L其中其中 i=( i1, i2, ip)T. 这时易见:这时易见:( ),1,2,( ,)0,TTiiiiiiiTTikikkikVar YipCov Y Yik L L证明从略。证明从略。7 以上结果告诉我们,求以上结果告诉我们,求 X 的各主成分,等价于求的各主成分,等价于求它的协方差矩阵它的协方差矩阵 的各特征值的各特征值 及相应的正交单位化特及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征征向量。按特征值由大到小所对应
8、的正交单位化特征向量为组合系数的向量为组合系数的X1,X2,Xp 的线性组合分别为的线性组合分别为X 的的 第一、第二、直至第第一、第二、直至第 p 个住成分,而各主成分的方差个住成分,而各主成分的方差等于相应的特征值。等于相应的特征值。8总体主成分的性质总体主成分的性质 1. 主成分的协方差矩阵及总方差主成分的协方差矩阵及总方差 记记Y=(Y1,Y2,Yp)T为主成分向量,则为主成分向量,则Y= TX ,其中,其中 =( 1, 2, p),且,且1Cov( )Cov()Diag( ,)TTpYX L L由此得主成分的总方差为由此得主成分的总方差为111Var( )tr()tr( )Var()
9、pppTiiiiiiYX 即主成分分析是把即主成分分析是把p个原变量个原变量X1,X2,Xp的总方差分解的总方差分解成成p个不相关变量个不相关变量Y1,Y2,Yp 的方差之和。的方差之和。92. 主成分主成分Yi与变量与变量Xj的相关系数的相关系数由于由于 ,故,故 ,从而,从而TYX XY 1122,Cov(,)jjjpjpijiijXYYYY XL L由此可得由此可得 Yi 与与 Xj相关系数相关系数(也称为因子负荷量也称为因子负荷量)为为 ,Cov( ,)Var( ) Var()ijijiijiY XijijijjjjY XYX它给出了主成分它给出了主成分Yi与与 原始变量原始变量Xj
10、的关联性的度量。的关联性的度量。101/pkii称为第称为第k 个主成分个主成分Yk 的的贡献率;贡献率;11/pmiiii称为称为Y1,Y2,Ym的的累计贡献率累计贡献率。定义定义5.1 实际中常取实际中常取mp,使前,使前m个主成分的累计贡献率达到个主成分的累计贡献率达到较高的比例。累计贡献率表达了前较高的比例。累计贡献率表达了前m个主成分提取了原个主成分提取了原变量变量X1,X2,Xp的多少信息,但没有表达某个变量被提的多少信息,但没有表达某个变量被提取了多少信息,为此取了多少信息,为此定义定义5.2 前前m个主成分对原变量个主成分对原变量xi的贡献率的贡献率Fi是是21/mikikii
11、kF 11通过具体例子说明求总体主成分的方法。通过具体例子说明求总体主成分的方法。例例5.1 设随机变量设随机变量X=(X1,X2,X3)T 的协方差矩阵为的协方差矩阵为120250002 求求 X的各主成分。的各主成分。解解 易得易得 的特征值及相应的正交化特征向量分别为的特征值及相应的正交化特征向量分别为1122335.83,(0.383, 0.924,0),2.00,(0,0,1),0.17,(0.924,0.383,0).TTT121231235.83,2.00,0.17(0.383, 0.924,0),(0,0,1),(0.924,0.383,0).TTT因此因此X的主成分为的主成分
12、为111222333120.3830.924,0.9240.383TTTYXXXYXXYXXX如果只取第一主成分如果只取第一主成分(m=1),则贡献率为,则贡献率为5.83/(5.83 2.00 0.17)73%.此时对此时对x1,x2,x3的贡献率分别为的贡献率分别为( )21/mikikiikF F1=5.83 0.3832/1=0.855; F2=0.996; F3=013若取前两个主成分若取前两个主成分(m=2),则累计贡献率为,则累计贡献率为5.832.0098%5.832.000.17此时对此时对x1,x2,x3的贡献率分别为的贡献率分别为F1=5.83 0.3832/1=0.85
13、5; F2=0.996; F3=1前两个主成分与各原始变量的相关系数的计算前两个主成分与各原始变量的相关系数的计算:14前两个主成分与各原始变量的相关系数分别为前两个主成分与各原始变量的相关系数分别为111213,5.380.3830.925,5.38( 0.924)0.95855.38002YXYXYX 120250002 1122335.83,(0.383, 0.924,0);2.00,(0,0,1),0.17,(0.924,0.383,0).TTT,ijiY Xijjj15同理,可求得同理,可求得即即Y1与与X1,X2高度相关而与高度相关而与X3不相关;不相关;Y2与与X3,以概率,以概
14、率1呈完全线性关系呈完全线性关系.212223,0,0,1.YXYXYX111213,5.380.3830.925,5.38( 0.924)0.95855.38002Y XY XY X 16标准化变量的主成分标准化变量的主成分 实际中实际中, 不同变量往往有不同的量纲不同变量往往有不同的量纲, 由于量纲不同会由于量纲不同会引起各变量取值的分散程度差异较大引起各变量取值的分散程度差异较大, 这时总体方差则这时总体方差则主要受方差较大的变量的控制。若用主要受方差较大的变量的控制。若用 求主成分,则优求主成分,则优先照顾了方差较大的变量先照顾了方差较大的变量, 有时会造成很不合理的结果。有时会造成很
15、不合理的结果。为消除这种影响为消除这种影响, 常采用变量标准化的方法常采用变量标准化的方法, 即令即令*,1,2,.,.iiiiiXXip其中:其中: i和和 ii分别为分别为Xi的数学期望和方差。的数学期望和方差。*12(, ,)TpXX XXL这时这时的协方差矩阵便是的协方差矩阵便是X的相关矩阵的相关矩阵()ijpp17其中其中*Cov(,)()ijijijiijjXXE X X 利用利用X的相关矩阵的相关矩阵 作主成分分析,有如下结论:作主成分分析,有如下结论:X*的第的第i 个主成分为个主成分为*11111*111*12( ),1,2, .Var( )Var(),0ppTiiiippp
16、pppiiiiiipXXYXipYXpLLL18第第 i 个主成分个主成分Yi*的贡献率为的贡献率为 i*/p,前,前m个主成分的累个主成分的累计贡献率为计贡献率为*1/,miip*,.ijiijYXe例例5.2 设设X=(X1,X2)T的协方差矩阵为的协方差矩阵为 144100 相应的相关矩阵为相应的相关矩阵为分别从分别从 和和 出发,作主成分分析。出发,作主成分分析。Yi*与与Xj*的相关系数为的相关系数为10.40.4119解解 如果从如果从 出发作主成分分析,易求得其特征值和相应出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为的正交单位化特征向量为1122100.16,(0
17、.040,0.999) ,0.84,(0.999, 0.040) .TTX的两个主成分分别为的两个主成分分别为第一主成分的贡献率为第一主成分的贡献率为 112100.1699.2%1011122120.0400.999,0.9990.040.YXXYXX20Y1与与 X1,X2的相关系数分别为的相关系数分别为1112,0.400,1.00Y XY X 如果从如果从 出发求主成分,可求得其特征值和相应的正出发求主成分,可求得其特征值和相应的正交单位化特征向量为交单位化特征向量为*11*221.4,(0.707,0.707) ,0.6,(0.707, 0.707) .TTX*的两个主成分分别为的两
18、个主成分分别为因因 X2方差很大方差很大, 完全控制了提取信息量占完全控制了提取信息量占99.2%的第一的第一主成分主成分(X2在在Y1中系数为中系数为0.999), 淹没了变量淹没了变量X1的作用。的作用。*1121122*21211220.7070.7070.707() 0.0707(),0.7070.7070.707() 0.0707().YXXXXYXXXX21*11.470%2p此时,第一主成分的贡献率有所下降,为此时,第一主成分的贡献率有所下降,为Y1*与与X1*,X2*的相关系数分别为的相关系数分别为*1111,1.4 0.7070.838YXYX 由由 所求得的第一主成分中,所
19、求得的第一主成分中,X1和和X2的权重系数为的权重系数为0.707和和0.0707,第一主成分与标准化变量,第一主成分与标准化变量X *的相关的相关性变为性变为0.838,即,即X1的相对重要性得到提升。此例也的相对重要性得到提升。此例也证明,由证明,由 和和 所求得所求得 的主成分一般是不同的。的主成分一般是不同的。 在实际运用中,当涉及的变量的变化范围差异较在实际运用中,当涉及的变量的变化范围差异较大时,从大时,从 出发求主成分比较合理。出发求主成分比较合理。225.2 样本主成分样本主成分当当 (或或 )未知时,通过未知时,通过 样本估计样本估计 。设。设 12(,) ,1,2, .Ti
20、iiipxxxxinLL为容量为为容量为n的简单随机样本,即样本矩阵的简单随机样本,即样本矩阵X为为 111212122212.ppnnnpxxxxxxXxxx23对对X进行中心化变换:进行中心化变换:*11,1, ;1,., .nijijjjijixxxxxin jpnL 记变换后的样本矩阵为记变换后的样本矩阵为X *,则样本离差阵,则样本离差阵A、协方、协方差矩阵差矩阵S及相关矩阵及相关矩阵R分别为分别为 *()1()1( )TijijijijijiijjiijjAaXXSsAnasRra as s24分别以分别以 S和和R作为作为 和和 的估计,按前面所述方法求得的估计,按前面所述方法求
21、得的主成分称为的主成分称为样本主成分样本主成分。 不失一般性可假设不失一般性可假设X已中心标准化,这时协方差矩已中心标准化,这时协方差矩阵与相关矩阵相同,且阵与相关矩阵相同,且 R=XTX 记记R的的p个主成分为个主成分为z1, z2, , zp。将样本数据代入可得。将样本数据代入可得n个样本主成分值个样本主成分值 Z=X , 并称为主成分得分。见下表。并称为主成分得分。见下表。其中其中 为为R的特征值对应的特征向量组成的正交阵。的特征值对应的特征向量组成的正交阵。 =( 1, 2, p)25 若取前若取前 m(mp)个样本主成分,使其累计贡献率达到个样本主成分,使其累计贡献率达到一定的要求一
22、定的要求(如如80%到到90%),以前,以前m个样本主成分的得个样本主成分的得分代替原始数据作分析,这样便可以达到降低原始数分代替原始数据作分析,这样便可以达到降低原始数据维数的目的。据维数的目的。原始数据及其主成分得分原始数据及其主成分得分序号序号原原 变变 量量 x1 x2 xp主主 成成 分分 z1 z2 zp12nx11 x12 x1px21 x22 x2p.xn1 xn2 xnpz11 z12 z1pz21 z22 z2p.zn1 zn2 znp26解解 用相关矩阵进行主成分分析。用相关矩阵进行主成分分析。SAS程序如下程序如下:例例5.3 对麻栎树木的地径对麻栎树木的地径x1、胸径
23、、胸径x2、树高、树高x3、枝下、枝下高高x4和平均冠幅和平均冠幅x5等等5项指标进行测量,其数据如下项指标进行测量,其数据如下表表(见见P106)。试对这。试对这5项指标进行主成分分析。项指标进行主成分分析。 序号序号地径地径x1 胸径胸径x2 树高树高x3 枝下高枝下高x4 平均冠幅平均冠幅x5121819 8.7 5.8 4.8 2.7 2.7 11.1 8.1 6.2 2.8 2.9. 41.3 40.3 15.5 4.2 9.6 48.0 44.0 15.8 3.5 8.627data exm53; input x1-x5;cards; 8.7 5.8 4.8 2.7 2.7.48.
24、0 44.0 15.8 3.5 8.6;proc princomp data=exm53 prefix=z out=b53;var x1-x5; run;proc print data=b53;var z1 z2 x1-x5;run;princomp 主成分分析过程;主成分分析过程;prefix=z 主成分用主成分用z表示表示, 缺省为缺省为prin;out=b53 输出主成分得分到输出主成分得分到b53数据集。数据集。28第一主成分的贡献率为第一主成分的贡献率为77.77%;前两个主成分的累计;前两个主成分的累计贡献率达贡献率达98.14,可取前两个主成分。,可取前两个主成分。输出部分结果:
25、输出部分结果:29前两个主成分:前两个主成分:*1123*450.4981050.5022880.4956620.0865820.496408zxxxxx*2123*450.1317310.1150010.1241460.9756700.045588zxxxxx xi*为标准化变量。为标准化变量。30前两个主成分得分和原始数据:前两个主成分得分和原始数据:可用主成分得分进行其他分析,如聚类分析等。可用主成分得分进行其他分析,如聚类分析等。31 若要计算主成分若要计算主成分zk与原变量与原变量xi的因子负荷的因子负荷r(zk,xi)及及前前m个主成分对原变量个主成分对原变量xi的贡献率的贡献率F
26、i,可用因子分析,可用因子分析过程过程factor计算,在上述程序后增加以下程序即可。计算,在上述程序后增加以下程序即可。proc factor data=exm53 method=prin n=2 simple;var x1-x5; run;因子负荷因子负荷r(zk,xi)前前m个主成分对原变量个主成分对原变量xi的贡献率的贡献率Fi32解解 用协方差矩阵进行主成分分析。用协方差矩阵进行主成分分析。SAS程序如下程序如下:例例5.4 对对10名男中学生的身高名男中学生的身高(X1)胸围胸围(X2)和体重和体重(X3)进进行测量,得数据如下表所示。对其作主成分分析。行测量,得数据如下表所示。对
27、其作主成分分析。序号序号身高身高x1(cm) 胸围胸围x2(cm) 体重体重x3(kg)12345678910149.5 69.5 38.5162.5 77.0 55.5162.7 78.5 50.8162.2 87.5 65.5156.5 74.5 49.0156.1 74.5 45.5172.0 76.5 51.0173.2 81.5 59.5159.5 74.5 43.5157.7 79.0 53.533data ex5_4; input x1-x3;cards;149.5 69.5 38.5 162.5 77.0 55.5162.7 78.5 50.8 162.2 87.5 65.51
28、56.5 74.5 49.0 156.1 74.5 45.5172.0 76.5 51.0 173.2 81.5 59.5159.5 74.5 43.5 157.7 79.0 53.5;proc princomp cov prefix=y;var x1-x3;run;princomp 主成分分析过程;主成分分析过程;cov用协方差矩阵计算用协方差矩阵计算,缺省为相关阵;缺省为相关阵;prefix=y 主成分用主成分用y表示表示, 缺省为缺省为prin。34计算结果:计算结果:35前两个主成分的累计贡献率已达前两个主成分的累计贡献率已达98.855,实际应用,实际应用中可只取前两个主成分,即中可
29、只取前两个主成分,即11232123.0.5591570.4212870.714046,0.8276740.3334830.451382yxxxyxxx36 第一主成分第一主成分y1是身高值是身高值(x1)胸围值胸围值(x2)和体重值和体重值(x3) 的加权和,当一个学生的的加权和,当一个学生的y1值较大时,可以推断他较值较大时,可以推断他较高或较胖或又高又胖,反之,当一个学生的身材比较高或较胖或又高又胖,反之,当一个学生的身材比较魁梧时,所对应的魁梧时,所对应的y1值也较大。故第一主成分是反映值也较大。故第一主成分是反映学生身材是否魁梧的综合指标,可称为学生身材是否魁梧的综合指标,可称为“大
30、小大小”因子。因子。11232123.0.5591570.4212870.714046,0.8276740.3334830.451382yxxxyxxx 第二主成分第二主成分y2的表达式中,身高的表达式中,身高 (x1)前的系数为正前的系数为正,而胸围而胸围(x2)和体重和体重(x3)的系数为负,当一个学生的的系数为负,当一个学生的y2值值较大时,说明较大时,说明x1的值较大,而的值较大,而 x2,x3相对较小,即该生相对较小,即该生较高且瘦。可称之为较高且瘦。可称之为“形状形状”因子。因子。37例例5.5 某市为了全面分析机械类各企业的经济效益,某市为了全面分析机械类各企业的经济效益,选择了
31、选择了8个不同的利润率指标,个不同的利润率指标,14家企业关于这家企业关于这8个指个指标的统计数据如下表。试进行主成分分析标的统计数据如下表。试进行主成分分析. 序序号号净产净产 资产资产 总产总产 收入收入 成本成本 物耗物耗 人均人均 流动资金流动资金值值x1 x2 值值x3 x4 x5 x6 x7 x8123456789101112131440.4 24.7 7.2 6.1 8.3 8.7 2.442 20.025.0 12.7 11.2 11.0 12.9 20.2 3.542 9.113.2 3.3 3.9 4.3 4.4 5.5 0.578 3.622.3 6.7 5.6 3.7
32、6.0 7.4 0.176 7.334.3 11.8 7.1 7.1 8.0 8.9 1.726 27.535.6 12.5 16.4 16.7 22.8 29.3 3.017 26.622.0 7.8 9.9 10.2 12.6 17.6 0.847 10.648.4 13.4 10.9 9.9 10.9 13.9 1.772 17.840.6 19.1 19.8 19.0 29.7 39.6 2.449 35.824.8 8.0 9.8 8.9 11.9 16.2 0.789 13.712.5 9.7 4.2 4.2 4.6 6.5 0.874 3.9 1.8 0.6 0.7 0.7 0.
33、8 1.1 0.056 1.032.2 13.9 9.4 8.3 9.8 13.3 2.126 17.138.5 9.1 11.3 9.5 12.2 16.4 1.327 11.638data ex5_5; input n x1-x8;cards;1 40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.0.14 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6;proc princomp prefix=y out=b55;var x1-x8;proc sort data=b55 ; by descending y1;proc print data=
34、b55; var n y1; run;Out=b55 输出输出主成分得分到数据集主成分得分到数据集b55中;中;sort排序排序,descending降序降序,缺省为升序。缺省为升序。解解 用相关矩阵求主成分,用相关矩阵求主成分,SAS程序如下:程序如下:39输出结果输出结果: (1)简单统计量和相关矩阵简单统计量和相关矩阵40(2)相关矩阵的特征值,主成分的贡献率和累积贡献率。相关矩阵的特征值,主成分的贡献率和累积贡献率。 由此看到,前由此看到,前2个标准化样本主成分累计贡献率已个标准化样本主成分累计贡献率已达到达到89.73%,故只需取前,故只需取前2个主成分即可。个主成分即可。 41(3
35、) 特征向量特征向量前前2个主成分为个主成分为*11234*56780.32120.29520.38910.38470.37960.37090.31990.3555yxxxxxxxx*21234*56780.41480.59780.22980.27870.31630.37150.27820.1569.yxxxxxxxx42*11234*56780.32120.29520.38910.38470.37960.37090.31990.3555yxxxxxxxx*(1,2,8)iiiiixxxisL为标准化变量。为标准化变量。注意注意: y1近似是近似是8个标准化变量的等权重之和,反映各个标准化变量
36、的等权重之和,反映各企业总效益大小的综合指标,企业总效益大小的综合指标,y1值越大,则企业的效值越大,则企业的效益越好。由于益越好。由于y1的贡献率高达的贡献率高达76.71%,故若用,故若用y1的得的得分值对各企业进行排序,能从整体上反映企业之间的分值对各企业进行排序,能从整体上反映企业之间的效益差别。效益差别。43(4) 利用第一主成分的得分对利用第一主成分的得分对14个企业排序个企业排序第第9家企业的效益最好,第家企业的效益最好,第12家企业的效益最差。家企业的效益最差。44 需要指出的是,关于主成分的实际意义,要结合具需要指出的是,关于主成分的实际意义,要结合具体问题和有关专业知识才能
37、给出合理的解释。体问题和有关专业知识才能给出合理的解释。注意注意 虽然利用主成分本身可对所研究的问题在一定程虽然利用主成分本身可对所研究的问题在一定程度上作分析,但主成分分析本身往往并不是目的,而度上作分析,但主成分分析本身往往并不是目的,而是达到目的的一种手段。因此,它多用在大型研究项是达到目的的一种手段。因此,它多用在大型研究项目的某个中间环节中。例如,把它用于多元回归中,目的某个中间环节中。例如,把它用于多元回归中,便产生了主成分回归,这种回归具有一些优良性质。便产生了主成分回归,这种回归具有一些优良性质。另外,它还可以用于聚类分析、判别分析和因子分析另外,它还可以用于聚类分析、判别分析
38、和因子分析等。等。 455.3 典型相关分析典型相关分析 典型相关分析是研究两组变量之间相关关系的一种典型相关分析是研究两组变量之间相关关系的一种统计方。基本思想是:当讨论两组变量统计方。基本思想是:当讨论两组变量Y=(Y1,Y2, , Yp1)T和和X=(X1,X2,,Xp2)T(p1p2)之间的关系时,先构之间的关系时,先构造两个新的综合变量造两个新的综合变量和和,使,使和和分别是分别是Yi, i=1,2, p1和和Xj, j=1,2, p2 的线性组合,即:的线性组合,即:,TTUYVX用用U,V之间的相关系数之间的相关系数 22( ,)UVUVCOV U Vr 反映两组变量反映两组变量
39、Y, X之间的相关性。之间的相关性。 46 在在 U= V=1的条件下的条件下, 选选 , 使使rUV达到最大,综合变达到最大,综合变量量和和称为第一对典型相关变量,记为称为第一对典型相关变量,记为U(1)和和V(1), 相相应的变换系数为应的变换系数为 (1)和和 (1), 相关系数记为相关系数记为r(1), 并称为第一并称为第一典型相关系数。典型相关系数。,TTUYVX用用U,V之间的相关系数之间的相关系数 22( ,)UVUVCOV U Vr 反映两组变量反映两组变量Y, X之间的相关性。之间的相关性。 同理作出同理作出p1对典型相关变量对典型相关变量,各典型变量之间互不相关各典型变量之
40、间互不相关,且且r(1) r(2) r(p1), 这种分析过程称为这种分析过程称为典型相关分析。典型相关分析。47 记记R11, R22分别为分别为Y和和X的样本相关矩阵的样本相关矩阵, R12, R21分别为分别为Y与与X和和X与与Y的相关矩阵的相关矩阵, B=R11-1/2R12R22-1R21R11-1/2的特的特征根为征根为 12 22 p12, 标准正交化特征向量为标准正交化特征向量为Ti,i=1,2, p1 , 则则典型相关系数典型相关系数 r(k)的显著性检验统计量为的显著性检验统计量为( )( )1111( )11( )22211,2,.,iiiiiiirR TipR R212
41、1 (1)/2lnkknkpp 48典型相关系数典型相关系数 r(k)的显著性检验统计量为的显著性检验统计量为2121 (1)/2lnkknkpp 其中其中: n为样本量为样本量; 自由度为自由度为(p1-k+1)(p2-k+1);12(1)pkii k 当当 k2 2(p1-k+1)(p2-k+1)时时, r(k)显著。显著。例例5.6 研究单株小麦形态性状研究单株小麦形态性状Y和产量性状和产量性状X之间的关系。之间的关系。其中其中 Y=(Y1, Y2)T, X=(X1, X2, X3)T, Y1株高株高(cm),Y2穗穗长长(cm),X1单株成穗数单株成穗数(个个),X2每穗的粒数每穗的粒
42、数(粒粒),X3 千粒重千粒重(g)。测得。测得n=19个小麦品种数据如下个小麦品种数据如下:49例例5.6 研究单株小麦形态性状研究单株小麦形态性状Y和产量性状和产量性状X之间的关系。之间的关系。其中其中 Y=(Y1, Y2)T, X=(X1, X2, X3)T, Y1株高株高(cm),Y2穗穗长长(cm),X1单株成穗数单株成穗数(个个),X2每穗的粒数每穗的粒数(粒粒),X3 千粒重千粒重(g)。测得。测得n=19个小麦品种数据如下个小麦品种数据如下: 品品 种种 Y1 Y2 X1 X2 X3烟农烟农15鲁麦鲁麦1号号.山农山农215953山农山农110031冀冀84-541878.73
43、5 7.520 5.065 37.335 36.64077.025 8.240 5.630 33.901 49.180.70.230 7.230 4.140 31.095 54.65571.230 7.040 3.875 28.365 52.73074.015 9.130 4.530 34.000 30.690试进行小麦形态性状与产量性状的典型相关分析。试进行小麦形态性状与产量性状的典型相关分析。解解 SAS程序如下:程序如下:50解解 SAS程序如下:程序如下:data exm54;input variety$1-10 y1 y2 x1 x2 x3;cards;烟农烟农15 78.735 7
44、.520 5.065 37.335 36.640山农山农110031 71.230 7.040 3.875 28.365 52.730冀冀84-5418 74.015 9.130 4.530 34.000 30.690;proc cancorr data=exm54 simple corr vprefix=u wprefix=v out=b54; var y1-y2; with x1-x3; run;proc print data=b54;var u1 v1 y1 y2 x1 x2 x3; run;51输出部分结果输出部分结果:均值和标准差均值和标准差52相关矩阵相关矩阵R12R22R1153典型相关系数与特征值典型相关系数与特征值典型相关系数典型相关系数: r(1)=0.665593, r(2)=0.434104;特征值特征值: 1=0.7954, 2=0.2322.54典型相关系数的检验典型相关系数的检验55原始典型变量的组合系数原始典型变量的组合系数56标准化典型变量的组合系数标准化典型变量的组合系数57典型结构典型结构(原变量与典型变量间的相关系数原变量与典型变量间的相关系数)58典型变量得分典型变量得分
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。