1、第十章 典型相关分析v10.1 引言v10.2 总体典型相关v10.3 样本典型相关v10.4 典型相关系数的显著性检验10.1 引言v典型相关分析(canonical correlation analysis)是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。v典型相关分析是由霍特林(Hotelling,1935,1936)首先提出的。10.2 总体典型相关v一、典型相关的定义及导出v二、典型相关变量的性质v三、从相关矩阵出发计算典型相关一、典型相关的定义及导出v设x=(x1,x2,xp)和y=(y1,y2,yq)是两组随机变量,且V(x)=11(
2、0),V(y)=22(0),Cov(x,y)=12,即有其中21=12。v我们研究u=ax与v=by之间的相关关系,其中a=(a1,a2,ap),b=(b1,b2,bq)现来计算一下u与v的相关系数。Cov(u,v)=Cov(ax,by)=aCov(x,y)b=a12bV(u)=V(ax)=aV(x)a=a11aV(v)=V(by)=bV(y)b=b22b11122122Vxy所以,u与v的相关系数由于对任意非零常数k1和k2,有(k1u,k2v)=(u,v)因此,为避免不必要的结果重复,我们常常限定u与v均为标准化的变量,即附加约束条件V(u)=1,V(v)=1即a11a=1,b22b=1在
3、此约束条件下,求aRp和bRq,使得(u,v)=a12b达到最大。121122,u va ba ab bv容易证明,有着相同的非零特征值,且皆为正,其个数为m=rank(12)。将这些正特征值分别记为 。设a1,a2,am为 的相应于 的特征向量,且满足标准化条件ai11ai=1,i=1,2,m令 ,则有从而b1,b2,bm为 的相应于 的特征向量,并且满足11111112222122211112 和222120m1111122221 22212,m122211iiib a1111122211112222111122221122222111iiiiiiii b aab1122211112 22
4、2120mv可以证明,当取a=a1,b=b1时,(u,v)=a12b达到最大值1(显然11)。我们称u1=a1x,v1=b1y为第一对典型相关变量,称1为第一个典型相关系数v第一对典型相关变量u1,v1提取了原始变量x与y之间相关的主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量u2=ax,v2=by,也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关112212222222212111111122221221121111,1,2,iiiiiiiiiiiiimb ba aa aa a变量所含的信息,即(u2,u1)=(ax,a1x)=Cov(a
5、x,a1x)=a11a1=0(v2,v1)=(by,b1y)=Cov(by,b1y)=b22b1=0在这些约束条件下使得(u2,v2)=(ax,by)=a12b达到最大。v一般地,第i(1,表明第一个典型相关系数大于两组原始变量之间的相关系数。1122211112R R R R211/2*12 1b11/21/2*112 1,2 1a xxb yy111/2121110.3 样本典型相关v设数据矩阵为则样本协方差矩阵为S可用来作为的估计。当np+q时,可分别作为 的估计;它们的非零特征值 可用来估计 ;1111111111pqnnnnpnnqxxyyxxyyxyXYxy11122122SSSS
6、S11111112222122211112S S S SS S S S和11111112222122211112 和22212mrrr22212mv相应的特征向量 作为a1,a2,am的估计,作为b1,b2,bm的估计。的正平方根rj称为第j个样本典型相关系数,称为第j对样本典型相关变量,j=1,2,m。将样本(xi,yi),i=1,2,n经中心化后代入m对典型变量,即令则称uij为第i个样品xi的第j个样本典型变量得分,称vij为第i个样品yi的第j个样本典型变量得分。由约束条件 可得v同理可得v对每个j,可画出(uij,vij),i=1,2,n的散点图,该图也可用来检查是否有异常值出现。1
7、2,ma aa12,mb bb2jrjj a xb y和1,2,1,2,ijjiijjiuvin jmaxxbyy,11jj a S a=121111111,2,11nnijjiijjjiiujmnnaxxxx aa S a=1,2111,2,1nijivjmn=1,v例10.3.1 某康复俱乐部对20名中年人测量了三个生理指标:体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标:引体向上(y1)、起坐次数(y2)、跳跃次数(y3)。其数据列于表10.3.1。表10.3.1某康复俱乐部的生理指标和训练指标数据编 号x1x2x3y1y2y311913650516260218937522110
8、60319338581210110141623562121053751893546131555861823656410142721138568101388167346061254091763174152004010154335617251250111693450171203812166335213210115131543464142151051424746501505015193364667031162023762122101201717637544602518157325211230801915633541522573201383368211043v 的特征值分别为0.6630、0.0402
9、和0.0053,于是r1=0.797,r2=0.201,r3=0.073相应的样本典型变量系数为11221221110.8701,0.69610.3660.35310.4960.66910.3900.4930.2260.5520.6460.1920.1510.2250.035 RRRR1111122221R R R R因此,第一对样本典型变量为v如果需要,第二对样本典型变量为*123*1230.7751.8840.1911.579,1.181,0.5060.0590.2311.0510.3500.3761.2971.054,0.124,1.2370.7161.0620.419 aaabbb*1
10、123*11230.7751.5790.0590.3501.0540.716uxxxvyyy *2123*21231.8841.1810.2310.3760.1241.062uxxxvyyy v例10.3.2 在研究组织结构对“职业满意度”的影响时,作为其中一部分,邓讷姆(Dunham)调查了职业满意度与职业特性相关的程度。对从一大型零售公司各分公司挑出的n=784个行政人员,测量了p=5个职业特性变量:用户反馈(x1)、任务重要性(x2)、任务多样性(x3)、任务特性(x4)及自主权(x5)和q=7个职业满意度量:主管满意度(y1)、事业前景满意度(y2)、财政满意度(y3)、工作强度满意度
11、(y4)、公司地位满意度(y5)、工种满意度(y6)及总体满意度(y7)。对784个被测者的样本相关矩阵为v 111.000.491.000.530.571.000.490.460.481.000.510.530.570.571.00 R样本典型相关系数和样本典型变量系数列于表10.3.2中。2212211.000.431.000.270.331.000.240.260.251.000.340.540.460.281.000.370.320.290.300.351.000.400.580.450.270.590.31 1.000.330.320.200.190.300.370.210.300.
12、210.160.080.270.RRR350.200.310.230.140.070.240.370.180.240.220.120.190.210.290.160.380.320.170.230.320.360.27表10.3.2 典型相关系数和典型变量系数标准化变量x1*0.420.340.860.790.03x2*0.200.670.440.270.98x3*0.170.850.260.470.91x4*0.020.360.421.040.52x5*0.460.730.980.170.44rj0.550.240.120.070.06标准化变量y1*0.430.090.490.130.48
13、y2*0.210.440.780.340.75y3*0.040.090.480.610.35y4*0.020.930.010.400.31y5*0.290.100.280.450.70y6*0.520.550.410.690.18y7*0.110.030.930.270.01*1 a*2 a*3 a*4 a*5 a*1b*2b*3b*4b*5b第一对样本典型变量为根据典型系数,主要代表了用户反馈和自主权这两个变量,三个任务变量显得并不重要;而 主要代表了主管满意度和工种满意度变量,其次代表了事业前景满意度和公司地位满意度变量。我们也可从相关系数的角度来解释典型变量,原始变量与第一对典型变量间的
14、样本相关系数列于表10.3.3中。*112345*112345670.420.200.170.020.460.430.210.040.020.290.520.11uxxxxxvyyyyyyyv所有五个职业特性变量与第一典型变量u1*有大致相同的相关系数,故u1*可以解释为职业特性变量,这与基于典型系数的解释不同。v1*主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度,v1*可以解释为职业满意度公司地位变量,这与基于典型系数的解释基本相一致。第一对典型变量u1*与v1*的样本相关系数r1=0.55,可见,职业特性与职业满意度之间有一定程度的相关性。表10.3.3 原始变量与典型变
15、量的样本相关系数原始变量样本典型变量原始变量样本典型变量xu1*v1*yu1*v1*x1:用户反馈0.830.46y1:主管满意度0.420.76x2:任务重要性0.730.40y2:事业前景满意度0.360.64x3:任务多样性0.750.42y3:财政满意度0.210.39x4:任务特性0.620.34y4:工作强度满意度0.210.38x5:自主权0.860.48y5:公司地位满意度0.360.65y6:工种满意度0.450.80y7:总体满意度0.280.5010.4 典型相关系数的显著性检验v一、全部总体典型相关系数均为零的检验v二、部分总体典型相关系数为零的检验一、全部总体典型相关
16、系数均为零的检验v设(x,y)Np+q(,),0。又设S为样本协方差矩阵,且np+q。v考虑假设检验问题:H0:1=2=m=0H1:1,2,m至少有一个不为零其中m=minp,q。若检验接受H0,则认为讨论两组变量之间的相关性没有意义;若检验拒绝H0,则认为第一对典型变量是显著的。(10.4.1)式实际上等价于假设检验问题H0:12=0,H1:120H0成立表明x与y互不相关。检验统计量为对于充分大的n,当H0成立时,统计量在给定的下,若 ,则拒绝H0,认为典型变量u1与v1之间的相关性是显著的;否则,就认为第一个典型相关系数不显著。2111miir21113ln2Qnpqpq 21Qpqv例
17、10.4.1 在例10.3.1中,假设为多元正态数据,欲检验:H0:1=2=3=0,H1:10它的似然比统计量为查2分布表得,因此在=0.10的显著性水平下,拒绝原假设H0,也即认为至少有一个典型相关是显著的。22211231111110.6330 10.0402 10.00530.3504120333ln15.5 ln0.350416.2552rrrQ 220.100.05914.684916.919,二、部分总体典型相关系数为零的检验v若H0:1=2=m=0经检验被拒绝,则应进一步检验假设 H0:2=m=0H1:2,m至少有一个不为零若原假设H0被接受,则认为只有第一对典型变量是有用的;若
18、原假设H0被拒绝,则认为第二对典型变量也是有用的。v如此进行下去,直至对某个k,假设H0:k+1=m=0被接受,这时可认为只有前k对典型变量是显著的。v对于假设检验问题 H0:k+1=m=0H1:k+1,m至少有一个不为零其检验统计量为对于充分大的n,当H0为真时,统计量近似服从自由度为(pk)(qk)的2分布。给定显著性水平,若 ,则拒绝原假设H0,认为第k+1个典型相关系数k+1是显著的,即第k+1对典型变量显著相关。v以上的一系列检验实际上是一个序贯检验,检验直到对某个k值H0未被拒绝为止。事实上,检验的总显著性水平已不是了,且难以确定。还有,检验的结果易受样本容量大小的影响。因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据。通常选择尽可能小的k。2+111mkii kr 211113ln2kkikiQnkpqr 21kQpkqkv例10.4.2 在例10.3.1中,欲进一步检验:H0:2=3=0,H1:20检验统计量为故接受原假设H0,即认为第二个典型相关是不显著的。因此,只有一个典型相关是显著的。22223221220.101110.0402 10.00530.95471201333ln216.08 ln0.95470.745 7.7794rrQr