主成分分析和典型相关分析课件.pptx

上传人(卖家):三亚风情 文档编号:2892039 上传时间:2022-06-08 格式:PPTX 页数:126 大小:2.40MB
下载 相关 举报
主成分分析和典型相关分析课件.pptx_第1页
第1页 / 共126页
主成分分析和典型相关分析课件.pptx_第2页
第2页 / 共126页
主成分分析和典型相关分析课件.pptx_第3页
第3页 / 共126页
主成分分析和典型相关分析课件.pptx_第4页
第4页 / 共126页
主成分分析和典型相关分析课件.pptx_第5页
第5页 / 共126页
点击查看更多>>
资源描述

1、 变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠 用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。第1页/共126页4.1 主成分分析主要目的: 对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。第2页/共126页112212cossinsincosYXXYXX主成分分析即构造原变量的一系列线性组合,使其方差(或观测值的样本方差)达到最大。第3页/共126页 设 为某实际问题所涉及的 个随机变量。记 ,其协方差矩阵为 它是一个 阶非负

2、定矩阵。设 为 个常数向量,考虑如下线性组合:12,pX XXp12(,)TpX XXX()()()()Tijp pCovEEEXXXXXp12( ,) (1,2, )Tiiiipll llipp1111112212221122221122,.TppTppTpppppppYl Xl Xl Xl XYl Xl Xl Xl XYl Xl Xl Xl X第4页/共126页 易知有 我们希望用 代替原来 个变量 ,这就要求 尽可能地反映原来 个变量的信息。这里用方差来度量。即要求 达到最大。 对任意常数 ,若取 ,则 。 ( )(),1,2, ,TTiiiiVar YVar l Xll ip( ,)(

3、,),1,2, .TTTijijijCov Y YCov l X l Xlljp1Ypp1Y12,pX XX111( )TVar Yllk11lkl221111()()TTTVar l Xk Var l Xk ll第5页/共126页 因此,必须对 加以限制,否则 无界。最方便的限制是要求 具有单位长度,即我们在约束条件 之下,求 使 达到最大,由此 所确定的随机变量 称为 的第一主成分。 1l1( )Var Y1l1 11Tl l 1l1( )Var Y1l11TYl X12,pX XX第6页/共126页 如果第一主成分 还不足以反映原变量的信息,进一步求 。 为了使 和 反映原变量的信息不相

4、重叠,要求二者不相关,在约束条件 求 使 达到最大。 第二主成分第二主成分: 依次类推 1Y2Y12122 2( ,)01TTCov Y Ylll l 2( )Var Y22TYl X1Y2Y2l第7页/共126页 一般地,在约束条件 及 下,求 使 达到最大,由此 所确定的 称为 的第 个主成分。1Tiil l ( ,)0(1,2,.,1)TikikCov Y Yllki( )iVar YililTiiYl Xi12,.,pXXX第8页/共126页 设 是 的协方差矩阵, 的特征值及相应的正交单位化特征向量分别为 及 ,则 的第 个主成分为 其中 。易见: 事实上,令 ,则 为一正交矩阵,且

5、12(,)TpXX XX120p12,pe eeXi1122,1,2, ,TiiiiippYe Xe Xe Xe X ip(4.2)12(,)Tiiiipee ee( ),1,2, ,( ,)0,.TTiiii iiiTTikikk ikVar Yeee eipCov Y Yeee eik12( ,)pPe eeP12( ,)TpPPDiag 第9页/共126页 设 为X的第一主成分,其中 。令 则 并且当 时,等号成立。这时 11TYl X1 11Tl l 1111211(,),TTpzzzzP l222111111 112 1211 111 111( ),TTTppTTTVar Yllz

6、PPzzzzz zl PP l 1(1,0,0)Tz 111.lPze第10页/共126页 在约束条件 下,当 时, 达到最大,且 设 为X的第二主成分,则有 即有 且 1 11Tl l 11le1( )Var Y1 111111.1max( )()TTTl lVar YVar e Xee22TYl X2 21Tl l 21211 21( , )0TTCov Y Ylel e2 21Tl l 210Tl e 第11页/共126页 令 则有 从而 并且当 ,即 时, 。由此知,当 时,满足 , 且使 达到最大。依此类推. 2212222(,),TTpZzzzP l212121 1122 2 12

7、1210,TTTTTTppl ez P ez e ez e ez e ez22222222221 212 2222 222 2 22( ),TTTTppTTVar Yllz PPzzzzzzz zl l 2(0,1,0)Tz 222lPze22( )Var Y22le2 21Tl l 21( , )0Cov Y Y 22( )Var Y第12页/共126页 以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的 的线性组合分别为X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。12,

8、.,pXXX第13页/共126页 主成分的协方差矩阵及总方差 记 为主成分向量,则 ,其中 ,Y的协方差矩阵为 由此得主成分的总方差为12( ,)TpYY YYTYP X12( ,)pPe ee1( )()( ,)TTpCov YCov P XPPDiag 111( )()()( )()pppTTiiiiiiVar Ytr PPtrPPtrVar X 第14页/共126页 主成分分析是把p个原始变量 的总方差分解成p个不相关变量 的方差之和。 第 个主成分 的贡献率: 描述了第k个主成分提取的信息占总信息的份额。( )kkVar Y11( )()ppiiiiVar YVar XkkY1pkii

9、12,.,pXXX12,.,pYYY第15页/共126页 前 个主成分的累计贡献率: 表明前m个主成分综合提供信息的能力。 实际应用中,通常选取mp,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。m11pmiiii第16页/共126页 主成分 与变量 的相关系数 由于 ,故 ,从而 由此可得 与 的相关系数为 它给出了主成分 与原始变量 的关联性的度量。iYjXTYP XXPY1122,jjjpjpXe Ye Ye Y( ,).iji ijCov Y XeiYjX,( ,).( )()iji

10、ji ijiY XijijijjjjCov Y XeeVar YVar X(4.3)iYjX第17页/共126页1X11pppe22pppepppppe11111e11222e原变量主成分22111e111ppe2XpX2YpY1Y222ppe22222e第18页/共126页 实际应用中,一般只对前m个主成分感兴趣,因此只关心 与 的相关系数,即表中前m行的各个值。(1,.,)jXjp(1, 2,.,)iYim第19页/共126页 设随机变量 的协方差矩阵为 求 的各主成分。 解解 易求得 的特征值及相应的正交单位化特征向量分别为123(,)TXX XX120250002 X1122335.8

11、3,(0.383, 0.924,0),2.00,(0,0,1),0.17,(0.924,0.383,0).TTTeee第20页/共126页 因此 的主成分为 如果我们只取第一主成分,则贡献率为 若取前两个主成分,则累计贡献率为X111222333120.3830.924,0.9240.383.TTTYe XXXYe XXYe XXX5.8373%5.83 2.00 0.175.83 2.0098%5.83 2.00 0.17第21页/共126页 进一步可求得前两个主成分与各原始变量的相关系数 同理,可求得 即 与 , 高度相关而与 不相关; 与 以概率1呈完全线性关系。111213,5.38

12、0.3830.925,5.38( 0.924)0.958,55.3800.2Y XY XY X 212223,0,0,1,Y XY XY X1Y1X2X3X3X2Y第22页/共126页 在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用 求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令 其中 。*,1,2, ,iiiiiXXip(4.4)(),()iiiiiE XVar X第23页/共126页 这时, 的协方差矩阵便是 的相关矩阵

13、,其中 利用 的相关矩阵 作主成分分析,可以得到如下结论:12(,)TpXX XX()ijp p*(,)().ijijijiijjCov X XE X X (4.5)X*12(,)TpXXXX第24页/共126页 设 为标准化的随机向量,其协方差矩阵(即 的相关矩阵)为 ,则 的第 个主成分为 并且 其中 为 的特征值, 为相应于特征值 的正交单位化特征向量 。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 , 与 的相关系数为*12(,)TpXXXXX*Xi*1122121122( ),1,2, , .ppTiiiiipppXXXYeXeeeip(4.6)*111()(),ppp

14、iiiiiiVar YVar Xp*120p*12( ,)Tiiiipee ee*i(1,2, )ipi*ipm*1miip*iY*jX* *,ijiijYXe第25页/共126页 设 的协方差矩阵为 相应的相关矩阵为 分别从 和 出发,作主成分分析。12(,)TXX X144 10010.40.41第26页/共126页 解解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为 的两个主成分分别为 第一主成分的贡献率为1122100.16,(0.040, 0.999) ,0.84,(0.999, 0.040) .TTeeX1122120.0400.999,0.9990.040

15、.YXXYXX112100.1699.2%101第27页/共126页 与 , 的相关系数分别是 我们可以看到,由于 的方差很大,它完全控制了提取信息量占99.2的第一主成分( 在 中的系数为0.999),淹没了变量 的作用。 如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为1Y1X2X1112,0.400,1.00.Y XY X2X2X1Y1X*11*221.4,(0.707,0.707) ,0.6,(0.707, 0.707) .TTee第28页/共126页 的两个主成分分别为 此时,第一个主成分的贡献率有所下降,为 注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比

16、较合理。 *X*1121122*22211220.7070.7070.707() 0.707(),0.7070.7070.707() 0.707().YXXXXYXXXX*11.470%.2p*1112,1.4 0.7070.838.YXYX第29页/共126页 设 为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 其中12(,) ,1,2, .Tiiiipxx xxin12(,)TpXX XXn11( )()() ,1nTijp pkkkSsxx xxn(4.7)( ),ijijp piijjsRrs s(4.8)1211( ,) ,1,2, ,nTpjijixx

17、xxxxjpn11()(), ,1,2, .1nijijkikjksxxxxi jpn第30页/共126页 设 是样本协方差矩阵,其特征值为 相应的正交单位化特征向量 这里 ,则第 个样本主成分为 其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分得分。( )ijp pSs120p12,pe ee 12(,)Tiiiipee eei1212,1,2, ,Tiiiipipye xe xe xe x ip(4.9)12( ,)Tpxx xx12(,) (1,2, )Tkkkkpxxxxkn(1,2, )kiykniy第31页/共

18、126页 第 个样本主成分的贡献率为 , 前 个样本主成分的累计贡献率为 。 11,1,2, ,0,.TiiiiTijijppiiiiiye Seipyye Seijs的样本方差与 的样本协方差样本总方差可以证明im1(1,2, )pikkip11pmikik第32页/共126页 同样,为了消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。12*121122,1,2, ,pTipiiip

19、pxxxxxxxinsss(4.10)RRRp第33页/共126页 实际应用中,将样本 代入各主成分 中,可得到各样本主成分的观测值 (1,2, )ix in(1,2, ;1,2, )kiykn ip12px xx12pyyyn11121pxxx21222pxxx 12nnnpxxx11121pyyy21222pyyy 12nnnpyyy原变量主成分12序号 第34页/共126页 实际应用中,选取前m(m一个随机变量Y与一组随机变量X1, X2, Xp; -一组随机变量Y1,Y2,Yq与另一组随机变量X1,X2,Xp; -第70页/共126页典型相关是简单相关、多重相关的推广;或者说简单相关系

20、数、复相关系数是典型相关系数的特例。着眼于识别和量化两组随机变量之间的相关性,是两个随机变量之间的相关性在两组变量之下的推广。第71页/共126页只是孤立考虑单个X与单个Y间的相关,没有考虑X、Y变量组内部各变量间的相关。两组间有许多简单相关系数,使问题显得复杂,难以从整体描述。(复相关系数也如此)第72页/共126页采用主成分思想寻找第i对典型典型( (相关相关) )变量变量(Ui,Vi):11221 122TiiiippiTiiiiqqiiiUa Xa Xa XVb Yb Yb YUV使得, 最大可能地提取 与 之间的相关性,并且各对典型变量所提取的相关性不相重叠。a Xb YXY第73页

21、/共126页X1Y1Y2Y3Y4X2X3X4X5UU1 1UU2 2UU3 3UU4 4V V1 1V V2 2V V3 3V V4 4第74页/共126页4.2.2 总体的典型变量与典型相关 总体的典型变量的定义 1112112221111112211111112211111121,11111221,=TT12p12qTppTqqTUVTT=(X ,X,.,X)=(Y ,Y ,.,Y )Ua Xa XaXVb Yb Yb YUVa 协方差矩阵为考虑线性组合则和的相关系数为XYaXb Yababb第75页/共126页第一对典型变量111111,111112211111,11=1()( )U V

22、TTU VaVar UVar VUV典型相关分析即确定 和 ,使得达到最大。为了简化目标函数的表达式,可以附加约束条件,即=1。于是,典型相关分析的第一步即是在该约束条件下,求 和 ,使得达到最大。如此确定的(,)称为第一对典型变量,相应的相关系数称为第一典型相关系数。(Lagrange乘子法)ababbab第76页/共126页第二对典型变量11221122222221 122222222211221121212121TppTqqUVUa XaXa XVb Yb Yb YUVUVUVUVUVCov UUCov VVCov UVCov VU如果(,)还不足以反映和 之间的相关性,可进一步构造组合

23、除要求和具有单位方差,为使(,)反映的相关性与(,)的不重叠,要求(,)与(,)不相关,即(,)=(,)=(,)=(,)=0,确定XYaXb Y2222,212222TUVUV和 ,使得=达到最大。如此确定的(,)称为第二对典型变量,相应的相关系数称为第二典型相关系数。abab第77页/共126页一般情况k1122kk1 12 2k,-1()()1,1kkTkkkppTkkkqqkkkjkjkjkjkkU Vkkk kpqUa Xa Xa XVb Yb Yb YVarUVar VCov UUCov V VCov UVCov V Ujk一般地,若前对典型变量还不足以反映 和 之间的相关性,可进一

24、步构造第()对线性组合在约束条件=及(,)=(,)=(,)=(,)=0,下确定 和 ,使得=XYaXb Yaba12TkkkUVkk达到最大。如此确定的(,)称为第 对典型变量,相应的相关系数称为第 个典型相关系数。b第78页/共126页求法 总体典型相关变量与典型相关系数的求法1111221212212111221122221121222111212,(),( ),(),A,.,.,BTT12p12qTppp=(X ,X ,.,X )=(Y ,Y ,.,Y )pq CovCovCovAB.pqp 设,令设为 阶矩阵 的特征值,为相应的正交单位化特征向量;为 阶矩阵的相应于前 个最大XYXYX

25、,Ye eefff特征值(按由大到小的次序排列)的正交单位化特征向量,第79页/共126页k11221122,k1122221122112k,=kkTTTTkkkkkkU VkUVk=1,2,.,pk=1,2,.,p,则 和 的第 对典型相关变量为,其典型相关系数为,其中和分别为和的平方根矩阵的逆矩阵,为 的正平方根。XYa X =eXb Y = fY,第80页/共126页AA求 和 的典型相关变量和典型相关系数归结为求矩阵 的特征值和矩阵 及的对应于前个最大特征值的正交单位化特征向量。XY第81页/共126页111122112211122112211222122221222212-ppp.p

26、. 矩阵与矩阵有相同的非零特征值,而后者为半正定矩阵,其特征值均非负,因此的 个特征值也均非负,故可将其设为。同理,和也有相同的非零特征值,因而也是的前个最大特征值,而的其余 个特征值为零。若 , , , 中有零值,则相应典型变量对的相关系数为零,该对典型变量则不能提取 和 的相关性信息,因而在典型相关分析中可不予考虑相应的典型变量对。X Y第82页/共126页从标准化变量出发1112212211221221,()(),()()(),(),()12p12qjk*T*Tjj*kkjkT=(X ,X ,.,X )=(Y ,Y ,.,Y )pqXE XYE YXYVar XVar YCovCovCo

27、v为了便于典型变量的解释,通常从标准化变量的协方差出发。将 和 各分量标准化,得,*XYXYXYX ,Y第83页/共126页1122*k1122221111*22*,*2*2*211121221112112( ),( ),1,2,.,=kkkkkkTTTTkkU VpkUVkp,k=1,2,.,p.ApB *从 出发作典型相关分析,即 和 的第 对典型变量为其典型相关系数为,其中为矩阵的 个特征值,从而也是的*XYaX =(eXbY =(fY*2*2kkkkkpAB*前 个最大特征值, 和 分别为和 对应于特征值 的正交单位化特征向量, 为 的正平方根。ef第84页/共126页备注111111

28、1111111122222221121122111*(),.,(),( ),.,( ),kkkkpqTDDiagVar XVar XDDiagVar YVar YDDDDDDAD ADAAUVUV12*如果令 则故有由此知 和 有相同的特征值,从而(,)和(,)的典型相关系数相同,即典型相关系数不随变量的标准化而改变,但典型变量中的系数则会随变量的标准化而改变。第85页/共126页例4.711122122,1 1=1 11212TT=(X ,X )=(Y ,Y )设,相关系数矩阵为其中| |1,| |0.求标准化随机向量的典型相关变量及典型相关系数。XY第86页/共126页例4.7*12121

29、1(),(),2(1)2(1)2,(1)(1),XYXYUVUVUXXVYY*11*11*11*1,解:第一对典型相关变量为第一典型相关系数为第二对典型变量的典型相关系数为零,已无必要求出。由于| |1,| |1,故而 为 和 中任两个分量之间的相关系数,即第一对典型变量之间的相关性大于 和的任两个分量之间的相关性。可见典型相关变量的XY确综合了和 之间的相关性。第87页/共126页4.2.3样本的典型变量与典型相关SS利用观测数据的样本协方差矩阵 作为总体协方差的估计,以 代替所求得的典型变量和典型相关系数分别称为样本典型变量和样本典型相关系数。同理,也可以求标准化样本的样本典型变量与样本典

30、型相关系数。第88页/共126页 1212111221221111221121121(,) ,(,)1,2, .,11()() ,111()() ,11()() ,1TTiiiipiiiiqnnTkkkkknnTkkkkknTTkkkx xxyyyinS SSSSSnnSnnSSn设,xyxx xxxxyy yyyyxx yy第89页/共126页1122k112222111122,222111212211121122,1,2,.,=kkkkkkTkkU VpkkkSkUSVSkp,k=1,2,.,p.A S S S SpB S S S SpA B从 出发作典型相关分析,第 对典型变量为其样本典

31、型相关系数为,其中为矩阵的 个特征值,从而也是的前 个最大特征值,和 分别为和 对应于特征值TTTa X =eXb Y = fYef2kk的正交单位化特征向量,为 的正平方根。第90页/共126页 同样可以求标准化样本的样本典型变量与样本典型相关系数。这等价于从观测数据的样本相关系数R出发作典型相关分析。 在实际应用中,通常从R出发进行典型相关分析,选择样本典型相关系数较大的少数几对典型变量,以反映原来两组变量间的相关性。第91页/共126页4.2.4典型相关系数的显著性检验12(1)111122(2)21220:0:0,= =0:0:0,pp.HHH.HHHH(1)0(1)0(1)( )00

32、( )0设总体的各对典型相关系数已经排序为。首先检验假设 若不能拒绝,则认为。这时各典型变量对不能提供任何相关性信息,作典型相关分析是无实际意义的。若被拒绝,可进一步检验假设 若不能拒绝,则认为除第一对典型变量显著相关外,其余各对典型23H( )0变量的相关性均不显著,因而在实际应用中,可只考虑第一对典型变量。若被拒绝,则需进一步检验是否为零。依此类推.第92页/共126页( )k1kk+1p:0:0,-1kHHHHkH(k-1)0k-1(k)0(k)0(k)0若假设:=0被拒绝,进一步检验假设 若不能拒绝,则只需考虑前对典型变量。若被拒绝,则需进一步检验是否为零,直到最终检验是否为零。第93

33、页/共126页检验统计量0221(1),(3)ln,2(-1)( -1)().pjkj kkkkHkkpqkTnpqHTp kq kHTppPTt kk(k)0(k)0若总体服从维正态分布,对一般情况的第 个假设,可用如下的似然比统计量进行检验。令可以证明,当为真时,渐进服从自由度为的分布,且当不真时,有偏大的趋势,因而其检验 值为第94页/共126页1/21/11222221,1(1)(1),(1)(1) 1,21(1) (1)4(3),.2(1)(1)5(1tkkktkkkkSASproc cancorrdnFFddpkqkdwtpkqkpkqkwnpqtpkqkkpk系统的典型相关分析过

34、程 中,采用的是一个在样本容量较小时有更好逼近精度的渐近服从 分布的统计量,即其中当某个 值使得0( )0( )12012)(1)=21()1,2,.,kkkkkkkHkkkkkkqktHFddFFHppPFfproc cancorrkpFddppk时,取。当为真时,渐近服从自由度为和的 分布,且大的值意味着应拒绝,故检验 值为。在过程的输出结果中,分别就,给出了, ,的值及检验的 值 。第95页/共126页1,2,.,-1-1kpkpkk利用上述检验方法,依次就进行检验,若对某个 ,检验 值首次大于给定的显著水平 ,则认为只有前对典型变量显著相关,从而仅用前对典型变量可描述 与 的整体相关性

35、。XY第96页/共126页例4.8123123XXXYYY空气温度与土壤温度的关系,考虑如下六个变量:日最高土壤温度;:日最低土壤温度;:日土壤问题曲线积分值,它是一种日平均土壤温度的度量;:日最高气温;:日最低气温;:日气温曲线积分值,它是一种日平均气温的度量。46天观察数据,做典型相关分析。第97页/共126页例4.8*123*1230.64850.11490.4600,0.08630.20161.252,0.9278UxxxVyyy *1*1解:由样本相关系数矩阵得第一对典型变量为第一典型相关系数为.*123*1230.55501.69931.6963,0.23022.84362.767

36、,0.5621UxxxVyyy*2*2第二对典型变量为第二典型相关系数为.第98页/共126页例4.8*3123*3123-2.0575-0.2749+2.3422,-1.6609-0.3950+1.6293,0.1658UxxxVyyy*第三对典型变量为第三典型相关系数为.第99页/共126页例4.81230.0001,0.0020,0.2816pppp各对典型变量显著性检验的 值为。由此结果可知,只有前两对典型变量显著相关,因此可基于前两对典型变量分析土壤温度及气温的相关性。第100页/共126页PROC CANCORR过程 PROC CANCORR 选项; VAR 变量名称串; WITH

37、 变量名称串; RUN;第101页/共126页 VAR语句 列出要进行典型相关分析的第一组变量,变量必须是数值型的。 WITH语句 列举第二组变量,变量必须是数值型的。第102页/共126页应用举例 例1.现有某地区春播面积(X1)、化肥施用量(X2) 、水稻抽穗花期降水量(X3) 、肥猪头数(Y1) 、春粮产量(Y2)的观测数据。试分析投入因素X和产出因素Y之间的关系。第103页/共126页第104页/共126页第105页/共126页1111123422第 行第 列求得的第 对典型变量(V ,W )之间的典型相关系数r1=0.9705,第 列是校正的相关系数0.966371,第 列是标准误差

38、0.014533,第 列是典型相关系数的平方0.94187。第 列是第 对典型变量(V2,W2)的有关结果。第106页/共126页222/(1)16.20281.11441112220.00010.007712rrrrrrrrrFppp第二部分是与相对应的特征值,依次为和。 为典型相关系数的平方。前面是用似然比检验法检验典型相关系数与零的差别是否显著。检验 时,其零假设为 以及小于 的所有典型相关系数都为零;检验时,其零假设为以及小于的所有典型相关系数都为零;依此类推。所有的似然比统计量近似服从 分布,其 值依次为和,说明第 个和第 个典型相关系数都显著地不为零。第107页/共126页F第三部

39、分是用Wilks 统计量进行多元统计及相应 检验。检验结果表明两个典型相关系数都是极显著地不为零。第108页/共126页第109页/共126页根据以上输出,用原指标来线性表达典型变量的线性方程为V1=0.048035x1+0.010925x2+0.018373x3,W1=0.001824y1+0.006740y2,V2=-0.204923x1+0.012709x2+0.040963x3,W2=-0.145199y1+0.010646y2,第110页/共126页第111页/共126页292763083101239806这是用标准化指标来线性表达典型变量V1=0.x1+0.x2+0.x3,W1=0

40、.0y1+0.y2,V2=.W2=.第113页/共126页40.84520.5350.9999xV0.9253W1此处是4个典型结构矩阵。这 个典型结构矩阵都是典型变量与相应的原指标之间的相关系数。如x1与V1的相关系数为,y1与W2的相关系数为-,依此类推。从原指标与典型变量间的相关系数矩阵可以看出:y2与W1之间的相关系数最大:,2与 1之间的相关系数次之:。即在典型变量所提取的相关信息中,y2的贡献最大;在典型变量V1所提取的相关信息中,x2的贡献最大。第114页/共126页1( 1, 1)11V W从标准化指标表达的第对典型变量不难看出:反映生产投入的第个典型变量V1主要由化肥施用量x

41、2决定;反映产出的第个典型变量W1主要由春粮产量y2决定。专业结论第115页/共126页应用举例 例2.对172个儿童测试8项感情指标得到相关矩阵,X1为合群性,X2为忧郁性,X3为温柔性,X4为友谊,X5为惊讶,X6为憎恶,X7为焦虑,X8为恐惧。 第一组(X1,X2,X3,X4); 第二组(X5,X6,X7,X8), 对这两组变量进行典型相关分析。第116页/共126页第117页/共126页在数据集名后用TYPE=CORR注明数据的类型为相关矩阵,说明数据集不是原始数据。_type_=corr表示输入的数据类型为相关矩阵。选择项EDF=172为典型相关分析提供一个计算误差自由度的参考值。因

42、为该过程中没有合适的选择项可以将原始数据的样本含量准确地送入。如果忽略这一选择项,将以缺省值n=10000作为样本数量参与有关计算和统计检验,这样不妥,必须加上这个选项。第118页/共126页典型相关系数与显著性检验第119页/共126页典型变量的系数矩阵第120页/共126页标准化指标第121页/共126页由于本例题分析的数据就是原始变量的相关阵,所以原指标与标准化后的指标产生的典型相关线性方程系数相等。其中在典型变量V1中变量x3(温柔性)的系数最大,在典型变量W1中变量x7(焦虑)的系数最大。第122页/共126页典型结构矩阵第123页/共126页由 输 出 可 得 : 典 型 变 量 V1与 原 指 标 x3的 相 关 系 数 最 大 , 为 0.8602;典 型 变 量 W1与 原 指 标 x7的 相 关 系 数 最 大 , 为 0.8178; 依 此 类 推 。这 种 分 析 可 以 知 道 儿 童 心 理 教 育 , 引 导 儿 童 日 常 行 为 , 避 免 不 好的 情 感 影 响 儿 童 成 长 发 育 。第124页/共126页备注 对典型变量的合理解释同样需要具体问题的实际背景和相关的专业知识。 一般说来,典型变量的意义主要由那些系数绝对值较大的变量来决定。第125页/共126页作业 P137. 练习4.4 P140. 练习4.8第126页/共126页

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(主成分分析和典型相关分析课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|