1、内 容第一节 多元正态分布的定义第二节 多元正态的性质第三节 多元正态参数的极大似然估计第四节 多元正态的样本分布第一节第一节 多元正态分布的定义多元正态分布的定义一、标准多元正态分布一、标准多元正态分布2111exp()22niix 则),(21 puuuu)1,0(N),(21 puuuu12(,)pf x xx设随机向量其分量独立同分布于密度函数为2211(2)exp()2ppiixpi,2,1 其中的),(21 puuuu0),()(21pEuEuEuEu u均值为iu 2212221212121)()(pppppuuuuuuuuuuuuuuuEVaruuEu 协方差矩阵为I 111
2、二、一般的正态分布二、一般的正态分布 1 221(2)exp2p-1(x-)(x-)ix 设随机向量 ,若其的密度函数为),(21 pxxxx12(,)pf x xx其中 的均值为),(21 pxxxx),()(21 pEx协方差为 22211222222122112211211)()()()()()()()()(pppppppppxxxxxxxxxxxxxxxE),(21 pxxxx称 服从均值为E(X),协方差为 的正态分布。三、一般的三、一般的p p维正态和维正态和p p维标准正态的关系维标准正态的关系),(),()(2121 ppExExExEx 设 ,其中 是一个 阶非退化矩阵,服从
3、 维标准正态分布,则 p AuxA),(21 puuuuxAup服从p维正态分布,且均值向量为xAA x x的协方差矩阵为的协方差矩阵为()()()VarxE xx E Auu A AE uu A AIA12(,)pf x xx1 2211(2)exp()()2px x211)(AAAJxu其密度函数为 1211(2)exp()()|2pxAAxJ 若 ,则1存在,是非退化 元正态分布;)()(qpprank A Auxp 若 ,则 不存在,是退化 元正态分布,不存在密度函数。)()(qpprank A1 Auxp 值得注意值得注意 设随机向量 ,是常数向量,是一个 的常数矩阵,则 服从正态分
4、布,记为 ,其中 ),0(IqNuAqp*Aux),(pNx)*(ppAA 10111010112 1 101211112 101011010101101111112AA 例:设随机向量 ,则 的分布是退化的三元正态分布。),0(2INuAux 111001Ax第二节第二节 多元正态分布的性质多元正态分布的性质二、x x是一个服从p维正态分布,当且仅当它的任何线性函数 服从一元正态分布 。(,)pN xa一、多元正态分布的特征函数一、多元正态分布的特征函数)exp()(ttit 21t 三、X X服从 维正态分布,则 ,其中 为 常数矩阵,为 维的常数向量,则pbCxyCprbr),(CCbC
5、yrN 四、设 ,则 的任何子向量也服从多元正态分布,其均值为 的相应子向量,协方差为 的相应子矩阵。),(pNxxkpk21xxxkpk21kpk22211211nxxx,21),(iipNixni,2,1nnkk,1).,(1112inininiiipikNkix 五、设 ,,相互独立,且,则对任意 个常数 ,有 六、,则 分布。()pNx,2()()p-1x-)(x-)(xy21)()(xy21VarVar2121)(xVar2121分布。(服从维标准正态分布,故是)2ppyyy,xkpk21xxxkpk21pkk2221121121,xx012 七、将 作如下的分块:子 向量相互独立,
6、当且仅当 。证:必要性相互独立和21xx)x)(x221112 E又012)x)E(E(x221112充分性0121221111002211)(x)(x211exp)2(),(21221ppxxxf12211111 21 221122(2)p11111112212222()1exp()()()2xxxx21exp)2(21112/)(x)(x11111k21exp)2.(222221222/)(22)(x)(x1kp1 21 221122(2)p11111111222222()1exp()()()2xxxx1 21 221122(2)p111111112222221exp()()()()2xx
7、xx相互独立。和故2xx1)()()(2121xxxfff 八、设 ,其中 是 阶矩阵,是 阶矩阵,则 与 相互独立,当且仅当 。),(I0Nxn Axy BxzAnpBnqpArank)(qBrank)(YZ0 B BA A)()cov(zzyyzy,EEE)(BxAx)(BxAxEEEBxx)(xxA)(EEEBxA)(VarBAI BA 九、设 ,其中 是 阶矩阵,是 阶矩阵,则 与 相互独立,当且仅当 。),(0Nxn Axy BxzAnpBnqpArank)(qBrank)(0BAYZ同上可证。kpk21xxx 十、将 作如下的分块:,xkpk21pkk22211211则 与 相互独
8、立,与相互独立 。2X1X2122121XX1111212XX证:21xx0Ix令2111121xxIz)cov(zx1,21xx0IvarI11121222112110II1112121xx0IvarI1112101212I121111211相互独立。与所以1111212xxx1则给定 时 的条件分布为 ,其中2x1x),(21121kN).(x2212212121差。的条件 协条件协方的条件下是1221122121111.2xxkpk21xxx 十一、将 作如下的分块:kpk21pkk22211211,x为 给定的条件下 数学期望。1x2x 十二、偏相关系数十二、偏相关系数 矩阵 称为条件
9、协方差矩阵,它的元素用表示。是当 给定的条件下,与 ()的偏相关系数,定义为11.2pkij,1.2xixjxkji,pkjjpkiipkijpkij,1.,1.,1.,1.它度量了在值 给定的条件下,与()相关性的强弱。p1kx,xixjxkji,例 设XN6(,),其协方差矩阵为,计算偏相关系数。363.27525.4860.3069.4851.1107.3532.19864.5638.4530.30939.2161.1276.1874.2981.4213.5276.1681.1540.3168.2033.71440.01441.0534.01676.0540.0476.01252.026
10、5.0324.0233.01376.0245.0360.0242.0366.01363.27525.4860.3069.4851.1107.3532.19864.5638.4530.30939.2161.1276.1874.2981.4213.5276.1681.1540.3168.2033.7求x7给定的条件下,x1,x6的偏协方差矩阵2112212112.11860.3851.1107.3864.5638.4530.30161.1276.1874.2981.4276.1681.1540.3168.2033.7525.4069.4532.19939.2132.5525.4069.4532.1
11、9939.2213.5363.271112.3178.1502.2634.2734.1588.16675.0839.0776.0665.4414.0906.0181.0608.1040.6)/,(651xxx 1442.01367.0269.01177.0246.0088.01096.0233.0018.0303.01)/,(651xxx 112.3178.1502.2634.2734.1588.16675.0839.0776.0665.4414.0906.0181.0608.1040.6)/,(651xxx 211221211),/,(5641xxxx 502.2734.1588.16839
12、.0776.0665.4906.0181.0608.1040.6178.1634.2675.0414.0178.1634.2675.0414.0112.31056.2737.0359.14583.0198.0519.4749.0531.0518.1985.51136.01191.0025.01214.0057.0292.01),/,(654321xxxxxx3 3 实例分析及实例分析及SAS/CORRSAS/CORR 例1 今对31人进行人体测试,考察的7个指标是:x1:年龄 x2:体重 x3:肺活量 x4:1.5英里跑所需时间 x5:休息时的脉搏 x6:跑步时的脉搏 x7:跑步时记录的最大的
13、脉搏 对这些指标进行一些相关分析。SAS的程序的程序data a;input x1-x7;cards;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18538 89.02 49.874 9.22 55 178 18047 48 61.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172;proc corr nosimpl cov;var x1;with x7;partial x3;run;proc corr nosimpl cov;分析相关系数nosimp
14、l是要求不打印描述性统计量。var x1;指定分析相关系数的变量。with x7;with指定变量与var指定的变量之间的相关系数。partial x3;当指定的变量给定时,计算偏相关系数。x1x2x3x4x5x6x7 x11.00000-0.23354-0.304590.18875-0.16410-0.33787-0.43292P值值 0.20610.09570.30920.37770.06300.0150 x2-0.233541.00000-0.162750.143510.043970.181520.24938P值值0.2061 0.38170.44120.81430.32840.1761
15、 x3-0.30459-0.162751.00000-.86219-0.39936-0.39797-0.23674P值值0.09570.3817.00010.02600.02660.1997 x40.188750.14351-0.862191.000000.450380.313650.22610P值值0.30920.4412.0001 0.01100.08580.2213 x5-0.164100.04397-0.399360.450381.000000.352460.30512P值值0.37770.81430.02600.0110 0.05180.0951 x6-0.337870.18152-
16、0.397970.313650.352461.000000.92975P值值0.06300.32840.02660.08580.0518.0001 x7-0.432920.24938-0.236740.226100.305120.929751.00000P值值0.01500.17610.19970.22130.0951|r|under H0:Partial Rho=0 x1 x7 -0.54573 0.0018 第三节 极大似然估计及其性质),(pNx设,0 则总体的密度函数为)()(21exp)2(),(121221xxxxxfpp X1,X2,Xn是从总体中抽取的一个简单随机样本,满足X1
17、,X2,Xn相互独立,且同正态分布 2212222111211nnnppnxxxxxxxxxxxxX21称X X为样本数据矩阵。一、样本的联合密度函数一、样本的联合密度函数211()exp2nnpi2-1ii(X-)(X-)()()()(21nXfXfXff X为样本联合密度函数。nip121221exp)2()(x)(xi1i1()ni-1iiX-(X-1(nitr-1iiX-)(X-)所以,似然函数还可以表示为:)(11nitrxxii)()2()(112/ninpetrfxxXii二、和 的极大似然估计的极大似然估计 所谓和的极大似然估计,是寻找 和 满足条件 ,()max()LL,令
18、11niinxx niii 1A(xx)(xx)niii 1A(xx)(xx)nXXXXniii 1A(x)(x)niii 1(xxx)(xxx)()()nniii 1(xx)(xx)x x()()nAx x211()()exp()()2nnpiiif2tr-1XXX211()e()()2nnpiii2tr-1XX21()()()2np2etrn-1Ax-x-=x1=S=An可以证明和的极大似然估计为三、相关系数的极大似然估计 (一)极大似然估计的不变性质 设 是的极大似然估计是 ,而且变换f()是一一对应的,则f()的极大似然估计就是()f(二)简单相关系数的极大似然估计ijijiijjss
19、 s 其中Sij是样本协方差矩阵S中相应位置上的元素(三)偏相关系数的极大似然估计12kpkxxx kSpk11122122SSSS则偏相关系数的极大似然估计1,.1,1,1,ij kpij kpii kpjj kpsss 其中11,11122221()ij kpsSS S S,,i jk。(四)复相关系数的极大似然估计将x和S作如下的分块 1211xpxx 1211p11122211sSp11121222ssS的线性函数为 2x2 l x12212,12(,)()()xCOVxV x V2l xl xl x21212(,)()()COV xV x Vl xl x2212121122(,)()
20、()COV xV x V12x l ll xl l221122-1122212 l ll l11-1122212 定义定义(复相关系数复相关系数)212,3,p12,0maxx2l xl21201211(,)max()()COVxV x V-1122212ll x l x 一个变量y与一组变量X1,X2,XK的负相关系数是以y为被解释变量,X1,X2,XK为自变量的回归方程的可决系数。为自变量的回归方程的可决系数。为了研究四川经济增长的影响因素,欲建立四川省经济增长模型。主要经济指标采用国内生产总值增长率(Y),投资指标资本形成总额增长率(X1),人口指标用自然增长率(X2),就业指标失业率(
21、X3)和消费指标居民消费水平增长率(X4)。分析指标之间的关系。data a;input y x1-x4;cards;数据行;proc corr nosimpl noprob cov;run;proc iml;sigma22=76.58605619 2.59407381-3.45807619 49.03157071,2.59407381 5.14447619 -0.78252381 4.24046429,-3.45807619-0.78252381 3.63747619-2.32063571,49.03157071 4.24046429-2.32063571 53.90793143;sigma
22、12=57.79053524 4.91975476-2.98844524 52.41117214;fcorr=sigma12*inv(sigma22)*t(sigma12)/54.8989690;print fcorr;proc reg;model y=x1-x4;run;Analysis of Variance Sum of MeanSource DF Squares Square F Value Pr FModel 4 1089.28592 272.32148 501.20 F Wilks Lambda 0.54561620 6.87 4 33 0.0004 Pillais Trace 0
23、.45438380 6.87 4 33 0.0004 Hotelling-Lawley Trace 0.83279015 6.87 4 33 0.0004 Roys Greatest Root 0.83279015 6.87 4 33 0.0004直接检验两个总体的均值向量是否相等。Dependent Variable:x1(对(对X1进行的检验)进行的检验)Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.87466791 0.87466791 16.90 0.0002 Error 36 1.86300840 0.0517
24、5023 Corrected Total 37 2.73767632 X1在类间有显著性差异。Dependent Variable:x2(对(对X2进行的检验)进行的检验)Sum of Source DF Squares Mean Square F Value Pr F Model 1 0.08312077 0.08312077 1.95 0.1710 Error 36 1.53370028 0.04260279 Corrected Total 37 1.61682105X2在类间没有显著性差异。Dependent Variable:x3(对(对X3进行的检验)进行的检验)Sum of Sou
25、rce DF Squares Mean Square F Value Pr F Model 1 16.46958443 16.46958443 21.45 F Model 1 0.00112694 0.00112694 0.03 0.8643 Error 36 1.36978095 0.03804947 Corrected Total 37 1.37090789X4在类间没有显著性差异。第四节第四节 抽样分布抽样分布 一、维希特(一、维希特(WishartWishart)1 1、定义、定义随机矩阵的分布npnnppxxxxxxxxx212222111211X设随机矩阵 矩阵中的每一个元素均为随
26、机变量,则矩阵X的分布是其列向量拉长,组成一个长向量的分布。npnppxxxxxx1221111x 特别当 是 阶对称阵,则 的分布为的下三角部分组成的长向量XpXppppppppxxxxxxx,1,1,1222111x 在一元正态随机变量中,我们曾经讨论了 分布,在多元正态随机变量也有类似的样本分布。维希特分布(Wishart)相当于一元统计中的 分布。22 定义定义 维希特(维希特(WishartWishart)分布的统计量)分布的统计量 设 个随机向量 n),3,2,1(),(21niXXXipiii X)()2()1(212222111211npnnpnnppXXXXXXXXXXXXX
27、 独立同分布于 ,则随机矩阵),(pNn n1 1i i)()(ii 服从自由度为 的非中心维斯特分布,记为 。n),(nWpnpnnppnpppnnxxxxxxxxxxxxxxxxxxA212222111211212221212111X XX X 定理1:若 ,且 ,则 的分布密度为特别,当 和 时,服从 分布。),(nWppn 0 0,)21(|2)21exp(|)(1221)1(212)1(ainAtraaFpinnppnpp1 p1 2维希特(Wishart)分布的密度函数二、维斯特(Wishart)分布有如下的性质:(1)若A1和A2独立,其分布分别 和 ,则 的分布为 ,即维斯特分
28、布有可加性。),(1nWp),(2nWp21 ),(21nnWp(2),C为mp阶的矩阵,则 的分布为 分布。),(nWpCC),(CC nWm 三、三、抽样分布抽样分布 定理1:设X1,X2,Xn是来自多元正态总体Np(,)的简单随机样本,有),(11211 pxxx1x),(222212 pxxxx),(21 npnnnxxxx niin11令 n1iXXXXS)(ii 则有XXXXSi nnjj1)1,(1nNp、2S、和(n-1)3(1,)pWnS、(n-1)证明:为一正交矩阵设 nnnijnn2111*nnXXX2121)(令独立为正交矩阵,所以且独立同正态分布由于,),4,3,2,
29、1(ni iX独立同正态分布)(21n 11nniinn x11()nipiNnnx,)1,3,2,1()()(1 narEEnjjajanjajr101 ninjajrrnnjajnrn110()ijCovijij,1()()(1,2,3,1)naajjjDDran21()najjjr D21najjr21najjr故()pN1n-1z,z,且相互独立。1(1)()()njjniSXX XX1njjniX XXX1njjnn iX X1122-1-1nnnn 11(1)njjjn SS与(n-1)11(1)(1,)npjnW n jjS 独立当 ,时,由卡方分布的定义可知1 p1 1122)
30、1(niinyA可见维希特分布是由卡方分布在多元下的推广。),4,3,2,1(ni iX)(1)(0120 xx0nT )()(01 xx0n服从自由度为 的卡方分布。p定理定理2 2 设 独立同正态分布,则统计量 证:由于样本均值)1,(npNx)(21 Xn令 )()(21XnEEpnDD )()(21X)()(21Io,XpNn )2222212pZZZp(所以 相互独立的标准正态分布的平方和为自由度为 的卡方分布。p 在一元正态的情形下,我们有样本的统计量当总体的方差未知时,我们必须用样本的方差来代替总体的方差,则那么在多元正态的情形下,是否有相同的问题呢?回答时肯定的。)1,0(Nn
31、xZ niixxnS122*)(11)1(*ntnSxt定义:则相互独立和设,),(),(ppNunW),(212uunpTn 称T2服从参数为P和n的非中心霍特林(Hotelling)分布,当。当 时,服从自由度为n的中心霍特林分布,记为 。0uu12 nuu12 n),(2npT定理定理:),()()(212npTxxn 则相互独立和设,),(),(ppNxnW)1,(12pnpFTnppn ),(11211 pxxx1x),(222212 pxxxx),(21 npnnnxxxx11niin 令(1)()()iinni 1SXX XX212()()(,1)n xSxTp n)1,(1),
32、(2 pnpFpnnpnpT且 定理定理:设 是来自多元正态总体 的简单随机样本,有n21xxx,),(pN 定理:设 是来自多元正态总体 的简单随机样本,1,n21xxx),(pN ),(11211 pxxx1x),(222212 pxxxx),(111121pnnnnxxxx),(222221pnnnnYYYY),(11211pYYYY1),(222212pYYYY21若2121 212(xy)(xy)(,1)pnnSTp nnn 2)1()1(212211nnSnSnSp 设 是来自多元正态总体 的简单随机样本,),(2pN2,n21YYY(1)Wilks分布 定义:设 和 ,且 相互独
33、立,和 ,则称服从Wilks分布,记 。可以证明,当 和 时,Wilks分布可以用 分布近似。),(1nWp),(2nWp,pn 1pn 20|),(21nnp2 p22 n2 四、基于四、基于维斯特维斯特(Wishart)分布的统计量分布的统计量F 在一元方差分析中,常常遇到基于独立的 分布随机变量比值的 统计量。在多元统计分析中,起到相同作用的是统计量 和 分布。2 2、统计量和分布 设k个总体 ,它们服从 。分别抽出如下的样本:kGG,1),()(ipN)1()1(2)1(11,nxxx)2()2(2)2(12,nxxx)()(2)(1,knkkkxxxkaann1)()(2)(1,anaaaxxxax kaniaiaxn11)(1xaniaiaaxn1)(1x kania11)(x)(xxxW(a)i(a)i kaniaa11)(x)(xxxE(a)ia(a)ikaan1)(x)(xxxB(a)i(a)i W=E+B 当当K个总体的均值相等时个总体的均值相等时,),1(nWpW),(knWpE),1(kWpBWEBEE 服从服从Wilks 分布。分布。