1、第四章第四章 多元正态分布的统计推断多元正态分布的统计推断 1 单因素方差分析问题的提出统计的模型及检验方法多重比较检验问题的提出 某工厂实行早、中、晚三班工作制。工厂管理部门想了解不同班次工人劳动效率是否存在明显的差异。每个班次随机抽出了7个工人,得工人的劳动效率(件/班)资料如表。分析不同班次工人的劳动效率是否有显著性差异。a=0.05,0.01。早班中班晚班344939374740355142334839335041355142365140 为什么各值 会有差异?可能的原因有两个。一是,各个班次工人的劳动效率可能有差异,从而导致了不同水平下的观察值之间差异,即存在条件误差。二是,随机误差
2、的存在。如何衡量两种原因所引起的观察值的差异?总平均劳动效率为:kinijijnyyi1/)(571.412140423734三个班次工人的平均劳动效率分别为:714.341y571.492y429.403y总离差平方和sskinjijiyy112)(222)571.4140()571.4137)571.4134(1429.835201211n自由度:组间离差平方和(条件误差)ssAkiiiyyn12)(22)571.41571.49(7)571.41714.34(72)571.41429.40(7286.786组内离差平方和(随机误差)ssekinjiijiyy112)(22)714.343
3、6()714.3434(22)571.4151()571.4149(857.38)429.4040()429.4039(2218321kn自由度 统计量FknSSkSSeA1118.18218857.382286.786把计算的F值与临界值比较,当F F时,拒绝原假设,不同水平下的效应有显著性差异;当F F 时,接受原假设。kiiiyyn12)(1k1kSSAknSSkSSeA1 kinjiijiyy112)(knknSSe kinjijiyy112)(1n方 差 来 源离差平方和自由度方差F值 组间A 组内E 总和 NEXT查F分布表得临界值因为 故应拒绝原假设,即不同班次工人的劳动效率有显
4、著的差异。554.3)18,2(05.0F013.6)18,2(01.0F013.6)18,2(118.18201.0FF 方差分析:比较3个或3个以上的总体均值是否有显著性差异。用组间的方差与组内方差相比,据以判别误差主要源于组间的方差(不同组工人的产量,条件误差),还是源于组内方差(随机误差)。NEXT 50家上市公司,按行业计算其1999年底的资产负债情况,如下:序号制造业商业运输业公用事业房地产业165905025702559565307535090584560445936350805409264406565890602570760855830728758856307698090603
5、568106092552566平均58.890.558.933.570.2 AN OVAX117108.6844277.17072.437.0002657.1004559.04719765.7849Between GroupsWithin GroupsTotalSum ofSquaresdfMean SquareFSig.多重比较检验 1、多重比较检验 前面的F检验只能说明在单一因素的影响下,不同水平是否存在显著性的差异,但不能断言哪些总体之间存在差异,在方差分析中否定了原假设,并不意味着接受了假设:),2,1,(kjijiji因而还应该进一步讨论到底是哪些总体之间存在差异。Scheffe检验
6、),2,1,(:0kjijiHji)某些jiHji(:1),1()1)(11(21knkFknnknSSeij定义:jiijxxD定义:检验的结论:。个水平间有显著性差异水平与第即第,则拒绝jiHSDijij,0Multiple ComparisonsDependent Variable:X1Scheffe-31.7000*3.43647.000-42.7369-20.6631-.10003.436471.000-11.136910.936925.3000*3.43647.00014.263136.3369-11.4000*3.43647.039-22.4369-.363131.7000*3.
7、43647.00020.663142.736931.6000*3.43647.00020.563142.636957.0000*3.43647.00045.963168.036920.3000*3.43647.0009.263131.3369.10003.436471.000-10.936911.1369-31.6000*3.43647.000-42.6369-20.563125.4000*3.43647.00014.363136.4369-11.3000*3.43647.042-22.3369-.2631-25.3000*3.43647.000-36.3369-14.2631-57.0000
8、*3.43647.000-68.0369-45.9631-25.4000*3.43647.000-36.4369-14.3631-36.7000*3.43647.000-47.7369-25.663111.4000*3.43647.039.363122.4369-20.3000*3.43647.000-31.3369-9.263111.3000*3.43647.042.263122.336936.7000*3.43647.00025.663147.7369(J)“1”制造业,“2”商业,“3”运输业,“4”公用事业,“5”房地产业23451345124512351234(I)“1”制造业,“2
9、”商业,“3”运输业,“4”公用事业,“5”房地产业12345MeanDifference(I-J)Std.ErrorSig.Lower BoundUpper Bound95%Confidence IntervalThe mean difference is significant at the.05 level.*.2 多元方差分析一、假设012:kH1:1,2,iHak不完全相同二、多元方差分析的离差平方和的分解总离差平方和()()11()()ankaaiiaiSSTxxxx()()()()()()11()()ankaaaaaaiiaixxxxxxxx()()()()()()111()()
10、()()ankkaaaaaaiiaaiaxxxxn xxxx()()()()()1111()()()()aannkkaaaaaiiiaiaixxxxxxxx由于交叉乘积项为零,故组间叉积矩阵组内叉积矩阵总叉积矩阵()()()()11()()ankaaaaiiaiSSExxxx组内叉积矩阵:主要由随机因素构成()()1()()()kaaaaSS TRnxxxx组间叉积矩阵:主要由系统因素构成 SSE和SS(TR)之和等于总离差平方和SST。当SSE在SST中占有较大的份额时,可以认为随机因素影响过大,反之SSE所占份额小,SS(RT)所占份额就大,不同试验间的观测值会有显著性差异。,1,(,1)
11、p kn kSSEp nk kSSESSTR三、统计量对给定的显著性水平,检验规则为:,1,1,p kn kp kn k,1,1,p kn kp kn k 拒绝原假设;接受原假设;3 单个总体均值向量的推断单个总体均值向量的推断 设 是取自多元正态总体的一个样本,这里,现欲检验,12nx xx00:H10:H单个总体均值分量间结构关系的检验单个总体均值分量间结构关系的检验是取自该总体的样本。检验:(,)pNx1,2(,)p,12nx xx01:pH1:ijH至少有一对一、问题引入例 设与上面的假设等价的是,寻找常数矩阵110010101001C0:HC01:HC0 注:矩阵C不是唯一的,110
12、001100001C 在例4.2.1中,假定人类的体形有这样一个一般规律的身高、胸围和上臂围平均尺寸比例为6:4:1。检验比例是否符合这一规律。检验:012311:64H112311:,64H 至少有两个不等230106C求则上面的假设可以表达为 0:HC01:HC0二、统计量及方法 其中C为一已知的kp阶矩阵,kp,rank(C)=K,为已知的K维向量。根据多元正态分布的性质可知,0:HC1:HC(,)knNnCxCC C(1)(1,)knCW nCSCC检验:2(1)(1)Tnnnn1Cx)CSC(Cx()(,1)nT k n1Cx)CSC(Cx 当 为真时,0:HC2(,)(1)nkFT
13、F k nkk n故可以将霍特林分布的统计量换算成F统计量。对给定的显著性水平,检验的规则 2(,),(1)nkTF k nkk n拒绝原假设2(,),(1)nkTF k nkk n接受原假设。某地区农村男婴的体格测量数据如下编号身高(cm)胸围(cm)上半臂长(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0检验三个指标的均值是否有关系1231164012311:64H112311:,64H 至少有两个不相等26247.143=18.8572(1)2(6 1)nkFTk n2()(,1)TnT k n1
14、Cx)CSC(Cx4 两个总体均值的检验两个总体均值的检验一、两个独立样本的情形一、两个独立样本的情形 与一元随机变量的情形相同,常常我们需要检验两个总体的均值是否相等。设从总体 ,中各自独立地抽取样本 和 ,。1(,)pN 和2(,)pN112(,)nx xxx212(,)ny yyy 0 考虑假设 012:H112:H 根据两个样本可得1和2的无偏估计量为1111ninixx2121niniyy2211,()pNnnXY0121122122(1)(1)(2,)pnnnnW nnpSSS又1212,pnnNnnXY0其中111(1)()()niin1iSxx xx2221(1)()()nii
15、niSyy yy21212()()n nTnn1pxy Sxy统计量当原假设为真的条件下,21212121(,1)(2)nnpFTF p nnpp nn检验的规则为:21212121(,1),(2)nnpTFp nnpp nn拒绝原假设;21212121(,1),(2)nnpTFp nnpp nn接受原假设;二、成对试验的T2统计量 n 前面我们讨论的是两个独立样本的检验问题,但是不少的实际问题中,两个样本的数据是成对出现的。例如当讨论男女职工的工资收入是否存在差异;一种新药的疗效等。思考:两独立样本和成对样本的观测值有何不同。设(xi,yi),),i=1,2,3,n,时成对的试验数据,由于总
16、体X X和Y Y均服从p维正态分布,且协方差相等。12,(,),iiipdNidxyd令则。假设检验 012112:,:HH01:0,:0HH 检验的统计量为 2dTn1d S d 其中 dxy11()()1niiindSdd dd 当原假设为真时2(,)(1)npFTF p npp n2(,),(1)npTFp npp n拒绝原假设2(,),(1)npTFp npp n接受原假设例1 一组学生共5人,采用两种不同的方式进行教学,然后对5个学生进行测验,得如下得分数:学生序号 教学方式AB数学物理数学物理189908285298888083375696170476706766590766365
17、分析不同的教学方式是否有差异。5 两个总体均值分量间结构关系的检验两个总体均值分量间结构关系的检验 一、问题提出 设从总体 ,中各自独立地抽取样本 和 ,。他们的均值向量差为:1(,)pN 和2(,)pN112(,)nx xxx212(,)ny yyy 011211222212pp1 例 在爱情和婚姻的调查中,对一个由若干名丈夫和妻子组成的样本进行了问卷调查,请他们回答以下几个问题:(1)你对伴侣的爱情的“热度”感觉如何?(2)伴侣对你的爱情的“热度”感觉如何?(3)你对伴侣的爱情的“可结伴”水平感觉如何?(4)伴侣对你的爱情的“可结伴”水平感觉如何?回答采用没有、很小、有些、很大和非常大5个
18、等级,得到结果如表。丈夫对妻子丈夫对妻子妻子对丈夫妻子对丈夫 X1 X2 X3 X4 X1 X2 X3 X4235544555544455545554455434445553355445533453344344443544455345545554454443334444455455555445555 现在我们关心均值分量间的差异是否满足某种结构关系。比如每个指标均值间的差异是否相等。1、丈夫对妻子以及妻子对丈夫的回答在0.05显著水平上没有差异。2、在四个指标上他们是否会有相同的分数。即检验四个分数的平均值是否相等。二、统计量与检验 检验012:()HC 112:()HC 在原假设为真的条件下,检验的统计量为:121212(pn nTnnC xy)CS CC xy)2121212(1)(,1)(2)nnkFTF k nnkk nn225.441254T 212125725.448.192946(1)3 59nnkFTk nn