1、2022-11-26王玉顺:数理统计06_方差分析1Analysis of variance2022-11-26王玉顺:数理统计06_方差分析200PH Hp否定真 按p 决策规则,检验两总体两总体均值差假设犯第一类错误的概率不大于,即:0:0:211210HH两总体两总体均值差假设6 方差分析(1)两独立正态总体均值相等检验 犯第一类错误的概率2022-11-26王玉顺:数理统计06_方差分析36 方差分析0000111PH HPH Hp 接受真否定真 按p 决策规则,检验两总体两总体均值差假设不犯第一类错误的概率不小于1-1-,即:(1)两独立正态总体均值相等检验 犯第一类错误的概率202
2、2-11-26王玉顺:数理统计06_方差分析4 三个三个独立正态总体均值相等假设等价于三个均值差假设同时成立:01201230101123:0:0:0:,123323不全相同HHHHH 6 方差分析(2)三个独立正态总体均值相等检验 犯第一类错误的概率2022-11-26王玉顺:数理统计06_方差分析50120010:0:0:0123323HHHH 每个均值差t检验犯第一类错误的概率记作,三个独立正态总体均值相等检验犯第一类错误的概率记作p,若按 决策,则p值仍是不大于 吗?01230:?0否定真HpPH H6 方差分析(2)三个独立正态总体均值相等检验 犯第一类错误的概率2022-11-26
3、王玉顺:数理统计06_方差分析6 三个独立正态总体均值相等检验,犯第一类错误的概率等于三个均值差原假设至少一个被错误否定的概率,即:P(否定H0|H0真)=P(H0被错误否定)=P(H01,H02,H03至少一个被错误否定)=P(H01,H02,H03恰好一个被错误否定)+P(H01,H02,H03恰好两个被错误否定)+P(H01,H02,H03三个均被错误否定)6 方差分析(2)三个独立正态总体均值相等检验 犯第一类错误的概率2022-11-26王玉顺:数理统计06_方差分析7做三次均值差t检验被视作三次独立重复的贝努利试验,每一次试验犯第一类错误的概率为,不犯第一类错误的概率为1-,则6
4、方差分析(2)三个独立正态总体均值相等检验 犯第一类错误的概率2101020332201020330330102033,1,1,1恰好一个被错误否定恰好二个被错误否定恰好三个被错误否定P HHHCP HHHCP HHHC2022-11-26王玉顺:数理统计06_方差分析82230333333311123311011110否定真PH H 应用二项式定理,三个独立正态总体均值相等检验犯第一类错误的概率计算如下:333 1322 6 方差分析(2)三个独立正态总体均值相等检验 犯第一类错误的概率01231123:,HH 不全相等按决策2022-11-26王玉顺:数理统计06_方差分析9 同理,a个独
5、立正态总体均值相等假设等价于m个均值差假设同时成立:6 方差分析(3)多个独立正态总体均值相等检验 犯第一类错误的概率012010120-1112:0:0:0:,amaaaHHHHH 123不全相同2am 2022-11-26王玉顺:数理统计06_方差分析10012:aH101111011110否定真mmmmmmmmPH Hmm 应用二项式定理,a个独立正态总体均值相等检验犯第一类错误的概率如下:122aa am 6 方差分析(3)多个独立正态总体均值相等检验 犯第一类错误的概率按决策2022-11-26王玉顺:数理统计06_方差分析1100001011,111100否定真接受真全被正确接受H
6、mmmpPH HPH HP HHpp 换一个思路,a个独立正态总体均值相等检验犯第一类错误的概率计算如下:122aa am 6 方差分析(3)多个独立正态总体均值相等检验 犯第一类错误的概率012:aH2022-11-26王玉顺:数理统计06_方差分析12对于a个独立正态总体的均值相等假设011122mHaa appm 012112:,aaHH 不全相等若采用m次均值差t检验,且每次的检验水平定为,则犯第一类错误的最大概率p是:6 方差分析(3)多个独立正态总体均值相等检验 犯第一类错误的概率2022-11-26王玉顺:数理统计06_方差分析1300H H11mPp 拒绝为真6 方差分析(3)
7、多个独立正态总体均值相等检验 犯第一类错误的概率122aa am amp0.05330.14260.05460.26490.055100.40130.056150.53670.057210.65942022-11-26王玉顺:数理统计06_方差分析14 对于多个独立正态总体,如果我们仅仅关心或至少一个均值显著与众不同这样的问题,则采用均值差t检验法完成问题的检验存在三个缺限:(1)检验次数较多,效率低;(2)每次检验的t统计量仅仅利用一对样本的信息;(3)检验的均值个数愈多,犯第一类错误的概率愈大。因此,解决问题需要另辟蹊径。6 方差分析(3)多个独立正态总体均值相等检验 犯第一类错误的概率2
8、022-11-26王玉顺:数理统计06_方差分析156 方差分析(4)方差分析法背景年,在英国一个农业试验站工作的统计学家 发明 分布创立了著名的方差分析()。方差分析首先应用于农业生产并取得丰硕的成果,尔后在其它领域亦得到广泛应用,现已成为统计学的核心方法。经“特别设计”的试验所产生的数据才能采用方差分析,因此数据是有“模式”的。2022-11-26王玉顺:数理统计06_方差分析166 方差分析代表因素效应,代表误差效应,两者之比遵从 分布,其值愈大下发生抽样观测事件的概率 就愈小,就愈不可能成立。在方差相同条件下按决策规则对多个独立正态总体的均值是否相同做 检验,称作方差分析。(5)什么是
9、方差分析?方差分析检验多总体均值相等假设2022-11-26王玉顺:数理统计06_方差分析176.1 单向分组数据方差分析 方差分析原理 单向分组数据6.2 两向分组数据方差分析 有重复两向分组数据 无重复两向分组数据本章内容本章内容6 方差分析2022-11-26王玉顺:数理统计06_方差分析186.1 单向分组数据方差分析One way analysis of variance6 方差分析2022-11-26王玉顺:数理统计06_方差分析19机器机器机器0.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.26
10、70.262三台机器所加工铝合金板厚度的抽样检测数据问题:检验各机器加工铝合金板厚度的一致性6.1 单向分组数据方差分析(1)案例资料2022-11-26王玉顺:数理统计06_方差分析20Levels of AA1A2AaResponsesx11x21xn1,1x12x22xn2,2x1ax2axna,a正态性假设:各个总体均服从正态分布方差齐性假设:各个总体方差相同独立性假设:各个总体的样本相互独立数据模式:方差齐性正态多总体独立样本因素、水平和响应6.1 单向分组数据方差分析(2)数据模式Group or Population2022-11-26王玉顺:数理统计06_方差分析21变量在水平
11、下分别独立重复试验称作属;变量水平的试验可获得一个单总体样本,即一个单纯随机试验的样本;单向分组试验获得的全部观测属于多总体样本,合称为,“单向”是指样本数据由的不同水平分划归组;数据模式由试验模式或抽样模式决定,故三者在应用上含义相同。6.1 单向分组数据方差分析(2)数据模式试验模式抽样模式数据模式2022-11-26王玉顺:数理统计06_方差分析22The statistical model is:222(0,)1,2,1,2,(,)(,)ijjijjijijjijjijjxNja inxNxN +;推论或(3)单向分组数据统计模型6.1 单向分组数据方差分析Ajjj因素 第水平的效应2
12、022-11-26王玉顺:数理统计06_方差分析231112211211110ijjijjijajjaaajjjaaaajjjjjjjjjxnnnnnnnnnnnnnn统计模型+记样本容量定义效应总和(3)单向分组数据统计模型6.1 单向分组数据方差分析推论效应总和等于02022-11-26王玉顺:数理统计06_方差分析2422212111,1,1,1jjijjijjijijjnjijjjijjjnaijjiajjjxxNxxNNnnnxxNnnnn 或其中6.1 单向分组数据方差分析(3)单向分组数据统计模型推论样本均值的概率分布2022-11-26王玉顺:数理统计06_方差分析25不全相等
13、aaHH,:211210(4)单向分组数据统计假设两种统计假设等价6.1 单向分组数据方差分析012112:0:,aaHH 不全为零关于多个独立正态总体均值的假设:关于多个独立正态总体效应的假设:2022-11-26王玉顺:数理统计06_方差分析266.1 单向分组数据方差分析Let be the hypothesized common mean under H0.We are interested in whether all the groups(populations)have exactly the same true means.(H0:所有总体均值相等)The alternativ
14、e is that some of the groups(populations)differ from the others in their means.(H1:某些总体均值与其余总体不同)If H0 holds,that is,all groups have the same mean and variance.(4)单向分组数据统计假设统计假设的含义2022-11-26王玉顺:数理统计06_方差分析27 ijijjijijjjijjijijjjijjxxxxx6.1 单向分组数据方差分析(5)效应的分解和估计响应差值xij-被理解为第j水平第i试验的总效应,它是因素第j水平的效应与该水
15、平上第i试验的误差效应之线性叠加:效应分解式2022-11-26王玉顺:数理统计06_方差分析28 ijijjjijijijjijjijjjjxxxxxxxxxx效应分解:处理效应的估计:误差效应的估计:因素效应的估计:6.1 单向分组数据方差分析一个处理的效应=误差效应+因素效应(5)效应的分解和估计2022-11-26王玉顺:数理统计06_方差分析29 221111221111jjjjijijjijjjijijjjnnaaijijjjjijinnaaijjjjijixxxxxxxxxxxxxxxxxx效应分解式效应分解式6.1 单向分组数据方差分析(6)Partition of Sums
16、of Squares 平方和分解2022-11-26王玉顺:数理统计06_方差分析30+=+SST=SSESSACorrected Total Sum of SquaresModel Sum of SquaresError Sum of Squares222111111jjjnnnaaaijijjjjijijixxxxxxSST measures variability of the overall mean6.1 单向分组数据方差分析(6)Partition of Sums of Squares 平方和分解2022-11-26王玉顺:数理统计06_方差分析312221111221111112
17、21111()(2)21jjjjjjjnnaaijijijjijinnnaaaijijjijijinnaaijijjijiSSTxxxx xxxxxxxxn1ajjnn(7)计算校正总平方和SST及自由度Corrected Total Sums of Squares1Tdfn6.1 单向分组数据方差分析SST的的算法2022-11-26王玉顺:数理统计06_方差分析3202211112222111jjnnaaijijjijiTHTTTSSTxxnSSTSSTMSTdfnEMSTdfMSTSSTdfdfn1ajjnn(8)讨论SST及总和均方MST6.1 单向分组数据方差分析2022-11-26
18、王玉顺:数理统计06_方差分析33ajniijjajniijajnijajnijijajniijajnijjijijajnijijjjjjjjjxnxxxxxxxxxxxSSE121112112111121122112122Error Sum of Squares6.1 单向分组数据方差分析(9)计算误差平方和SSE及自由度SSE的的算法Edfna2022-11-26王玉顺:数理统计06_方差分析342112112122211221111111jjnaijjjinajijjjijajjjaaSSExxnxxnnsnsnsns22111jnjijjijsxxn6.1 单向分组数据方差分析(10)
19、讨论SSE及误差均方MSESSE是a个样本方差的加权和2022-11-26王玉顺:数理统计06_方差分析35222112212(1)(1)(1)(1)(1)(1)aaaSSEnsnsnsMSEnannn1ajjnnjnijijjjxxns122)(11jniijjjxnx116.1 单向分组数据方差分析误差均方MSE本质上是样本的合并方差,即a个样本的加权平均方差(10)讨论SSE及误差均方MSE2022-11-26王玉顺:数理统计06_方差分析3622111221211jnaaijjjjjijajjjSSExxnsE SSEnE snaSSEMSEnaE SSESSEE MSEEnana无论
20、H0是否成立MSE总是2的无偏估计6.1 单向分组数据方差分析(10)讨论SSE及误差均方MSE2022-11-26王玉顺:数理统计06_方差分析3722222112222111111jjaajjdfEjjjjdfjaaEjjjjjjnsSSEdfnsdfdfdfnnadfn22111jnjijjijsxxn6.1 单向分组数据方差分析SSE/2无条件服从自由度dfE=n-a的卡方分布(10)讨论SSE及误差均方MSE2022-11-26王玉顺:数理统计06_方差分析3822211221111221111()(2)1211jjjaajjjjjjjnaaaijjjjjijjjnnaaijijji
21、jijSSAn xxn xx xxxn x xn xnxxnn1 adfA6.1 单向分组数据方差分析(11)计算因素A平方和SSA及自由度SSA的的算法2022-11-26王玉顺:数理统计06_方差分析39221112212211122122jnaajjjjijajjjjaaajjjjjjjjajjjSSAxxnxxnxx xxn xxn xxnn xnx6.1 单向分组数据方差分析(12)讨论SSA及因素均方MSA因素A平方和SSAModel Sum of Squares2022-11-26王玉顺:数理统计06_方差分析40 22221122122221222221111aajjjjjja
22、jjjjajjjjaajjjjjjE SSAEn xnxn E xnE xnVar xExn Var xExnnnnannan因素A平方和的期望6.1 单向分组数据方差分析(12)讨论SSA及因素均方MSA2022-11-26王玉顺:数理统计06_方差分析41因素A平方和的期望6.1 单向分组数据方差分析222122212222122111121ajjjajjjajjjjajjjE SSAannannannan10ajjjn(12)讨论SSA及因素均方MSA2022-11-26王玉顺:数理统计06_方差分析4222121211111ajjjajjjE SSAanSSAMSAaE SSASSAE
23、 MSAEaana0202HE MSA HEMSA为真或均方MSA的期望6.1 单向分组数据方差分析H0下均方MSA是2的无偏估计(12)讨论SSA及因素均方MSA2022-11-26王玉顺:数理统计06_方差分析430002222222111HAAHHAnsnEMSAdfMSASSAdfdfa根据抽样分布定理由无偏估计推论SSA的分布6.1 单向分组数据方差分析H0下SSA/2服从自由度dfA=a-1的卡方分布,证明参见cochran定理(12)讨论SSA及因素均方MSA2022-11-26王玉顺:数理统计06_方差分析442212122111aajjjjjjnnMSAaEMSEa 01HM
24、SAEMSEMSA/MSE的期望6.1 单向分组数据方差分析(13)均方比MSA/MSE及其分布条件期望2022-11-26王玉顺:数理统计06_方差分析45Now we have two estimates of,within and between means.An can be used to determine if the two statistics are equal.The F-statistic is written as:,1AEAEMSAFF dfdfMSEdfadfna6.1 单向分组数据方差分析MSA/MSE的分布根据F分布定义,H0下均方比MSA/MSE服从F分布,
25、故H0下MSA/MSE是F统计量(13)均方比MSA/MSE及其分布2022-11-26王玉顺:数理统计06_方差分析46If H0 holds,the computed F-statistics should be close to 1.If H1 holds,the computed F-statistic should be much greater than 1.We use the appropriate critical value from the F-table to help make this decision.Hence,the F-test is really a te
26、st of equality of means under the assumption of normal populations and homogeneous variances.6.1 单向分组数据方差分析MSA/MSE的特性(13)均方比MSA/MSE及其分布2022-11-26王玉顺:数理统计06_方差分析47,1,AEAEdfdfFAEdfadfnaMSApP FMSEMSAWFdfdfMSE问题归结为均方比的右方F检验决策规则:p否定H0p接受H0(14)F-test method不全相等aaHH,:2112106.1 单向分组数据方差分析AEMSASSASSEdfdfMSE2
27、022-11-26王玉顺:数理统计06_方差分析48SourceSSdfMSF valuePrFFactor AErrorSSASSEa1naSSA/(a1)SSE/(n a)MSA/MSEpTotalSST n1单向分组数据方差分析表AETdfdfdfSSASSESST验算平方和与自由度计算抽样观测概率p,AEdfdfMSApP FMSE6.1 单向分组数据方差分析(14)F-test method值决策右方检验法2022-11-26王玉顺:数理统计06_方差分析49SourceSSdfMSF valueF(dfA,dfE)Factor AErrorSSASSEa1naSSA/(a1)SSE
28、/(n a)MSA/MSETotalSST n1单向分组数据方差分析表AETdfdfdfSSASSESST验算平方和与自由度导出拒绝域WF6.1 单向分组数据方差分析(14)F-test method拒绝域决策右方 检验法,FAEMSAWFdfdfMSE2022-11-26王玉顺:数理统计06_方差分析501ajjnn11jnaijjiTxajniijjxR112221jnjijiTx 21ajjjTAn11TEATEASSTRCRdfnSSERAdfnaSSAACRdfaSSTSSESSAdfdfdf,(15)平方和算法汇总组和平方总平方和总和计算平方和及自由度6.1 单向分组数据方差分析2
29、CRTn2022-11-26王玉顺:数理统计06_方差分析51机器机器机器0.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262n=151.211.281.31T=3.80.29282 0.32768 0.34322A=0.963720.292918 0.32772 0.343274 R=0.963912(16)方差分析案例一2jjTn2ijxjT数据预处理的表格算法6.1 单向分组数据方差分析2022-11-26王玉顺:数理统计06_方差分析52dfE=n-a=15-3=12dfA=a-1=3-1
30、=2dfT=n-1=15-1=14CR=T2/n=3.82/15=0.962667SST=R-CR=0.963912-0.962667=0.001245SSE=R-A=0.963912-0.963720=0.000192SSA=A-CR=0.96372-0962667=0.0010536.1 单向分组数据方差分析(16)方差分析案例一2022-11-26王玉顺:数理统计06_方差分析53SourceSSdfMSF valuePrFFactor AError0.0010530.0001922120.00052650.00001632.911.3452E-5Total0.001245 14三台机器
31、加工铝合金板厚度的方差分析表512,2103452190625.32-.FPp6.1 单向分组数据方差分析(16)方差分析案例一p值决策法2022-11-26王玉顺:数理统计06_方差分析54 因p=1.3452E-55.0E-5,故可在0.05水平上亦可在0.00005水平上否定零假设。方差分析结果表明,0.05水平上或0.00005水平上认定三种机器加工出的铝合金板厚度存在显著或极其显著的差异。6.1 单向分组数据方差分析(16)方差分析案例一p值决策法决策结论2022-11-26王玉顺:数理统计06_方差分析55SourceSSdfMSF valueF0.05(2,12)Factor A
32、Error0.0010530.0001922120.00052650.00001632.913.8853Total0.001245 14三台机器加工铝合金板厚度的方差分析表8853.312,205.0FMSEMSAWF6.1 单向分组数据方差分析(16)方差分析案例一拒绝域决策法2022-11-26王玉顺:数理统计06_方差分析56 因MSA/MSE=32.913.8853,故在0.05水平上否定零假设。方差分析结果表明,0.05水平上认定三种机器加工出的铝合金板厚度存在显著差异。6.1 单向分组数据方差分析(16)方差分析案例一拒绝域决策法决策结论2022-11-26王玉顺:数理统计06_方
33、差分析57案例 四种计算器电路响应时间的抽样检测类型类型类型类型192220181520213327401615182617182219问题:各类型电路的响应时间是否相同?6.1 单向分组数据方差分析案例资料(17)方差分析案例二2022-11-26王玉顺:数理统计06_方差分析58类型类型 类型 类型192220181520213327401615182617182219n=18941419259T=3861767.2 3976.2 1692.8 1160.3A=8596.51794425917701169R=8992数据的表格算法6.1 单向分组数据方差分析(17)方差分析案例二2022-
34、11-26王玉顺:数理统计06_方差分析59dfE=n-a=18-4=14dfA=a-1=4-1=3dfT=n-1=18-1=17CR=T2/n=3862/18=8277.5556SST=R-CR=8992-8277.5556=714.4444SSE=R-A=8992-8596.5=395.5SSA=A-CR=8596.5-8277.5556=318.9444计算平方和及自由度6.1 单向分组数据方差分析(17)方差分析案例二2022-11-26王玉顺:数理统计06_方差分析60四种计算器电路响应时间的方差分析表SourceSSdfMSF valuePrFFactor AError318.9444395.5314106.314828.253.76340.0359Total714.4444 170359.07634.314,3FPp6.1 单向分组数据方差分析(17)方差分析案例二p值决策法2022-11-26王玉顺:数理统计06_方差分析61 因p=0.03593.3439,故0.05水平上否定零假设H0。方差分析结果表明,四种计算器电路的响应时间存在显著差异。决策结论6.1 单向分组数据方差分析(17)方差分析案例二拒绝域决策法2022-11-26王玉顺:数理统计06_方差分析64结束结束