1、1方差分析方差分析2如某种农作物的收获量受作物品种、如某种农作物的收获量受作物品种、肥料种类及数量等的影响;选择不同肥料种类及数量等的影响;选择不同的品种、的品种、肥料种类及数量进行试验,肥料种类及数量进行试验,日常生活中经常发现,影日常生活中经常发现,影响一个事物的因素很多,响一个事物的因素很多,希望找到影响最显著的因希望找到影响最显著的因素素3看哪一个影响大?并需要知道看哪一个影响大?并需要知道起显著作用的因素在什么时候起显著作用的因素在什么时候起最好的影响作用。起最好的影响作用。方差分析就是解决这方差分析就是解决这些问题的些问题的一种有效方法。一种有效方法。4因素(因子) 可以控制的试验
2、条件因素的水平 因素所处的状态或等级单(双)因素方差分析讨论一个(两个)因素对试验结果有没有显著影响。第一节第一节 概述概述5例如:某厂对某种晴棉漂白工艺中酸液浓度(例如:某厂对某种晴棉漂白工艺中酸液浓度(g/kg/k)进)进行试验,以观察酸液浓度对汗布冲击强力有无显著影行试验,以观察酸液浓度对汗布冲击强力有无显著影响。响。序号序号冲击强力冲击强力浓度浓度1 2 3 4 5 6A1 16.2 15.1 15.8 14.8 17.1 15.0 A2 16.8 17.5 17.1 15.9 18.4 17.7A3 19.0 20.1 18.9 18.2 20.5 19.7方差分析就是把总的方差分析
3、就是把总的试验数据的波动分成试验数据的波动分成1、反映、反映因素水平因素水平改变引起的波动。改变引起的波动。2、反映、反映随机因素随机因素所引起的波动。所引起的波动。然后加以比较进行统然后加以比较进行统计判断,得出结论。计判断,得出结论。6方差分析的基本思想:把全部数据关于总均值的离差平方和方差分析的基本思想:把全部数据关于总均值的离差平方和分解成几部分,每一部分表示某因素诸水平交互作用所产生分解成几部分,每一部分表示某因素诸水平交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。某些因素或交互作用的
4、重要性。 用公式概括为:用公式概括为: 总变异总变异= =组间变异组间变异+ +组内变异组内变异各因素引起由个体差异引起(误差)种类:种类:常用方差分析法有以下常用方差分析法有以下4 4种种1 1、完全随机设计资料的方差分析(单因素方差分析)、完全随机设计资料的方差分析(单因素方差分析)2 2、随机区组设计资料的方差分析(二因素方差分析)、随机区组设计资料的方差分析(二因素方差分析)3 3、拉丁方设计资料的方差分析(三因素方差分析)、拉丁方设计资料的方差分析(三因素方差分析)4 4、R R* *C C析因设计资料的方差分析(有交互因素方差分析)析因设计资料的方差分析(有交互因素方差分析)7第二
5、节第二节 单因素方差分析单因素方差分析一、假设检验一、假设检验 设:设:A1A1、A2A2、A3A3、为三个总体、为三个总体X1X1、X2X2、X3X3,每个总体有,每个总体有6 6个样个样本本Xi1Xi1、Xi2Xi2、Xi6 ( i=1,2,3 )Xi6 ( i=1,2,3 )。注:要判断酸液浓度的注:要判断酸液浓度的3 3种水平对汗布的冲击强力是否有显著影响,实种水平对汗布的冲击强力是否有显著影响,实质上就是检验质上就是检验3 3种不同水平所对应的种不同水平所对应的3 3个总体是否有显著差异的问题。即个总体是否有显著差异的问题。即检验检验3 3个总体数学期望是否相等。个总体数学期望是否相
6、等。以后就是求解问题,为了说明一般解的公式(方法),如下作一般分析。以后就是求解问题,为了说明一般解的公式(方法),如下作一般分析。8一般形式:一般形式:序号序号结果结果水平水平1 2 nA1 X11 X12 X1n A2 X21 X22 X2nA3 Xm1 Xm2 Xmn。假定:数据满足正态性、独立性、方差齐性。假定:数据满足正态性、独立性、方差齐性。 (进行方差分析的条件)(进行方差分析的条件) 要检验因素要检验因素A对指标是否显著影响,就是检验假设:对指标是否显著影响,就是检验假设: H0: 1= 2= m 接受接受H0:即认为来自同一总体,差异由随机因素所造成。:即认为来自同一总体,差
7、异由随机因素所造成。 若拒绝若拒绝H0:表明它们之间差异显著,差异有因素水平的改变所引起。:表明它们之间差异显著,差异有因素水平的改变所引起。做法:为了检验假设做法:为了检验假设H0,要从总的误差中将系统误差和随机误差分开。,要从总的误差中将系统误差和随机误差分开。9二、离差平方和的分解与显著检验二、离差平方和的分解与显著检验 记:记:njijiXnX11 minjijXmnX111minjXXijQ112)(将将Q进行分解:进行分解: minjiiijXXXXQ112)()(minjiiijminjminjiiijXXXXXXXX11111122)(2)()(由于由于 minjiiijXXX
8、X11)(0)()()(111miiiiminjiijiXnXnXXXXXX10故:故: minjminjiiijXXXXQ111122)()( minjmiiiijXXnXX11122)()(下面通过比较下面通过比较QE和和QA来检验假设来检验假设H0。在假设在假设H0成立的条件下,可以证明:成立的条件下,可以证明:)1(22mnQ)1(22nmQE) 1(22mQA相互独立相互独立11方法:(检验方法)方法:(检验方法)(1)当)当H0: 1= 2= m 成立时。成立时。(2)统计量:)统计量:)1(,1()1()1(22nmmFnmQmQFEA)1(,1()1()1(nmmFnmQmQF
9、EA即:即:12(3)给定显著性水平给定显著性水平 ,查表得临界值,查表得临界值(4)由样本观察值计算出)由样本观察值计算出F(5)若)若F ,则拒绝,则拒绝H0。 (说明因素(说明因素A各水平间有显著性差异)各水平间有显著性差异)(6)若)若F ,则接受,则接受H0。(说明因素。(说明因素A各水平间无显著性差异)各水平间无显著性差异))1(, 1(nmmF)1(, 1(nmmF)1(, 1(nmmF三、计算的简化三、计算的简化1、 对对Q、QE、QA计算简化。(给出一个简化的计算公式和数据简化的方法)计算简化。(给出一个简化的计算公式和数据简化的方法) 令:令:njijiXT1minjmii
10、ijTXT111 minjminjijijijXXXXXXQ1111222)2()(minjminjminjijijijXmnXXmnX1111112222)(1minjijmnTX112213同样可推出:同样可推出:minjmiiijETnXQ111221mnTTnQmiiA21212、数据的简化:数据的简化: 试验数据经过变换试验数据经过变换 )(aXbXijij数据简化后对数据简化后对F值的计算没有影响,不会影响检验的结果值的计算没有影响,不会影响检验的结果四、方差分析表四、方差分析表方差来源方差来源 离差平方和离差平方和 自由度自由度 F值值 F0.05 F0.01 显著性显著性因素因
11、素A QA m-1 )1()1(nmQmQFEA试验误差试验误差 QE m(n-1)总误差总误差 Q mn-114例:前例题例:前例题 1、对数据的简化、对数据的简化 )17(10ijijXX得下表:得下表:序号序号冲击强力冲击强力浓度浓度1 2 3 4 5 6 A1 -8 -19 -12 -22 1 -20 -80 1454 A2 -2 5 1 -11 14 7 14 396A3 20 31 19 12 35 27 144 3820iT612 jiX)17(10ijijXX由表中数据可算出由表中数据可算出31612 5670ijijX78316131ijiiijTXT27332312iiT1
12、5计算计算7 .1114273326156706131231612 iiijijETXQ3 .4217186084273326163612312TTQiiA53323 .42177 .1114AEQQQ计算出计算出F值:值:38.2857.111423.4217)16(3()13(EAQQ16方差来源方差来源 离差平方和离差平方和 自由度自由度 F值值 F0.05 F0.01 显著性显著性因素因素A 4217.3 2 28.38 3.68 6.38 *(十分显著)十分显著) 试验误差试验误差 1114.7 15总误差总误差 5332 17列表:列表:说明:说明: ,说明酸液浓度对汗布冲击强力有
13、十分显著的影响。,说明酸液浓度对汗布冲击强力有十分显著的影响。)15, 2(FF 17五、各水平下试验次数不等时的方差分析五、各水平下试验次数不等时的方差分析设第设第 i个水平试验次数为个水平试验次数为ni, 则有则有 minjminjijijiinTXXXQ1111222)(minjminjmiiiijiijEiinTXXXQ11111222)(mimiiiiiAnTnTXXnQ11222)(miinn1injijiXT1miinjijXT11iiinTX nTX 自由度分别为自由度分别为f=n-1, fE=n-m, fA=m-1 . 检验统计量为检验统计量为式中:式中:), 1()() 1
14、(mnmFmnQmQFEA18第三节第三节 双因素方差分析双因素方差分析例如:某厂对生产的高速钢铣刀进行淬火工艺试验,考察回火温度例如:某厂对生产的高速钢铣刀进行淬火工艺试验,考察回火温度A和淬火温度和淬火温度B两两个因素对强度的影响。今对两个因素各个因素对强度的影响。今对两个因素各3个水平进行试验,得平均硬度见表:个水平进行试验,得平均硬度见表:BjAi试验结果试验结果B1(1210C)B2(1235C)B3(1250C)A1(280C) 64 66 68 A2(300C) 66 68 67A3(320C) 65 67 68假设:美中不足组合水平下服从正态分布、互相独立、方差相等。假设:美中
15、不足组合水平下服从正态分布、互相独立、方差相等。所需要解决的问题是:所有所需要解决的问题是:所有Xij的均值是否相等。的均值是否相等。19假设检验:假设检验:1)在假设)在假设H0成立的条件下。成立的条件下。2)统计量)统计量)1)(1( , 1()1)(1()1(lmmFlmQmQFEAA)1)(1( , 1()1)(1()1(lmlFlmQlQFEBB3)给定显著水平 ,查表得临界值)1)(1( , 1(lmmF4)由样本观察值计算)由样本观察值计算FA、FB5)若)若 时,接受时,接受H0,因素的影响不显著。,因素的影响不显著。 若若 时,拒绝时,拒绝H0。 对因素对因素B同理说明。同理
16、说明。 )1)(1(, 1(lmFFA)1)(1(, 1(lmFFA miljijmlTXQ1122miiAmlTTlQ122.1ljjBmlTTmQ122.1BAEQQQQ20方差分析表:方差分析表:方差来源方差来源 离差平方和离差平方和 自由度自由度 F值值 F0.05(2,4) F0.01(2,4) 显著性显著性因素因素A 1.56 2 FA=1.01 6.94 18.0因素因素B 11.56 2 FB=7.46 6.94 18.0 *试验误差试验误差 3.1 4总误差总误差 16.22 8 31312222.1633ijijTXQ56.133313122.iiATTQ3122.56.1
17、13331jjBTTQ1 . 3BAEQQQQ)4,2(05.0FFAA影响不显著。影响不显著。)4 , 2()4 , 2(01. 005. 0FFFBB影响显著,由于影响显著,由于高速钢洗刀的硬度越大越好,因此因素高速钢洗刀的硬度越大越好,因此因素B可取可取B3水平,即淬火温度水平,即淬火温度1250C为好,因素为好,因素A水平的确定,应考虑经济方便,取水平的确定,应考虑经济方便,取A1水平为好。水平为好。21SASSAS系统中区分两种情况:系统中区分两种情况:1 1、每组观测数据相等,可用、每组观测数据相等,可用ANOVAANOVA过程处理过程处理以上四种情形的方差分析。以上四种情形的方差
18、分析。2 2、若每组观测数据不相等,可用、若每组观测数据不相等,可用GLMGLM过程处过程处理以上四种情形的方差分析。理以上四种情形的方差分析。22均衡数据的方差分析(均衡数据的方差分析(ANOVAANOVA过程)过程)过程说明:过程说明:1 1、PROC ANOVAPROC ANOVA;2 2、CLASS CLASS 变量表;变量表;3 3、MODEL MODEL 因变量表因变量表= =效应;效应;4 4、MEANS MEANS 效应效应/选择项选择项 ;5 5、ALPHA=p ALPHA=p 显著性水平(缺省值为显著性水平(缺省值为0.050.05)CLASSCLASS和和MODELMOD
19、EL是必需的,是必需的,CLASSCLASS必须的必须的MODELMODEL之前。之前。可以是数值型和字符可以是数值型和字符型型是指因变量与自变量效应,模型如下:是指因变量与自变量效应,模型如下:1 1、主效应模型、主效应模型 MODEL y=a b c; (a b cMODEL y=a b c; (a b c是主效应,是主效应,y y是因变量)是因变量)2 2、交互模型、交互模型 MODEL y=a b c aMODEL y=a b c a* *b ab a* *c bc b* *c ac a* *b b* *c;c;3 3、嵌套效应、嵌套效应 MODEL y=a b c(a b);MODE
20、L y=a b c(a b);4 4、混合效应模型号、混合效应模型号 MODEL y=a b(a) c(a) bMODEL y=a b(a) c(a) b* *c(a);c(a);输出因变量均数,对主效应均数间的检输出因变量均数,对主效应均数间的检验。验。23例:例:1 1、单因素方差分析、单因素方差分析 某劳动卫生组织研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附某劳动卫生组织研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料做五次测量,所得数据如下。试检验各种衣料见棉花十硼氢量。每种衣料做五次测量,所得数据如下。试检验各种衣料见棉花吸附十硼氢量有没有显著差别?吸附十硼氢量有没
21、有显著差别?棉布棉布 府绸府绸 的确凉的确凉 尼龙尼龙 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60 24单因素方差分析单因素方差分析SASSAS程序的输入:程序的输入:循环语句删除变量CLASS和MODEL语句是必需的,CLASS必须出现在MODEL语句前。25组间占总的比例单因素方差分析单因素方差分析SASSAS程序输出结果:程序输出结果:结论:在CLASS语句中指出的P值。P0.003,可得出各衣料组间有非常显著差异。262 2、两因素
22、方差分析、两因素方差分析例:用例:用4 4种不同方法治疗种不同方法治疗8 8名病者,其血浆凝固时间的资料如表,名病者,其血浆凝固时间的资料如表, 试分析影响血浆凝固的因素。试分析影响血浆凝固的因素。受试者编号(区组)受试者编号(区组)处理组处理组 1 2 3 41 8.4 9.4 9.8 12.22 12.8 15.2 12.9 14.43 9.6 9.1 11.2 9.84 9.8 8.8 9.9 12.05 8.4 8.2 8.5 8.56 8.6 9.9 9.8 10.97 8.9 9.0 9.2 10.48 7.9 8.1 8.2 10.027两因素方差分析两因素方差分析SASSAS程
23、序的输入:程序的输入:28两因素方差分析两因素方差分析SASSAS程序输出结果:程序输出结果:结论:总误差:结论:总误差:F=14.04,P0.0001,故总体有非常显著差异。,故总体有非常显著差异。 A因素:因素:F=6.62,P0.0025,故认为因素,故认为因素A(治疗方法)对血浆凝固时间影响很大。(治疗方法)对血浆凝固时间影响很大。 B因素:因素:F=17.2,P0.0001,故认为因素,故认为因素B(不同病者)对血浆凝固时间影响很大。(不同病者)对血浆凝固时间影响很大。293 3、三因素方差分析(交互作用不存在)、三因素方差分析(交互作用不存在)例:五种防护服,由五人各在不同的五天中
24、穿着测定脉搏数,如表。例:五种防护服,由五人各在不同的五天中穿着测定脉搏数,如表。 试比较五种防护服对脉搏数有无不同。试比较五种防护服对脉搏数有无不同。试验日期试验日期受试者受试者甲甲 乙乙 丙丙 丁丁 戊戊1 A129.8 B116.2 C114.8 D104.0 E100.62 B144.4 C119.2 D113.2 E132.8 A115.23 C143.0 D118.0 E115.8 A123.0 B103.84 D133.4 E110.8 A114.0 B 98.0 C110.65 E142.8 A110.6 B105.8 C120.0 D109.830三因素方差分析三因素方差分析
25、SASSAS程序的输入:程序的输入:31三因素方差分析三因素方差分析SASSAS程序输出结果:程序输出结果:结论:因F=6.80,P0.0011,故总体有非常显著差异。其中K因素影响极大F=16.27,P0.001。因素P、C都无显著差异。324 4、有交互因素的方差分析、有交互因素的方差分析 例:治疗缺铁性贫血病人例:治疗缺铁性贫血病人1212例,分为例,分为4 4组给予不同治疗,一个月组给予不同治疗,一个月后观察红细胞增加(百万后观察红细胞增加(百万/mm/mm),资料如表。试分析两种药物对),资料如表。试分析两种药物对红细胞增加的影响。红细胞增加的影响。甲药(甲药(A)不用(不用(A0)
26、 用(用(A1)乙药(乙药(B)不用不用B0用用 B10.8 0.9 0.7 1.3 1.2 1.10.9 1.1 1.0 2.1 2.2 2.033有交互因素方差分析有交互因素方差分析SASSAS程序的输入:程序的输入:34有交互因素方差分析有交互因素方差分析SASSAS程序输出结果:程序输出结果:结论:因F=98.75,P=0.00010.01,故总体有非常显著的差异,因素A、B、A*B都对红细胞增加数有非常大的影响。35非平衡数据的方差分析(非平衡数据的方差分析(GLMGLM过程)过程)在在SAS/STATSAS/STAT中中GLMGLM(General Linear Models)Ge
27、neral Linear Models)过程分析功能最多。包括:过程分析功能最多。包括:1 1、简单回归(一元)、简单回归(一元)2 2、加权回归、加权回归3 3、多重回归及多元回归、多重回归及多元回归4 4、多项式回归、多项式回归5 5、方差分析(尤其不平衡分析)、方差分析(尤其不平衡分析)6 6、偏相关分析、偏相关分析7 7、协方差分析、协方差分析8 8、多元方差分析、多元方差分析9 9、反应面模型分析、反应面模型分析1010、重复测量方差分析、重复测量方差分析36GLM过程在方差分析中的应用:过程在方差分析中的应用:MODEL语句反映因变量与自变量的模型,其形式:语句反映因变量与自变量的
28、模型,其形式: 模型说明模型说明 模型类型模型类型MODEL Y=A B;主效应;主效应ODEL Y=A B A*B;交互效应;交互效应MODEL Y=A B A(B); 嵌套效应嵌套效应ODEL Y1 Y2=A B; 多元方差分析多元方差分析MODEL Y=A X; 协方差分析协方差分析,是分类变量,是连续型变量。,是分类变量,是连续型变量。37、不平衡单因素方差分析、不平衡单因素方差分析例:健康男子各年龄组淋巴细胞转化率()如表,问例:健康男子各年龄组淋巴细胞转化率()如表,问各组淋巴细胞转化率的均数之间的差异是否显著?各组淋巴细胞转化率的均数之间的差异是否显著?健康男子各年龄组淋巴细胞转
29、化率()健康男子各年龄组淋巴细胞转化率()11-20岁岁58 61 61 62 63 68 70 70 74 7841-50岁岁54 57 57 58 60 60 63 64 6661-75岁岁 43 52 55 56 6038不平衡单因素方差分析不平衡单因素方差分析SASSAS程序的输入:程序的输入:39不平衡单因素方差分析不平衡单因素方差分析SASSAS程序输出结果:程序输出结果:402 2、不平衡二因素方差别分析、不平衡二因素方差别分析假设如下数据作二因素方差分析假设如下数据作二因素方差分析因素因素 b1 b2 b3因素因素a1a23.3 2.6 1.5 3.6 3.1 1.9 0.8 1.6 3.2 2.6 5.2 4.72.2 1.3 4.2 4.3 5.3 2.8 2.0 2.9 4.4 3.8 4.4 5.13.9 2.9 3.1 2.9 3.5 4.9 2.5 4.8 4.6 5.6 3.9 3.0 41不平衡二因素方差分析不平衡二因素方差分析SASSAS程序的输入:程序的输入:42不平衡二因素方差分析不平衡二因素方差分析SASSAS程序输出结果:程序输出结果:结论:GLM按两种方法输出1、按有交互作用输出2、按主效应输出。