1、第八章第八章 单因素方差分析单因素方差分析 (one-factor analysis of variance)一、一、一般概念及两种不同的处理效应一般概念及两种不同的处理效应 方差分析(方差分析(ANOVA)是是一类特定情况下的统计一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种假设检验,或者说是平均数差异显著性检验的一种引伸。引伸。t 检验可以判断两组数据平均数的差异的显检验可以判断两组数据平均数的差异的显著性,著性,而方差分析则可以同时判断多组数据平均数而方差分析则可以同时判断多组数据平均数之间的差异的显著性。之间的差异的显著性。例例 2.1调查了调查了5个不同小麦品系的株
2、高,个不同小麦品系的株高,结果列于表结果列于表21。在这个例子中,只出现在这个例子中,只出现“品系品系”这样一个这样一个因素因素(factor),故称单因素。共有,故称单因素。共有5 个不同的品个不同的品系,我们称品系这一因素共有系,我们称品系这一因素共有5个水平个水平(level)。5个品系可以认为是个品系可以认为是5个总体,表个总体,表 24的数据是的数据是从从5个总体中抽出的个总体中抽出的5个样本,通过比较这个样本,通过比较这5个样个样本,判断这本,判断这5个总体是否存在差异。个总体是否存在差异。表表 21 5个小麦品系株高调查结果个小麦品系株高调查结果 株号株号株株 高高 1 2 3
3、4 5 和和 64.665.364.866.065.8326.5 64.565.364.663.763.9322.0 76.866.367.166.868.5336.5 71.872.170.069.171.0354.0 69.268.269.868.367.5343.0 平均数平均数65.364.467.370.868.6 例例 2.2 为了探讨不同窝的动物的出生为了探讨不同窝的动物的出生重是否存在差异,随机选取重是否存在差异,随机选取4窝动物,每窝窝动物,每窝中均有中均有4只幼仔,结果如下:只幼仔,结果如下:表表22 4窝动物的出生重(克)窝动物的出生重(克)动物号动物号窝窝 别别1234
4、和和34.733.326.231.6125.833.226.028.632.3120.127.123.327.826.7104.932.931.425.7 28.0118.0平均数平均数31.45030.02526.22529.500 通过对以上数据的分析,判断不同窝别动物通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。出生重是否存在差异。以上两个例子的共同点是:每个实验都以上两个例子的共同点是:每个实验都只有一个因素,该因素有只有一个因素,该因素有a个水平或称为有个水平或称为有a个处理个处理(treatment),这样的实验称为单因素,这样的实验称为单因素实验。实验。从单因素实验的
5、每一处理所得到的结从单因素实验的每一处理所得到的结果都是一随机变量果都是一随机变量X i。对于。对于a个处理,各重个处理,各重复复n次(或者说做次(或者说做n次观察)的单因素方差分次观察)的单因素方差分析的一般化表示方法见表析的一般化表示方法见表23。表表 23单因素方差分析的典型数据单因素方差分析的典型数据 X1X2X3 X i X a 123 :j nx11 x12x13:x1j:x1nx21 x22x23:x2j:x2nx31 xi1 xa1x32 xi2 xa2x33 xi3 xa3:x3j xij xaj:x3n xin xan平均数平均数x1 x2 x3 xi xa 表中的数据表中
6、的数据xij,表示第表示第 i 次处理下的第次处理下的第j次观察值。其中的次观察值。其中的n个符号做如下说明:个符号做如下说明:1111(1,2,)1niijjiianijijxxxxianxxxxan 用用“”表示下标的和,使用时很方便,表示下标的和,使用时很方便,在以后会经常遇到。在以后会经常遇到。常用如下的所谓常用如下的所谓线性统计模型线性统计模型(linear statistical model)描述每一个观察值:描述每一个观察值:)12(,2,1,2,1njaixijiij其中:其中:xij 是在第是在第 i 水平(处理)下的第水平(处理)下的第 j 次观次观察值。察值。是对所有观察
7、值的一个参量,称为是对所有观察值的一个参量,称为总总平均数平均数(overall mean)。i是仅限于对第是仅限于对第 i 次处次处理的一个参量,称为第理的一个参量,称为第i次次处理效应处理效应(treatment effect)。方差分析的目的,就是要检验处理效。方差分析的目的,就是要检验处理效应的大小或有无。应的大小或有无。ij是随机误差成份。是随机误差成份。上述模型中,包括两类不同的处理效应。上述模型中,包括两类不同的处理效应。第第一类处理效应称为一类处理效应称为固定效应固定效应(fixed effect):它:它是由是由固固定因素定因素(fixed factor)所引起的效应。所引起
8、的效应。若因素的若因素的a个水平是经过特意选择的,则该因素称为固个水平是经过特意选择的,则该因素称为固定因素。定因素。例如例如,几个不同的实验温度,几个不同的化学药物或,几个不同的实验温度,几个不同的化学药物或一种药物的几种不同浓度,几个作物品种以及几个不一种药物的几种不同浓度,几个作物品种以及几个不同的治疗方案和治疗效果等。同的治疗方案和治疗效果等。在在这些情况中,因素的水平是特意选择的,这些情况中,因素的水平是特意选择的,所检验的是关于所检验的是关于ai 的假设,得到的结论只适合的假设,得到的结论只适合与方差分析中所考虑的那几个水平,并不能将与方差分析中所考虑的那几个水平,并不能将其结论扩
9、展到未加考虑的其它类似水平上。其结论扩展到未加考虑的其它类似水平上。所以所以上述的那些因素:温度、药物、品种等,上述的那些因素:温度、药物、品种等,称为固定因素。处理这样的因素所用的模型称称为固定因素。处理这样的因素所用的模型称为为固定效应模型固定效应模型(fixed effect model)。)。例例2.1中的中的5个小麦品系是特意选择的,目的个小麦品系是特意选择的,目的是从这是从这5 个品系中,选出最优者,因而个品系中,选出最优者,因而“品系品系”这个因素属于固定因素,所用的模型是固定效这个因素属于固定因素,所用的模型是固定效应模型。应模型。第二第二类处理效应称为类处理效应称为随机效应随
10、机效应(ran-dom effect):它:它是由是由随机因素随机因素(random factor)所)所引起的效应。若因素的引起的效应。若因素的a 个水平,是从该因素全个水平,是从该因素全部水平的总体中随机抽出的样本,则该因素称为部水平的总体中随机抽出的样本,则该因素称为随机因素。随机因素。从从随机因素的随机因素的a 个水平所得到的结论,可以推广个水平所得到的结论,可以推广到这个因素的所有水平上。处理随机因素所用的到这个因素的所有水平上。处理随机因素所用的模型称为模型称为随机效应模型随机效应模型(random effect mo-del)。)。例例2.2 的动物窝别,是从动物所有可能的窝别中
11、随的动物窝别,是从动物所有可能的窝别中随机选出来的,实验的目的是考查在窝别之间,出机选出来的,实验的目的是考查在窝别之间,出生重是否存在差异,因而生重是否存在差异,因而“窝别窝别”是随机因素。是随机因素。有时固定因素和随机因素很难区分,除上述有时固定因素和随机因素很难区分,除上述所讲的原则外,还可以从另一角度鉴别:所讲的原则外,还可以从另一角度鉴别:固定因素固定因素是指因素水平,可以严格地人为控制是指因素水平,可以严格地人为控制。在水平固定之后,它的效应值也是固定的。在水平固定之后,它的效应值也是固定的。例如,研究三种温度对胰蛋白酶水解产物的影例如,研究三种温度对胰蛋白酶水解产物的影响。因为温
12、度水平是可以严格控制的,即每一响。因为温度水平是可以严格控制的,即每一温度水平,在各个重复之间都可以准确地控制温度水平,在各个重复之间都可以准确地控制在一个固定值上,所以在重复该实验时,水解在一个固定值上,所以在重复该实验时,水解产物的产量也是固定的。产物的产量也是固定的。简单简单地说,在水平(不同温度)固定以后,其地说,在水平(不同温度)固定以后,其效应值(产量)也是固定的。因此,温度是固效应值(产量)也是固定的。因此,温度是固定因素。定因素。随机因素随机因素的水平的水平是不能严格地人为控制的是不能严格地人为控制的,在水平确定之后,它的效应值并不固定。在水平确定之后,它的效应值并不固定。例如
13、例如,在研究不同农家肥施用量对作物产量,在研究不同农家肥施用量对作物产量的影响试验中,农家肥是因素,不同施用量的影响试验中,农家肥是因素,不同施用量是该因素的不同水平,作物的产量是它的效是该因素的不同水平,作物的产量是它的效应值。由于农家肥的有效成份很复杂,不能应值。由于农家肥的有效成份很复杂,不能像控制温度那样,将农家肥的有效成份严格像控制温度那样,将农家肥的有效成份严格地控制在某一个固定值上。在重复试验时即地控制在某一个固定值上。在重复试验时即使施以相同数量的肥料,也得不到一个固定使施以相同数量的肥料,也得不到一个固定的效应值。即在因素的水平(施肥量)固定的效应值。即在因素的水平(施肥量)
14、固定之后,它的效应值(产量)并不固定,因而之后,它的效应值(产量)并不固定,因而农家肥是一随机因素。农家肥是一随机因素。二、二、固定效应模型固定效应模型 在固定效应模型中,在固定效应模型中,i 是处理平均数与总是处理平均数与总平均数的离差平均数的离差 ,且是个常量,因,且是个常量,因而而 i10aii 要检验要检验a个处理效应的相等性,就要个处理效应的相等性,就要 判断各判断各 是否是否等于等于0。若各。若各 i 都等于都等于0,则各处理效应之间无差异。因此,则各处理效应之间无差异。因此,零假设为:零假设为:0:210aH备择假设为:备择假设为:HA:i0(至少有(至少有1个个i)。若接受)。
15、若接受H0,则不存在处理效应,每个观察值都是由平均数加上随机则不存在处理效应,每个观察值都是由平均数加上随机误差所构成。若拒绝误差所构成。若拒绝H0,则存在处理效应,每个观察值,则存在处理效应,每个观察值是由总平均数、处理效应和误差三部分构成。是由总平均数、处理效应和误差三部分构成。ii 方差分析的基本思想方差分析的基本思想:就是将总的变差分解为构:就是将总的变差分解为构成总变差的各个部分。成总变差的各个部分。对对单因素实验,可以将总平方和(单因素实验,可以将总平方和(total sum of squa-res)做如下分解:)做如下分解:ainjainjainjiiiijiijainjiiij
16、ainjijxxxxxxxxxxxxxx111111221121122对于每个固定的对于每个固定的 xi,01111njiijaiiainjiiijxxxxxxxx因此,因此,)32(11122112aiainjiijiainjijxxxxnxx(23)式表示度量全部数据变差的总平方和,可)式表示度量全部数据变差的总平方和,可以分解为处理平均数与总平均数之间离差的平方以分解为处理平均数与总平均数之间离差的平方和,处理内部观察值与处理平均数之间离差的平和,处理内部观察值与处理平均数之间离差的平方和两部分。处理平均数与总平均数之间的离差,方和两部分。处理平均数与总平均数之间的离差,度量了处理之间的
17、差异;而处理内部观察值与处度量了处理之间的差异;而处理内部观察值与处理平均数之间的离差,度量了随机误差的大小。理平均数之间的离差,度量了随机误差的大小。用用SST表示表示总平方和总平方和,)42(112ainjijTxxSS用用SSA表示(表示(23)等号右边第一项,称为)等号右边第一项,称为处理平处理平方和方和(treatments sum of squares)或称为)或称为处处理间平方和理间平方和(sum of squares between treatments)。)。)52(12aiiAxxnSS 用用SSe表示(表示(23)等号右边第二项,称为)等号右边第二项,称为误误差平方和差平
18、方和(error sum of squares)或称为)或称为处理内平方和处理内平方和(sum of squares within treatments)。因此:)。因此:)62(eATSSSSSS自由度自由度可以做同样的分割:可以做同样的分割:SST具具an1自由度自由度dfTan1;A因素工有因素工有a 水平,因而水平,因而SSA有有a1自由度自由度dfAa1;SSe有有ana自由度,这自由度,这是因为每一处理均有是因为每一处理均有n1自由度,共有自由度,共有a个处个处理,因而理,因而SS e的自由度为的自由度为ana,dfeana。为了估计为了估计s s2,用,用SS e除以相应的自由度
19、除以相应的自由度 M S e称 为称 为 误 差 均 方误 差 均 方(e r r o r m e a n square)。)。用类似的方法,可以求出处理均方用类似的方法,可以求出处理均方MSA(treatments mean square))72(aanSSMSee)82(1aSSMSAA 用用MSA与与MS e比较,就可以反映出比较,就可以反映出a i的大的大小。若小。若MSA与与MS e相差不大,就可以认为各相差不大,就可以认为各a i与与0的差异不大,或者说各的差异不大,或者说各m i之间差异不大。之间差异不大。若若MSA与与MS e超出很多,则认为各超出很多,则认为各 m i之间差异
20、之间差异是显著的。为此,用是显著的。为此,用F单侧检验,具单侧检验,具dfA,dfe自自由度。由度。当当FFa时,则可以认为时,则可以认为MSA与与MSe差异不差异不大,产生的变差是由随机误差造成的;接受零大,产生的变差是由随机误差造成的;接受零假设,处理平均数之间差异不显著。当假设,处理平均数之间差异不显著。当FFa时,拒绝零假设,处理平均数间差异显著。时,拒绝零假设,处理平均数间差异显著。以上所述可以归纳成方差分析表(以上所述可以归纳成方差分析表(table of variance analysis),见表),见表24。)92(eASSMSF表表24 单因素固定效应模型方差分析表单因素固定
21、效应模型方差分析表 变差来源变差来源平方和平方和自由度自由度均均 方方F处理间处理间误差或处理内误差或处理内SSASSea1naaMSAMSeMSAMS e 总总 和和SSTna1其中的(其中的(x2n a)通常称为)通常称为校正项校正项(correc-tion),用),用C表示。表示。)122(2naxC)112(1)102(122121111222aiiaiiAainjainjijijTnaxxnxxnSSnaxxxxSS在实际计算时,通常将在实际计算时,通常将SST和和SSA写成下列形式:写成下列形式:误差平方和可由(误差平方和可由(213)式求出,)式求出,)132(ATeSSSSSS
22、 现在用以上各式计算例现在用以上各式计算例2.1。在方差分析中,。在方差分析中,为了简化计算同样可以用编码法。方差分析的为了简化计算同样可以用编码法。方差分析的编码,必须将全部数据均减去同一个共同的数。编码,必须将全部数据均减去同一个共同的数。在例在例2.1中,每一个中,每一个xij都减去都减去65,列成下表,先,列成下表,先计算校正项计算校正项C 96.129555722naxC再计算再计算32.14796.12928.2771122112CxnaxxSSainjijainjijT株号株号品品 系系123450.40.30.21.00.80.50.30.41.31.12.81.32.11.8
23、3.56.87.15.04.16.04.23.24.83.32.5总总 和和x ix 2ixi j1.52.251.933.09.003.411.5132.2529.4329.0841.0174.4618.0324.068.06571308.50277.28 58.1574.13132.14774.13196.129550.1308112ATeaiiASSSSSSCxnSS将以上结果列成方差分析表将以上结果列成方差分析表(见表见表25):表表25 不同小麦品系株高方差分析表不同小麦品系株高方差分析表 变变 差差 来来 源源平平 方方 和和自自 由由 度度均均 方方 F品品 系系 间间误误 差差
24、131.7415.5842032.720.7841.95*总总 和和147.3224*0.01 当分子自由度为当分子自由度为4,分母自由度为,分母自由度为20时,时,F4,20,0.052.87,F4,20,0.014.43,FF0.01。因此,不同小麦品。因此,不同小麦品系的株高差异极显著。习惯上用系的株高差异极显著。习惯上用“*”表示在表示在0.05水水平上差异显著,用平上差异显著,用“*”表示在表示在0.01水平上差异显著,水平上差异显著,常常称为差异常常称为差异“极显著极显著”(highly significant)。)。三、三、随机效应模型随机效应模型 在实验中,经常回遇到某个因素有
25、许多可能的在实验中,经常回遇到某个因素有许多可能的水平,若参加实验的水平,若参加实验的a个水平,是从该因素的水个水平,是从该因素的水平总体中随机选出的,那么这一因素称为随机平总体中随机选出的,那么这一因素称为随机因素。因素。其方差分析是通过随机选取的其方差分析是通过随机选取的a个水平对该因素个水平对该因素的水平总体做推断。的水平总体做推断。要求水平的总体是无暇总体,即使不是无限总要求水平的总体是无暇总体,即使不是无限总体,也应相当大,以至于可以认为是无限总体。体,也应相当大,以至于可以认为是无限总体。例例2.2中动物的中动物的“窝窝”是随机因素,每一窝是一是随机因素,每一窝是一个水平,这种动物
26、所有的窝构成一水平总体。个水平,这种动物所有的窝构成一水平总体。从该总体中随机选择从该总体中随机选择4个水平(个水平(4窝)做实验,窝)做实验,实验的目的是希望由这实验的目的是希望由这4窝动物去推断该种动物窝动物去推断该种动物所有不同的窝别之间幼仔出生重是否存在差异。所有不同的窝别之间幼仔出生重是否存在差异。固定效应模型中固定效应模型中 i0的假设在这里不再适的假设在这里不再适用。在随机模型中,对单个处理效应的检验是无用。在随机模型中,对单个处理效应的检验是无意义的,所要检验的是关于意义的,所要检验的是关于 i的变异性的假设,的变异性的假设,因而,因而,H0:s s 20HA:s s 2 0
27、如果接受如果接受H0:s s 20,则表示处理之间没,则表示处理之间没有差异;若拒绝有差异;若拒绝H0而接受而接受HA:s s 20,则表示,则表示处理之间存在差异,方差分析的做法仍然是将总处理之间存在差异,方差分析的做法仍然是将总平方和分解,平方和分解,TAeSSSSSS自由度做同样分解自由度做同样分解,eATdfdfdf 由此可得出由此可得出MSA和和MSe。然后用。然后用F 单侧检验单侧检验(具(具dfA,dfe 自由度),自由度),AeM SFM S 方差分析的程序与固定效应模型的方差分析方差分析的程序与固定效应模型的方差分析程序完全一样,但是结论不同。随机效应模型适程序完全一样,但是
28、结论不同。随机效应模型适用于全部水平的总体,而固定效应模型只适用于用于全部水平的总体,而固定效应模型只适用于所选水平的总体。下面计算例所选水平的总体。下面计算例 2.2,并对结果加,并对结果加以解释。将表以解释。将表22中的每一个数值都减去中的每一个数值都减去30,列,列成下表,成下表,4.7 3.2 2.9 2.9 3.3 4.0 6.7 1.4 3.8 1.4 2.2 4.3 1.6 2.3 3.3 2.0 总总 和和 c c i 5.80 0.10 15.10 2.00 c c 2i 33.64 0.01 228.01 4.00 c c2i j 49.98 33.49 69.03 32.
29、8611.20 265.66 185.36945.118575.5852.177575.5884.7466.265152.17784.736.18584.7162.111211222ATeaiiAainjijTSSSSSSCxnSSCxSSanxC将上述结果列成方差分析表:将上述结果列成方差分析表:表表26 动物出生重方差分析动物出生重方差分析 变变 差差 来来 源源平平 方方 和和自自 由由 度度均均 方方F 窝窝 别别 误误 差差58.575118.94531219.5259.9121.97总总 和和177.5215 查表得知,查表得知,F3,12,0.053.49,因,因FF0.05,所
30、以差异不显著。通过对所以差异不显著。通过对4窝动物出生重的调窝动物出生重的调查,可以推断不同窝别动物的出生重没有显著查,可以推断不同窝别动物的出生重没有显著差异。差异。四、四、多重比较(多重比较(multiple comparison)假设对一个固定效应模型经过方差分析之假设对一个固定效应模型经过方差分析之后,结论是拒绝后,结论是拒绝H0,处理之间存在差异。但这,处理之间存在差异。但这并不说在每对处理之间多存在差异。为了弄清并不说在每对处理之间多存在差异。为了弄清究竟在哪些对之间存在显著差异,哪些对之间究竟在哪些对之间存在显著差异,哪些对之间无显著差异,必须在个处理平均数之间一对一无显著差异,
31、必须在个处理平均数之间一对一对地做比较,这就是多重比较。多重比较的方对地做比较,这就是多重比较。多重比较的方法很多,这里只介绍法很多,这里只介绍LSD法和法和Duncan法。法。LSD称为称为最小显著差数最小显著差数(least significant difference),它的计算方法简述如下。),它的计算方法简述如下。对于任意两组数据的平均数,差数(对于任意两组数据的平均数,差数(x1x2)的差异显著性检验,可以用成组数据)的差异显著性检验,可以用成组数据 t 检验,检验,2121211121nnMSSxxSxxtexx当当n1n2时时 nMSSexx221 其中其中MSe为误差均方,为
32、误差均方,n为每一处理的观为每一处理的观察次数,于是察次数,于是 nMSxxte221具具anana a自由度,当自由度,当t tt t0.050.05时差异显著,当时差异显著,当 t tt t0.010.01时差异极显著。因此,当差异显著时时差异极显著。因此,当差异显著时 05.0212tnMSxxe并可得到,当并可得到,当)162(205.021nMStxxe时差异显著。时差异显著。t0.052MSen 称为称为最小显著差数最小显著差数,记为记为 LSD。每一对平均数的差与。每一对平均数的差与LSD比较,当比较,当x1x2 LSD时,差异显著;否则差异不显时,差异显著;否则差异不显著。著。
33、LSD是一种很有用的检验方法,计算起来很是一种很有用的检验方法,计算起来很方便,也容易比较。但是它有难以克服的缺点,方便,也容易比较。但是它有难以克服的缺点,即这种比较方法将会加大即这种比较方法将会加大型错误的概率。型错误的概率。为检验方法如下:为检验方法如下:首先,将需要比较的首先,将需要比较的a个平均个平均数依次排列好,使之数依次排列好,使之 axxx21并将每一对并将每一对 x 之间的差(范围)列成下表之间的差(范围)列成下表 a a 1 3 2 1 x1 xa x1 xa1 x1 x3 x1 x2 2 x2 xa x2 xa1 x2 x3 a 2 xa2 xa xa2 xa1 a 1 xa1 xa注:表中的注:表中的 x 均为均为 x