1、 设A与B两因素分别具有a与b个水平,共有ab个水平组合,每个水平组合有n次重复,则全试验共有abn个观测值。这类试验结果的数据模式如表28所示。表表28 两因素有重复观测值试验数据模式两因素有重复观测值试验数据模式 表28中.11111111.nijijllbniijljlanjijlilabnijlijlxxxxxxxx.11111111/./././nijijllbniijljlanjijlilabnijlijlxxnxxbnxxanxxabn 两因素有重复观测值试验资料的数学模型为:(32)其中,为总平均数;i为Ai的效应;j为Bj的效应;()ij为Ai与Bj的互作效应,()(1,2,
2、;1,2,;1,2,)ijlijijijlxia jb ln 分别为Ai、Bj、Ai Bj观测值总体平均数;且 1111110,0,()()()0,abnbabijijijijijijijjiijjiijij.)()()()(ijji,为随机误差,相互独立,且都服从N(0,2)。两因素有重复观测值试验结果方差分析平方和与自由度的剖分式为:(33)其中,SSAB,dfAB为A因素与B因素交互作用平方和与自由度。ijlTABA BeTABA BeSSSSSSSSSSdfdfdfdfdf 若用SSAB,dfAB表示A、B水平组合间的平方和与自由度,即处理间平方和与自由度,则因处理变异可剖分为A因素、
3、B因素及A、B交互作用变异三部分,于是SSAB、dfAB可剖分为:(34)各项平方和、自由度及均方的计算公式如下:ABABA BABABA BSSSSSSSSdfdfdfdf矫正数2./Cxabn B因素平方和与自由度 2,1TijlTSSxC dfabn2.1,1ABijABSSxC dfabn2.1,1AiASSxC dfabn2.1,1BjBSSxC dfban总平方和与自由度水平组合平方和与自由度A因素平方和与自由度(35)交互作用平方和与自由度 误差平方和与自由度,(1)(1)A BABABA BSSSSSSSSdfab,(1)eTABeSSSSSSdfab n相应均方为/,/,/,
4、/AAABBBA BA BA BeeeMSSSdfMSSSdfMSSSdfMSSSdf 【例6】为了研究饲料中钙磷含量对幼猪生长发育的影响,将钙(A)、磷(B)在饲料中的含量各分 4个水平进行交叉分组试验。选用品种、性别、日龄相同,初始体重基本一致的幼猪 48 头,随机分成16组,每组3头,用能量、蛋白质含量相同的饲料在不同钙磷用量搭配下各喂一组猪,经两月试验,幼猪增重结果(kg)列于表29,试分析钙磷对幼猪生长发育的影响。本例A因素钙的含量分4个水平,即a=4;B因素磷的含量分4个水平,即b=4;共有ab=44=16个水平组合;每个水平组合重复数n=3;全试验共有=443=48个观测值。表2
5、9 不同钙磷用量(%)的试验猪增重结果(kg)1、计算各项平方和与自由度 2.2/1326.9/(4 4 3)36680.4919Cxabn 22222(22.026.520.019.0)36680.491937662.8100 36680.4919982.3181TijlSSxC2222.11(72.983.557.5)36680.4919337515.396736680.4919834.9048ABijSSxCn2.222222222.11(324.9350.1332.4319.5)36680.49194 336725.0025 36680.491944.510611(327.2363.8
6、357.8278.1)36680.49194 337064.2275 36680.4919383.7356AiBjSSxCbnSSxCan834.904844.5106383.7356406.6586A BABABSSSSSSSS982.3181 834.9048 147.41331 4 4 3 1 471 4 4 1 15eTABTABSSSSSSdfabndfab 14 1314 13(1)(1)(4 1)(4 1)9(1)4 4(3 1)32ABA Bedfadfbdfabdfab n 2、列出方差分析表,进行F检验 表30 不同钙磷用量方差分析表 查临界F值:F0.05(3,32)=2
7、.90,F0.01(3,32)=4.47;F0.01(9,32)=3.02。因为,FAF0.05(3,32);FBF0.01(3,32);FABF0.01(9,32),表明钙、磷及其互作对幼猪的生长发育均有显著或极显著影响。因此,应进一步进行钙各水平平均数间、磷各水平平均数间、钙与磷水平组合平均数间的多重比较和进行简单效应的检验。3、多重比较 (1)钙含量(A)各水平平均数间的比较 表31 不同钙含量平均数比较表(q法)因为A因素各水平的重复数为bn,故A因素各水平的标准误(记为 )的计算公式为:此例,由dfe=32,秩次距k=2,3,4,从附表5中查出=0.05与=0.01的 临 界 q 值
8、,乘以 =0.6196,即得各LSR值,所得结果列于表32。.ixS./ixeSMSbn.4.6067/(4 3)0.6196ixS.ixS 表32 q值与LSR值表 检验结果标记在表33中。(2)磷含量(B)各水平平均数间的比较 表33 不同磷含量平均数比较表(q法)因B因素各水平的重复数为an,故B因素各水平的标准误(记为 )的计算公式为:在本例,由于A、B两因素水平数相等,即a=b=4,故 。因而,A、B两因素各水平比较的LSR值是一样的,所以用表32的LSR值去检验B因素各水平平均数间差数的显著性,结果见表33。.jxS./jxeSMSan.0.620jixxSS 以上所进行的两项多重
9、比较,实 际 上是A、B两因素主效应的检验。结果表明,钙的含量以占饲料量的0.8%(A2)增重效果最好;磷的含量以占饲料量的0.6%(B2)增重效果最好。若A、B因素交互作用不显著,则可从主效应检验中分别选出A、B因素的最优水平相组合,得到最优水平组合;若A、B因素交互作用显著,则应进行水平组合平均数间的多重比较,以 选出最优水平组合,同时可进行简单效应的检验。(3)各水平组合平均数间的比较 因为水平组合数通常较大(本例ab=44=16),采用 最小显著极差法进行各水平组合平均数的比较,计算较麻烦。为了简便起见,常采用T检验法。所谓T检验法,实 际 上 就是以q检测法中秩次距k最大时的LSR值
10、作为检验尺度检验各水平组合平均数间的差异显著性。因为水平组合的重复数为n,故水平组合的标准误(记为 )的计算公式为:此例 由 dfe=32,k=16 从附表5中查出 a=0.05、a=0.01的临界q值,乘以 =1.2392,得各LSR值,即 以上述LSR值去检验各水平组合平均数间的差数,结果列于表34。.ijxS./ijxeSMSn./4.6067/31.2392ijxeSMSn.ijxS.0.05(32,16)0.05(32,16)0.01(32,16)0.05(32,16)5.25 1.23926.516.17 1.23927.65ijijxxLSRqSLSRqS 表34 各水平组合平均
11、数比较表(T法)各水平组合平均数的多重比较结果表明,由于钙磷交互作用的存在,最优组合(即增重好的组合)并不是A2B2,而是A2B3,即钙含量0.8%和磷含量0.4%的组合增重效果最好。以上的比较结果告诉我们:当A、B因素的交互作用显著时,一般不必进行两个因素主效应的显著性检验(因为这时主效应的显著性在实用意义上并不重要),而直接进行各水平组合平均数的多重比较,选出最优水平组合。(4)简单效应的检验 简单效应实际上是特定水平组合平均数间的差数。检验尺度仍为(3)中的LSR0.05=6.51,LSR0.01=7.65。A因素各水平上B因素各水平平均数间的比较A1水平(1.0)A2水平水平(0.8)
12、A3水平水平(0.6)A4水平(0.4)B因素各水平上A因素各水平平均数间的比较 简单效应检验结果表明:当饲料中钙含量达1.0%时,磷含量各水平平均数间差异不显著;当饲料中钙含量为 0.8%时,磷含量以0.4%为宜(但与磷含量为 0.6%的差异不显著);当钙为0.6%时,磷以0.6%为好,且有小猪的生长发育对磷含量的变化反应比较敏感的迹象;当钙含量为 0.4%时,磷以0.8%为好(但与磷含量为0.6%、0.4%的差异不显著);就试验中所选择的钙磷含量水平来看,有一种随着饲料中钙含量的减少,要求磷含量增加的趋势。当磷含量0.8%时,钙以0.4%为好,但除显著高于钙为 1.0%的水平外,与 钙 为
13、0.6%、0.8%的差异不显著;当磷的水平为0.6%时,钙的水平也以0.6%为好,但除显著高于钙为1.0%的水平外,与钙为0.4%、0.8%的差异不显著;磷含量0.4%时,钙含量以0.8%为好;磷含量为0.2%时,钙水平达到1.0%效果较好,但与钙为0.8%的差异不显著。同样 也呈现一种随着磷含量降低,钙水平应提高的趋势。综观全试验,以A2B3(钙0.8%,磷0.4%)效果最好,钙磷含量均高或均低效果都差。二、系统分组资料的方差分析 在生物科学的研究中,实际问题是多种多样的,有些涉及多因素问题的研究或试验用交叉分组是困难的。例如,要比较a头公畜的种用价值,就必须考虑到与配的母畜。这是因为公畜的
14、种用价值是通过后代的表现来评定的,而后代的表现除受公畜的影响外还要受到母畜 的影响。但是在同期,公畜和母畜这两个因素的不同水平(不同公畜和不同母畜)是 不能交叉的,即同一头母畜不能同时与不同的公畜交配产生后代。合理的方法是,选择一些生产性能大体一致的同胎次母畜随机分配与 a头公畜交配,即公畜A1与一组母畜交配,公畜A2与另一组母畜交配。然后通过后代的性能表现来判断这些公畜的种用价值有无显著差异 。又如,为了比较利用同一设备生产同一种饲料的不同班组产品质量有无差异,我们可从每班组所生产的饲料中随机抽取若干样品,每个样品作若干次测定,根据测定结果判断不同班组的产品质量有无差异。在安排多因素试验方案
15、时,将A因素分为a 个水平,在A因素每个水平Ai下又将B因素分成b个水平,再 在 B 因素每个水平 Bij下将C因素分c个水平,这样得到各因素水平组合的方式称为系统分组(hierarchical classification)或称 多层分组、套设计、窝设计。在系统分组中,首先划分水平的因素(上述的不同公畜、不同班组)叫 一级因素 (或 一 级样本),其次划分水平的因素(如上述的母畜、抽取的样品)叫二级因素(二级样本,次级样本 ),类此有三级因素。在系统分组中,次级因素的各水平会套在一级因素的每个水平下,它们之间是从属关系而不是平等关系,分析侧重于一级因素。由系统分组方式安排的多因素试验而得到的
16、资料称为系统分组资料。根据次级样本含量是否相等,系统分组资料分为次级样本含量相等与不等两种。最简单的系统分组资料是二因素系统分组资料。如果A因素有 a 个水平;A因素每个水平 Ai下,B因素分b个水平;B因素每个水平Bij下有n个观测值,则共有abn个观测值,其数据模式如表35所示。表35 二因素系统分组资料数据模式 表35中,数学模型为 (36).1nijijllxx./ijijxxn.11bniijljlxx./iixxbn.111abnijlijlxx./xxabn(1,2,;1,2,;1,2,)ijliijijlxia jb ln 式中为总体平均数,ai为Ai的效应,ij为Ai内Bij
17、的效应 、,分别为Ai、Bij观测值总体平均数。为随机误差,相互独立,且都服从N(0,2)。表6-35数据的总变异可分解为A因素各水平(Ai)间的变异(一级样本间的变异),A因素各水平(Ai)内B因素各水平(Bij)间的变异(一级样本内二级样本间的变异)和试验误差(B因素各水平内观测值间的变异)。对两因素系统分组资料进行方差分析,平方和与自由度的剖分式为:,;iiijiji iijijl SST=SSA+SSB(A)+SSe dfT=dfA+dfB(A)+dfe (37)各项平方和与自由度计算公式如下:2.222.111111/()1abnabnTijlijlijlijlTCxabnSSxxx
18、Cdfabn2221().11111111()()(1)abnabnabeC BijlijijlijnijlijlijeC BSSSSxxxxdfdfab n一级因素平方和及其自由度一级因素内二级平方和及其自由度误差(二级因素内三级平方和及其自由度221.11()1naAiibniiASSbnxxxCdfa22211().11111()()(1)ababaB AijiijinbnijijiB ASSnxxxxdfa b各项均方如下:一级因素的均方 一级因素内二级因素的均方 误差(二级因素内三级因素)均方 F检验时F值的计算:当检验一级因素时,用 作分母,即:当检验一级因素内二级因素时,用 作分
19、母,即:/AAAMSSSdf()()()/B AB AB AMSSSdf()/C BeeMSSSdf()B AMS()/AB AFMSMSeMS()/B AeFMSMS 实际上,计算F值时分母项的选择是由有关因素的效应是固定还是随机所决定的(即是由数学模型决定的),有关这方面的内容将在 第四节介绍。(一)次级样本含量相等的系统分组资料的方差分析 【例7】为测定3种不同来源的鱼粉的蛋白质消化率,在不含蛋白质的饲料里按一定比例分别加入不同的鱼粉A1,A2,A3,配制成饲料,各喂给3头试验动物(B)。收集排泄物、风干、粉碎、混和均匀。分别从每头动物的排泄物中各取两份样品作化学分析。测定结果(xijl
20、)列于表36,试 分 析不同来源鱼粉的蛋白质消化率是否有显著差异。表36 蛋白质的消化率 这是一个二因素系统分组资料,A因素的水平数a=3,Ai内B因素的水平数b=3,Bij内重复测定次数n=2,共有abn=332=18个观测值,方差分析如下。1、计算各项平方和与自由度矫正数 总平方和及其自由度 22./1509.1/18126521.2672Cxabn22222(82.582.479.580.3)126521.2672126653.6100 126521.2672 132.34281 3 3 2 1 17TijlTSSxCdfabn 鱼粉间平方和及其自由度鱼粉内个体间的平方和及其自由度 22
21、22.11(506.4518.9483.8)126521.26723 2126626.7683 126521.2672105.501113 12AiASSxCbndfa 222222().222()111(164.9173.6160.5159.8)21(506.4518.9483.8)126652.2250 126626.7683 25.45673 2(1)3(3 1)6B AijiB ASSxxnbndfa b 误差(个体内分析样品间)平方和及其自由度 2、列出方差分析表,进行F检验 表37 不同来源鱼粉蛋白质消化率方差分析表 22().()1126653.6100 126652.2250
22、1.3850(1)3 3(2 1)9eC BijlijeC BSSSSxxndfdfab n 查临界F值:F0.01(2,6)=10.92,F0.01(6,9)=5.80,因为鱼粉间的FF0.01(2,6),鱼粉内个体间的FF0.01(6,9),表明不同来源的鱼粉蛋白质消化率差异极显著,即3种鱼粉的质量差异极显著;喂同一鱼粉的不同个体对鱼粉的消化利用能力差异也极显著。3、三种鱼粉平均消化率的多重比较(SSR法)因为对一级因素(鱼粉)进行F检验时是以鱼粉内个体间均方作为分母,鱼粉的重复数为bn,所以鱼粉的标准误为:以dfB(A)=6,查附表6得k=2,3时SSR0.05和SSR0.01的值与 相
23、乘求出相应的LSR0.05和LSR0.01的值,得:k=2,LSR0.05=2.91 LSR0.01=4.41k=3,LSR0.05=3.01 LSR0.01=4.63()/4.2428/60.8409xB ASMSbnxS 表38 三种鱼粉蛋白质平均消化率比较表(SSR法)多重比较结果表明:鱼粉A2的消化率极显著高于鱼粉A3;鱼粉A1的消化率显著高于鱼粉A3;鱼粉A1、A2的消化率差异不显著。对于鱼粉内个体间的差异问题,由于不是我们研究的重点,故可以不进行多重比较。若要比较时,标准误 应由 计算,SSR值或q值应以自由度dfe=9去查。xS/eMSn(二)次级样本含量不等的系统分组资料的方差
24、分析 【例8】某品种3头公猪和8头母猪所生仔猪的35日龄断奶重资料如表39所示,试就这些数据分析 不同公猪和 不同母猪对仔猪断奶重的影响是否有显著差异。表39 3头公猪和8头母猪所产仔猪断奶重 表中,a为公猪数;bi为第i头公猪与配母猪数;ny为第i头公猪与配第j头母猪所产的仔猪数;为第i头公猪仔猪数;为母猪总数;为仔猪总数。方差分析如下:1、计算各项平方和与自由度 1ibiijjdnn1aiib11ibaijijNn 矫正数 总平方和及其自由度 22./583.8/635409.8800CxN221111112222(.)(10.58.311.811.0)5409.88005559.3400
25、5409.8800149.4600163 162ijijiinnbbaaTijlijlijlijlTSSxxxCdfN 公猪间的平方和及其自由度 公猪内母猪间的平方和及其自由度 22.11222()/(139.2/16234.0/24210.6/23)5409.880011.023513 12aaAiiiiiiASSdn xxxdnCdfa 222().111112222222()11()/(82.3/956.9/790.1/882.2/8)(139.2/16234.0/24210.6/23)5502.38205420.903581.4785(1)835iibbaaaB Aijijiijiji
26、iijijiaaB AiiiiSSnxxxnxdndfbba母猪内仔猪间(误差)平方和及其自由度或 或 222().1111111122222222()/(10.58.311.811.0)(82.3/9 56.9/7 90.1/882.2/8)5559.3400 5502.3820 56.9580ijijiiinnbbbaaaC BeijlijijlijijijlijlijSSSSxxxxn()()149.4600 11.023581.478556.9580C BeTAB ASSSSSSSSSS()111(1)63 855ibaaC BeijiijidfdfnNb()()622555C BeT
27、AB Adfdfdfdfdf 2、列出方差分析表,进行F检验表40 3头公猪和8头母猪所生仔猪断奶重的方差分析 因为公猪间的FA=0.341,即P0.05,所以公猪对仔猪的断奶重影响差异不显著,可以认为它们的种用价值是一致的;因为公猪内母猪间的FB(A)=15.74F0.01(5,55)=3.37,即P0.01,所以母猪对仔猪的断奶重影响差异极显著,即同一公猪内不同母猪的仔猪断奶重有极显著的差异。3、多重比较 如果需对一级因素(公猪)各水平以及一级因素内二级因素(母猪)各水平均数进行多重比较(SSR法或q法),当对公猪平均数进行多重比较时,标准误为:()0/xB ASMSdn 式中的dn0为每
28、头公猪的平均仔猪数,用公式(41)(见第四节)计算;当对母猪平均数进行多重比较时,标准误为:式中n0为每头母猪的平均仔猪数,用公式(39)(见第四节)计算。实际上对于此类资料,同一公猪内母猪平均数的多重比较一般可不进行。()0/xC BSMSn第四节 数据转换 前面介绍的几种试验资料的方差分析法,尽管其数学模型的具体表达式有所不同,但以下三点却是共同的。1.效应的可加性:我们据以进行方差分析的模型均为线性可加模型。这个模型明确提出了处理效应与误差效应应该是“可加的”,正是由于这一“可加性”,才有了样本平方和的“可加性”,亦即有了试验观测值总平方和的“可剖分”性。如果试验资料不具备这一性质,那么
29、变量的总变异依据变异原因的剖分将失去根据,方差分析不能正确进行。2.分布的正态性:指所有试验误差是相互独立的,且都服从正态分布N(0,2)。只有在这样的条件下才能进行F检验。3.方差的同质性:即各个处理观测值总体方差2应是相等的。只有这样,才有理由以各个处理均方的合并均方作为检验各处理差异显著性的共同的误差均方。上述三点是进行方差分析的基本前提或基本假定。如果在分差分析前发现有某些异常的观测值、处理或单位组,只要不属于研究对象本身的原因,在不影响分析正确性的条件下应加以删除。但是,有些资料就其性质来说就不符合方差分析的基本假定。其中最常见的一种情况是处理平均数和均方有一定关系(如二项分布资料,
30、平均数 ,均方 ;泊松分布资料的平均数与方差相等)。对这类np2(1)npp资料不能直接进行方差分析,而因考虑采用非参数方法分析或进行适当数据转换(transformation of data)后再作方差分析。这里我们介绍几种常用的数据转换方法。1、平方根转换(square root transformation)此法适用于各组均方与其平均数之间有某种比例关系的资料,尤其适用于总体呈泊松分布的资料。转换的方法是求出原数据的平方根 。若原观测值中有为0的数或多数观测值小于10,则把原数据变换成 对于稳定均方,使方差符合同质性的作用更加明显。变换也有利于满足效应可加性和正态性的要求。x1x 2、对
31、数转换(logarithmic transformation)如果各组数据的标准差或全距与其平均数大体成比例,或者效应为相乘性或非相加性,则将原数据变换为对数(lgx或lnx)后,可以使方差变成比较一致而且使效应由相乘性变成相加性。如果原数据包括有0,可以采用lg(x+1)变换的方法。一般而言,对数转换对于削弱大变数的作用要比平方根转换更强。例如变数1、10、100作平方根转换是1、3.16、10,作对数转换则是0、1、2。3、反正弦转换(arcsine transformation)反正弦转换也称角度转换。此法 适用于 如发病率、感染率、病死率、受胎率等服从 二项分布 的资料。转换的方法是求
32、出每个原数据(用百分数或小数表示)的反正弦 ,转换后的数值是以度为单位的角度。二项分布的特点是其方差与平均数有着函数关系。这种关系表现在,当平均数接近极端值(即接 近 于 0 和 100%)时,方差趋向于较小;而平均数处于中间数值附近(50%左 右)时,方差趋向于较大。把数据变成角度以1sinp后,接近于0和100%的数值变异程度变大,因此使方差较为增大,这 样 有利于满足方差同质性的要求。一 般,若 资 料 中 的 百 分数介于30%70%之间时,因资料的分布接近于正态分布,数据变换与否对分析的影响不大。应当注意的是,在对转换后的数据进行方差分析时,若经检验差异显著,则进行平均数的多重比较应
33、用转换后的数据进行计算。但在解释分析最终结果时,应还原为原来的数值。【例9】表47为甲、乙、丙三个地区乳牛隐性乳房炎阳性率资料,试对资料进行方差分析。表47 三地区乳牛隐性乳房炎阳性率(%)这是一个服从二项分布的阳性率资料,且有低于30%和高于70%的,应先对阳性率资料作反正弦转换,转换结果见表48。表48 表47资料的反正弦转换值 表48资料的方差分析,见表49。表49 表48资料的方差分析 F检验结果表明,各地区间乳牛隐性乳房炎阳性率差异极显著。下面进行多重比较。表50 表48资料平均数多重比较表(SSR法)因 ,SSR值LSR值见表51 表51 SSR值与LSR值 87.7500/73.
34、54,18xeSdf 对结论作解释时,应将各组平均数还原为阳性率。如表50中平均数53.27根据P=sin2x,还原为64.2%;均数32.58还原为29.0%;均数28.56还原为22.8%。但从变换过的数据所算出的方差或标准差不宜再换回原来的数据。检验结果表明,甲地区乳牛隐性乳房炎阳性率极显著高于丙地区和乙地区,乙地区与丙地区阳性率差异不显著。以上介绍了三种数据转换常用方法。对于一般非连续性的数据,最好在方差分析前先检查各处理平均数与相应处理内均方是否存在相关性和各处理均方间的变异是否较大。如果存在相关性,或者变异较大,则应考虑对数据作出变换。有时要确定适当的转换方法并不容易,可事先在试验中选取几个其平均数为大、中、小的处理试验作转换。哪种方法能使处理平均数与其均方的相关性最小,哪种方法就是最合适的转换方法。另外,还有一些别的转换方法可以考虑。例如当各处理标准差与其平均数的平方成比例时,可进行倒数转换;对于一些分布明显偏态的二项分布资料,有人进行 的转换,可使x呈良好的正态分布。11/2(sin)xp