1、第五章第五章 方差分析方差分析第一节第一节 方差分析的基本原理方差分析的基本原理 k(k3)个样本平均数的假设测验方法,即方个样本平均数的假设测验方法,即方差分析差分析(analysis of variance)方差分析就是将总变异剖分为各个变异来方差分析就是将总变异剖分为各个变异来源的相应部分,从而发现各变异原因在总源的相应部分,从而发现各变异原因在总变异中相对重要程度的一种统计分析方法。变异中相对重要程度的一种统计分析方法。一、自由度和平方和的分解一、自由度和平方和的分解 设有设有k组数据,每组皆具组数据,每组皆具n个观察值,则该个观察值,则该资料共有资料共有nk个观察值,其数据分组如表个
2、观察值,其数据分组如表 总变异是总变异是nk个观察值的变异,故其自由个观察值的变异,故其自由度度 ,而其平方和,而其平方和 则为:则为:1 nkTSSnknkijijTCyyySS1122)(nkTnkyC22)(kiikinjiijkinjijTyynyyyySS12112112)()()(总平方和总平方和=组内组内(误差误差)平方和平方和+处理平方和处理平方和 组间变异由组间变异由k个个 的变异引起,故其自由度的变异引起,故其自由度 ,组间平方和为组间平方和为 :TSSeSStSSiy1 ktSSkkiitCnTyynSS1122)(组内变异为各组内观察值与组平均数的变组内变异为各组内观察
3、值与组平均数的变异,故每组具有自由度异,故每组具有自由度 和平方和和平方和 ;资料共有资料共有 组,故组内自由度组,故组内自由度 组内平方和组内平方和 为:为:1 nniijyy12)(k)1(nkeSS kntTiijeSSSSyySS112)(表中类型资料的自由度分解式为:表中类型资料的自由度分解式为:总自由度总自由度DFT=组间自由度组间自由度DFt+组内自由度组内自由度DFe (组内均方也称误差均方)组内均方也称误差均方)1)(1)(1)(nkknk1)()(组内均方2)(组间的均方1)(总的均方nkyysMSkyynsMSnkyysMSiijeeittijTT222222 例例5.1
4、 以以A、B、C、D 4种药剂处理水稻种药剂处理水稻种子,其中种子,其中A为对照,每处理各得为对照,每处理各得4个苗高个苗高观察值观察值(cm),其结果如表,其结果如表5.2,试分解其自,试分解其自由度和平方和。由度和平方和。表表5.2 水稻不同药剂处理的苗高水稻不同药剂处理的苗高(cm)总自由度的剖分:总自由度的剖分:总变异自由度总变异自由度DFT=(nk-1)=(4 4)-1=15 药剂间自由度药剂间自由度DFt=(k-1)=4-1=3 药剂内自由度药剂内自由度DFe=k(n-1)=4(4-1)=12 总平方和的剖分:总平方和的剖分:7056443362nkTC2602322118222C
5、CySSijT2 或 504/41165692722222CCnTyynSSkiit)()(1250421)(2921)(1421)(2321)(1842222tSS98504602tTknnkkiijiijeSSSSnTyyySS1111222)(40.13602/152TTsMS168.00504/32ttsMS8.1798/122eesMS 以上药剂内均方以上药剂内均方 系系4种药剂内变异的合并均方值,它是表种药剂内变异的合并均方值,它是表5.2资料的试验误差估计;药剂间均方资料的试验误差估计;药剂间均方 则是不同药剂对苗高效应的变异。则是不同药剂对苗高效应的变异。8.172es168.
6、002ts二、二、F分布与分布与F测验测验2221)(ssF21,若所得若所得FF0.05或或F0.01,则,则H0发生的概率小发生的概率小于等于于等于0.05或或0.01,应该在,应该在=0.05或 =0.01水平上否定水平上否定H0,接受,接受HA;若所得;若所得FF0.05或或FF0.01,则则H0发生的概率大于发生的概率大于0.05或或0.01,应接受,应接受H0。F分布曲线(随分布曲线(随 和和 的不同而不同)的不同而不同)1 2 0.51.01.52.02.53.03.54.04.55.05.56.00.00.20.40.60.81.0Ff(F)在方差分析的体系中,在方差分析的体系
7、中,F测验可用于检测某测验可用于检测某项变异因素的效应或方差是否真实存在。项变异因素的效应或方差是否真实存在。所以在计算所以在计算F值时,总是将要测验的那一项值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异变异因素的均方作分子,而以另一项变异(例如试验误差项例如试验误差项)的均方作分母。的均方作分母。如果作分子的均方小于作分母的均方,则如果作分子的均方小于作分母的均方,则F1;此时不必查;此时不必查F表即可确定表即可确定P0.05,应,应接受接受H0。F测验需具备:测验需具备:(1)变数变数y遵循正态分布遵循正态分布N(,),(2)和和 彼此独立两个条件。彼此独立两个条件。221
8、s22s 例例5.2 测定东方红测定东方红3号小麦的蛋白质含量号小麦的蛋白质含量10次,得均方次,得均方 =1.621;测定农大;测定农大139小麦小麦的蛋白质含量的蛋白质含量5次,得均方次,得均方 =0.135。试测。试测验东方红验东方红3号小麦蛋白质含量的变异是否比号小麦蛋白质含量的变异是否比农大农大139为大。为大。21s22s 假设假设H0:东方红小麦总体蛋白质含量的变:东方红小麦总体蛋白质含量的变异和农大异和农大139一样,即一样,即H0:=,对,对 HA:。显著水平取。显著水平取 =0.05,=9,=4时,时,F0.05=6.00。测验计算测验计算:此此FF0.05,即,即P0.0
9、5。推断:否定推断:否定H0,接受,接受HA,即东方红,即东方红3号小麦号小麦蛋白质含量的变异大于农大蛋白质含量的变异大于农大139。212221221212.010.1351.621F表表5.3 水稻药剂处理苗高方差分析表水稻药剂处理苗高方差分析表第二节第二节 多重比较多重比较 处理平均数间的比较处理平均数间的比较 一个试验中一个试验中k个处理平均数间可能有个处理平均数间可能有k(k-1)/2个比较,因而这种比较是复式比较亦称为个比较,因而这种比较是复式比较亦称为多重比较(多重比较(multiple comparisons)。)。这种在这种在F测验基础上再做的平均数间多重比测验基础上再做的平
10、均数间多重比较称为较称为Fisher氏保护下的多重比较氏保护下的多重比较(Fishers protected multiple comparisons)。一、最小显著差数法一、最小显著差数法 最小显著差数法最小显著差数法(least significant difference,简称简称LSD法法),LSD法实质上是第四章的法实质上是第四章的t测测验。验。程序是:程序是:处理间的处理间的F测验为显著测验为显著 计算出显著水平为计算出显著水平为 的最小显著差数的最小显著差数 任何两个平均数的差数任何两个平均数的差数(),如其绝对,如其绝对值值 ,即为在,即为在 水平上差异显著。水平上差异显著。反
11、之,则为在反之,则为在 水平上差异不显著。水平上差异不显著。LSDjiyy LSD 已知:已知:若若|t|,即为在即为在 水平上显著。水平上显著。最小显著差数为:最小显著差数为:当两样本的容量当两样本的容量n相等时,相等时,)jikjisyytjiyyji;,1,2,(tjiyy jiyystLSDnsseyyji22 在方差分析中,上式的在方差分析中,上式的 有了更精确的数有了更精确的数值值MSe。为:为:例例5.4 试以试以LSD法测验表法测验表5.2资料各种药资料各种药剂处理的苗高平均数间的差异显著性。剂处理的苗高平均数间的差异显著性。2esjiyysnMSseyyji2 由由(例例5.
12、3)计算得计算得F=20.56为显著,为显著,MSe=8.17,DFe=12,故故 由附表由附表4,12时,时,t0.05=2.179,t0.01=3.055 LSD0.05=2.1792.02=4.40(cm);LSD0.01=3.0552.02=6.17(cm)将各种药剂处理的苗高与对照苗高相比,将各种药剂处理的苗高与对照苗高相比,差数大于差数大于4.40cm为差异显著;大于为差异显著;大于6.17cm为差异极显著。为差异极显著。)2.02(48.172cmjiyys二、二、q 法法 基于极差的抽样分布理论基于极差的抽样分布理论Student-Newman-Keul提出了提出了q测验或称复
13、极差测验,有时又测验或称复极差测验,有时又称称SNK测验或测验或NK测验。测验。q测验方法是将一组测验方法是将一组k个平均数由大到小排个平均数由大到小排列后,根据所比较的两个处理平均数的差列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显数是几个平均数间的极差分别确定最小显著极差值的。著极差值的。其尺度值构成为:其尺度值构成为:SEqLSRpdf,;式中式中2pk,p是所有比较的平均数按大到是所有比较的平均数按大到小顺序排列所计算出的两极差范围内所包小顺序排列所计算出的两极差范围内所包含的平均数个数含的平均数个数(称为秩次距称为秩次距),SE为平均数的标准误,为平均数的标
14、准误,例例5.5 试对表试对表5.2资料的各平均数作资料的各平均数作q测验。测验。nMSSEe/由由5.1资料得:资料得:查附表查附表7 q值表,当值表,当DF=12时,时,p=2,3,4 的值,并由的值,并由(511)计算出尺度值计算出尺度值 ,列于,列于表表5.4。1.431.42928.17/4nMSSEe/qLSR 由表由表6.2可知,可知,=29cm,=23cm,=18cm,=14cm。由此可得到。由此可得到 DyByAyCy三、新复极差法三、新复极差法 新复极差法,又称最短显著极差法新复极差法,又称最短显著极差法(shortest significant ranges,SSR)在不
15、同秩次距在不同秩次距p下,平均数间比较的显著水下,平均数间比较的显著水平按两两比较是平按两两比较是 ,但按,但按p个秩次距则为保个秩次距则为保护水平护水平 。pSSRSELSR,1p)(11 例例5.6 试对表试对表5.2资料的各平均数作新复极资料的各平均数作新复极差测验。差测验。查附表查附表8,得,得 值,由值,由(513)算得在算得在p=2,3,4时的时的 值值(表表5.5),即为测验不同,即为测验不同p时的时的平均数间极差显著性的尺度值。平均数间极差显著性的尺度值。SSRLSR表表5.5 表表5.2资料资料LSR值的计算值的计算(新复极差测验新复极差测验)结论:表结论:表5.2资料的资料
16、的4个处理的苗高,除处理个处理的苗高,除处理A与与C差异不显著外,其余处理间均达显著差异不显著外,其余处理间均达显著差异,本例结果与上面介绍的差异,本例结果与上面介绍的q测验法相同,测验法相同,但但q法的法的 要比新复极差法的要比新复极差法的 大。大。LSRLSR四、多重比较结果的表示方法四、多重比较结果的表示方法 (一一)列梯形表法列梯形表法(二二)划线法划线法 0.01水平下平均数差异显著性结果水平下平均数差异显著性结果(q法法)(三三)标记字母法标记字母法 首先将全部平均数从大到小依次排列。首先将全部平均数从大到小依次排列。然后在最大的平均数上标上字母然后在最大的平均数上标上字母a;并将
17、该平均数与以下各平均数相比,凡相差不显著的,都并将该平均数与以下各平均数相比,凡相差不显著的,都标上字母标上字母a,直至某一个与之相差显著的平均数则标以字母直至某一个与之相差显著的平均数则标以字母b(向下过向下过程程),再以该标有再以该标有b的平均数为标准,与上方各个比它大的平均的平均数为标准,与上方各个比它大的平均数比,凡不显著的也一律标以字母数比,凡不显著的也一律标以字母b(向上过程向上过程);再以该标有再以该标有b的最大平均数为标准,与以下各未标记的平的最大平均数为标准,与以下各未标记的平均数比,凡不显著的继续标以字母均数比,凡不显著的继续标以字母b,直至某一个与之相差显著的平均数则标以
18、字母,直至某一个与之相差显著的平均数则标以字母c。如此重复进行下去,直至最小的一个平均数有了标记字母如此重复进行下去,直至最小的一个平均数有了标记字母且与以上平均数进行了比较为止。且与以上平均数进行了比较为止。凡有一个相同标记字母的即为差异不显著,凡有一个相同标记字母的即为差异不显著,凡没有相同标记字母的即为差异显著。凡没有相同标记字母的即为差异显著。第三节第三节 单向分组资料的方差分析单向分组资料的方差分析 单向分组资料是指观察值仅按一个方向分组的资单向分组资料是指观察值仅按一个方向分组的资料,料,所用的试验设计为完全随机试验设计。所用的试验设计为完全随机试验设计。一、组内观察值数目相等的单
19、向分组一、组内观察值数目相等的单向分组资料的方差分析资料的方差分析 表表5.10 组内观察值数目相等的单向分组资料的方组内观察值数目相等的单向分组资料的方差分析差分析 例例5.10 作一水稻施肥的盆栽试验,设作一水稻施肥的盆栽试验,设5个个处理,处理,A和和B系分别施用两种不同工艺流程系分别施用两种不同工艺流程的氨水,的氨水,C施碳酸氢铵,施碳酸氢铵,D施尿素,施尿素,E不施不施氮肥。每处理氮肥。每处理4盆盆(施肥处理的施肥量每盆皆施肥处理的施肥量每盆皆为折合纯氮为折合纯氮1.2克克),共,共54=20盆,随机放盆,随机放置于同一网室中,其稻谷产量置于同一网室中,其稻谷产量(克克/盆盆)列于列
20、于表表6.11,试测验各处理平均数的差异显著性。,试测验各处理平均数的差异显著性。表表5.11 水稻施肥盆栽试验的产量结果水稻施肥盆栽试验的产量结果 分析步骤:分析步骤:(1)自由度和平方和的分解自由度和平方和的分解 总变异自由度总变异自由度DFT=nk-1=54-1=19 处理间自由度处理间自由度DFt=k-1=5-1=4 误差误差(处理内处理内)自由度自由度DFe=k(n-1)=5(4-1)=15 矫正数矫正数 13833.84)/(55262nkTC2402.22130242222CCySST301.248098108222CCnTSSit/)(2101.0301.2402.2eSS(2
21、)F测验测验 表表5.12 表表5.11资料的方差分析资料的方差分析(3)各处理平均数的比较各处理平均数的比较 表表5.13 多重比较时的多重比较时的 值计算值计算 LSR表表5.14 施肥效果的显著性施肥效果的显著性(SSR测验测验)推断:根据表推断:根据表5.14多重比较结果可知,施用多重比较结果可知,施用氮肥氮肥(A、B、C和和D)与不施氮肥有显著差异,与不施氮肥有显著差异,且施用尿素、碳酸氢铵、氨水且施用尿素、碳酸氢铵、氨水1与不施氮肥与不施氮肥均有极显著差异;尿素与碳酸氢铵、碳酸均有极显著差异;尿素与碳酸氢铵、碳酸氢铵与氨水氢铵与氨水1、氨水、氨水1与氨水与氨水2处理间均无显处理间均
22、无显著差异。著差异。二、组内观察值数目不等的单向分组资二、组内观察值数目不等的单向分组资料的方差分析料的方差分析 若若k个处理中的观察值数目不等,分别为个处理中的观察值数目不等,分别为n1,n2,nk,在方差分析时有关公式因,在方差分析时有关公式因ni不不相同而需作相应改变。主要区别点如下:相同而需作相应改变。主要区别点如下:(1)自由度和平方和的分解自由度和平方和的分解knDFkDFnDFietiT 误差自由度1处理间自由度1总变异自由度(2)多重比较多重比较 平均数的标准误为:平均数的标准误为:kinjtTiijekiiiiitTiSSSSyySSCnTyynSSCyyySS1121222
23、2)()()()11(2)(21BAeBeAennMSnMSnMSSE 上式的上式的 和和 系两个相比较的平均数的样系两个相比较的平均数的样本容量。但亦可先算得各本容量。但亦可先算得各 的平均数的平均数 。AnBnin0n1)()(knnnniii2200nMSSEe0nMSseyyji2 例例5.11 某病虫测报站,调查四种不同类型某病虫测报站,调查四种不同类型的水稻田的水稻田28块,每块田所得稻纵卷叶螟的块,每块田所得稻纵卷叶螟的百丛虫口密度列于表百丛虫口密度列于表5.15,试问不同类型稻,试问不同类型稻田的虫口密度有否显著差异?田的虫口密度有否显著差异?该资料该资料 =7+6+8+7=2
24、8 故故 总变异自由度总变异自由度DFT=ni-1=28-1=27 稻田类型间自由度稻田类型间自由度DFt=k-1=4-1=3 误差自由度误差自由度DFe=ni-k=28-4=24 求得:求得:in3818.8928(327)/2C226.113818.894045.00121312CSST22296.1377288067371022222CSSt/129.98tTeSSSSSS表表5.16 表表5.15资料的方差分析资料的方差分析 表表5.16所得所得F=5.91F0.01,因而应否定,因而应否定H0:,即,即4块麦田的虫口密度间块麦田的虫口密度间有极显著差异。有极显著差异。4321 F测验
25、显著,再作平均数间的比较。需进一测验显著,再作平均数间的比较。需进一步计算步计算n0,并求得,并求得SE(LSR测验)或测验)或 (LSD测验测验)。如在此可有:。如在此可有:jiyys10.46228)786(728222220n0.7365.42/10 SE1.041105.422jiyys第四节第四节 两向分组资料的方差分析两向分组资料的方差分析 按完全随机设计的两因素试验数据,都是两向分按完全随机设计的两因素试验数据,都是两向分组资料,其方差分析按各组合内有无重复观察值组资料,其方差分析按各组合内有无重复观察值分为两种不同情况分为两种不同情况.一、组合内只有单个观察值的两向分组资一、组
26、合内只有单个观察值的两向分组资料的方差分析料的方差分析 设有设有A和和B两个因素,两个因素,A因素有因素有a个水平,个水平,B因素有因素有b个水平,每一处理组合仅有个水平,每一处理组合仅有1个观察值,则全试个观察值,则全试验共有验共有ab个观察值,其资料类型如表个观察值,其资料类型如表5.23。表表5.23 完全随机设计的二因素试验每处理组合只有一个观察值的数据结构完全随机设计的二因素试验每处理组合只有一个观察值的数据结构(i=1,2,a;j=1,2,b)表表5.24 表表5.23类型资料自由度和平方和的分类型资料自由度和平方和的分解及方差分析解及方差分析 例例5.13 采用采用5种生长素处理
27、豌豆,未处理种生长素处理豌豆,未处理为对照,待种子发芽后,分别每盆中移植为对照,待种子发芽后,分别每盆中移植4株,每组为株,每组为6盆,每盆一个处理,试验共有盆,每盆一个处理,试验共有4组组24盆,并按组排于温室中,使同组各盆盆,并按组排于温室中,使同组各盆的环境条件一致。当各盆见第一朵花时记的环境条件一致。当各盆见第一朵花时记录录4株豌豆的总节间数,结果列于表株豌豆的总节间数,结果列于表5.25,试作方差分析。试作方差分析。表表5.25 生长素处理豌豆的试验结果生长素处理豌豆的试验结果(1)自由度和平方和的分解自由度和平方和的分解 根据表根据表6.24将各项自由度直接填于表将各项自由度直接填
28、于表6.26。以下分解平方和,求得:以下分解平方和,求得:94878.384610592C114.62656560222CCySST265.87)/4250263(243222.CCbTSSiA25.45)/6375377382(3752222CCaTSSjB2.43.305.4565.87114.62BATeSSSSSSSS 表表5.26 表表5.25资料的方差分析资料的方差分析 (2)F测验测验 推断:组间环境条件无显著差异,不同生推断:组间环境条件无显著差异,不同生长素处理间有显著差异。长素处理间有显著差异。(3)处理间比较处理间比较 此例有预先指定的对照,故用此例有预先指定的对照,故用
29、LSD法。求法。求得:得:查得查得=15时,时,t0.05=2.131,t0.01=2.947,故:,故:LSD0.05=1.2022.131=2.56(节间节间),LSD0.01=1.2022.947=3.54(节间节间)1.20242.892jiyys 以以LSD测验各生长素处理与对照的差异显测验各生长素处理与对照的差异显著性于表著性于表5.27。结果赤霉素的效应最强,吲。结果赤霉素的效应最强,吲哚乙酸次之,其余处理皆与对照无显著差哚乙酸次之,其余处理皆与对照无显著差异。异。表表5.27 豌豆生长素处理后始花时的节间数豌豆生长素处理后始花时的节间数(4株总和株总和)二、组合内有重复观察值的
30、两向分组资料的二、组合内有重复观察值的两向分组资料的方差分析方差分析 设有设有A、B两个试验因素,两个试验因素,A因素有因素有a个水平,个水平,B因素有因素有b个水平,共有个水平,共有ab个处理组合,每个处理组合,每一组合有一组合有n个观察值,则该资料有个观察值,则该资料有abn个观个观察值。如果试验按完全随机设计,则其资察值。如果试验按完全随机设计,则其资料类型如表料类型如表5.28。表表5.28 完全随机设计的二因素试验,每处理组合有重复观察完全随机设计的二因素试验,每处理组合有重复观察值的数据结构值的数据结构(i=1,2,a;j=1,2,b;k=1,2,n)表表5.29 表表5.28类型
31、资料自由度和平方和的分解类型资料自由度和平方和的分解(C=T 2/abn)在上述测验中,互作的分析非常重要。通在上述测验中,互作的分析非常重要。通常首先应由常首先应由 测验互作的显著性。测验互作的显著性。eABMSMSF 表表5.31 3种肥料施于种肥料施于3种土壤的小麦产量(种土壤的小麦产量(g)(a=3,b=3,n=3,abn=27)(1)自由度和平方和的分解自由度和平方和的分解 根据上表,将各项变异来源的自由度填根据上表,将各项变异来源的自由度填于表于表5.32。以下分解平方和,求得:。以下分解平方和,求得:6207.72333(409.4)2C219.2814.021.221.4222
32、CSST202.583)40.654.8(62.7222CSSt179.3833122.0118.2169.2222CSSA3.9633133.5134.6141.3222CSSB19.243.96179.45202.58ABSS16.70202.58219.28eSS 表表5.32 表表5.31资料的方差分析资料的方差分析 (2)F测验测验 将上述结果录于表将上述结果录于表5.32,以固定模型作,以固定模型作F测测验。假设验。假设H0:=0求得求得F=4.81/0.928=5.18F0.01;假设;假设H0:=0,求得,求得F=89.69/0.928=96.65F0.01;假设;假设H0:=
33、0求得求得F=1.98/0.928=2.13F0.05。所以该试验。所以该试验肥类肥类土类的互作和肥类的效应间差异都土类的互作和肥类的效应间差异都是极显著的,而土类间无显著差异。是极显著的,而土类间无显著差异。ij)(ij(3)平均数的比较平均数的比较 各处理组合平均数的比较:肥类各处理组合平均数的比较:肥类土类土类的互作显著,说明各处理组合的效应不是的互作显著,说明各处理组合的效应不是各单因素效应的简单相加,而是肥类效应各单因素效应的简单相加,而是肥类效应随土类而不同随土类而不同(或反之或反之);所以宜进一步比较;所以宜进一步比较各处理组合的平均数。在此用新复极差测各处理组合的平均数。在此用
34、新复极差测验,求得:验,求得:根据根据 ,算得各,算得各LSR0.05和和LSR0.01的值的值于表于表5.33。)0.556(0.928/3g SE18表表5.33 表表5.31资料各处理组合平均数的资料各处理组合平均数的LSR值值(新复新复极差测验极差测验)表表5.34 表表5.31资料各处理组合平均数的新复极差测验资料各处理组合平均数的新复极差测验 各肥类平均数的比较:肥类间的各肥类平均数的比较:肥类间的F测验测验极显著,说明极显著,说明 0。求得肥类平均数的标。求得肥类平均数的标准误:准误:故有各肥类平均数的故有各肥类平均数的LSR值于表值于表5.35,显著,显著性测验结果于表性测验结
35、果于表5.36。i)0.32(330.928gSE表表5.35 表表5.31资料肥类平均数的资料肥类平均数的LSR值值表表5.36 表表5.31资料各肥类平均数的新复极差测验资料各肥类平均数的新复极差测验 由表由表5.36可见,肥料可见,肥料A1与与A3、A2均有极显著均有极显著的差异;但的差异;但A3与与A2无显著差异。无显著差异。综上所述,表综上所述,表5.31试验结果的基本信息是:试验结果的基本信息是:肥料肥料A1 对小麦的增产效果最好,土类间则对小麦的增产效果最好,土类间则无显著差异;但无显著差异;但A1施于油砂土施于油砂土(A1B1)却比施却比施于其他土壤上更有突出的增产效果。于其他土壤上更有突出的增产效果。