1、第第1 1节节 方差分析方差分析 (ANALYSIS OF VARIANCE)(ANALYSIS OF VARIANCE) 方差分析用不同的生产方法生产同一种产品,比方差分析用不同的生产方法生产同一种产品,比较各种生产方法对产品的影响是人们经常遇到的问题。较各种生产方法对产品的影响是人们经常遇到的问题。比如,化工生产中,原料成份、剂量、顺序、催化剂、比如,化工生产中,原料成份、剂量、顺序、催化剂、反应温度、压力、时间、机器设备以及操作人员技术反应温度、压力、时间、机器设备以及操作人员技术水平等因素对产品都会有影响,有的影响大些,有的水平等因素对产品都会有影响,有的影响大些,有的影响小些。为此,
2、需要找出对产品有显著影响的因素。影响小些。为此,需要找出对产品有显著影响的因素。方差分析就是鉴别各因素效应的一种有效的统计方法。方差分析就是鉴别各因素效应的一种有效的统计方法。它的应用范围十分广阔,可以成功地应用在试验工作它的应用范围十分广阔,可以成功地应用在试验工作的很多方面。的很多方面。 补充内容补充内容:常用统计技术常用统计技术方差分析是统计检验的一方差分析是统计检验的一种。由英国著名统计学家种。由英国著名统计学家 R. A. FISHERR. A. FISHER推导出来的,推导出来的,也叫也叫F F检验。检验。一、一、 方差分析的基本概念方差分析的基本概念二、二、 单因素方差分析单因素
3、方差分析三、三、 重复数不等的单因素方差分析重复数不等的单因素方差分析四、四、 两因素方差分析(多个样本均数两因素方差分析(多个样本均数间的多重比较)间的多重比较)主要内容主要内容一、方差分析的基本概念一、方差分析的基本概念 数据(数据( ) 数据和(数据和(T T) 方差方差( )( ) 离均差离均差( )( )21 1、几个名词和概念、几个名词和概念u 因素因素u 水平水平u F 分布分布iyyiy 因子(因素)因子(因素) 有时会遇到需要比较多个总体均值的问题。有时会遇到需要比较多个总体均值的问题。例例1 1:现有甲、乙、丙三个工厂生产同一种零件。为了解不同:现有甲、乙、丙三个工厂生产同
4、一种零件。为了解不同工厂的零件的强度有无明显的差异,现分别从每一工厂随机工厂的零件的强度有无明显的差异,现分别从每一工厂随机抽取四个零件测定其强度,数据如表抽取四个零件测定其强度,数据如表1 1所示。试问三个工厂的所示。试问三个工厂的零件强度是否相同(假定每一个总体都服从正态分布且各总零件强度是否相同(假定每一个总体都服从正态分布且各总体的方差相等)?体的方差相等)?工厂工厂零件强度零件强度甲甲乙乙丙丙103 101 98 110103 101 98 110113 107 108 116113 107 108 11682 92 84 8682 92 84 86三个工厂的零件的强度数据三个工厂的
5、零件的强度数据 不同工厂的零件强度不同。因此可以将不同工厂的零件强度不同。因此可以将工厂工厂看成看成是影响零件强度指标的一个因素。不同的工厂便是该是影响零件强度指标的一个因素。不同的工厂便是该因素的不同状态。试验中可改变(可控制)的试验条因素的不同状态。试验中可改变(可控制)的试验条件称之为件称之为因子因子,常用大写字母,常用大写字母A A、B B、C C等表示。等表示。 水平水平 指的是因子所处的状态,采用在因素的字母加下指的是因子所处的状态,采用在因素的字母加下标表示。一般,一个因子会有几个水平。例如因子标表示。一般,一个因子会有几个水平。例如因子A A有有4 4个水平,则表示为:个水平,
6、则表示为:A1A1、A2A2、A3A3。 F F 分布分布 若随机变量若随机变量 , ,则随机变量,则随机变量的函数的函数 的分布规律称为的分布规律称为 F(n1,n2) F(n1,n2) 分布,分布,其中参数其中参数n1n1、n2n2是两个自由度,任意一个自由度不同是两个自由度,任意一个自由度不同就是另一个就是另一个F F分布,正如正态分布中均值或方差不同就分布,正如正态分布中均值或方差不同就是另一个正态分布一样。是另一个正态分布一样。 F F分布在一象限内,呈正偏态,随着两个自由度分布在一象限内,呈正偏态,随着两个自由度的增大,趋近于正态分布。的增大,趋近于正态分布。 一般情况下,一般情况
7、下,F F分布的均值接近分布的均值接近1 1,方差一般都小于,方差一般都小于 1 1,且随两自由度的增大越来越小。且随两自由度的增大越来越小。 -4-2024600.050.10.150.20.250.30.350.4正态分布正态分布),(2mN密度函数:密度函数:222)(21)(mp=xexp分布函数:分布函数:dyexFyx222)(21)(mp=其中:其中:m为均值,为均值,2为方差,为方差,+x 标准正态分布标准正态分布N(0,1)密度函数密度函数: :2221)(xex=pjdyexyx2221)(=Fp 分布函数分布函数: :统计特征数统计特征数(一)样本平均值(一)样本平均值(
8、二)样本中位数(二)样本中位数(三)样本方差(三)样本方差(四)样本标准偏差(四)样本标准偏差(五)样本极差(五)样本极差表示数据的集中位置表示数据的集中位置表示数据的离散程度表示数据的离散程度(一)样本平均值(一)样本平均值=niixnx1_1如果从总体中抽取一个样本,得到一批数据如果从总体中抽取一个样本,得到一批数据X X1 1,X X2 2,X X3 3. .X Xn n,则样本的平均值:则样本的平均值:样本的算术平均值:样本的算术平均值n n :样本大小:样本大小(二)样本中位数和样本众数(二)样本中位数和样本众数把统计数据把统计数据X X1 1,X X2 2,X X3 3. .X X
9、n n按大小顺序重新排列,排在正中间按大小顺序重新排列,排在正中间的那个数就是样本中位数,用符号的那个数就是样本中位数,用符号 表示。表示。当当n n为奇数时,正中间的数只有一个;为奇数时,正中间的数只有一个;当当n n为偶数时,正中间的数有两个,此为偶数时,正中间的数有两个,此时,中位数为正中两个数的算术平均值。时,中位数为正中两个数的算术平均值。21+=nxx+=+12122nnxxxx 样本众数是将统计数据样本众数是将统计数据X X1 1,X X2 2,X X3 3. .X Xn n按大小顺序重新排列按大小顺序重新排列,其中出现频数最高的那个数用符号其中出现频数最高的那个数用符号 表示。
10、表示。 (三)样本方差(三)样本方差是衡量统计数据分散程度的一种特征数,其计算公式:是衡量统计数据分散程度的一种特征数,其计算公式:S S 2 2 :样本方差;:样本方差;:某一数据与样本平均值之间的偏差。:某一数据与样本平均值之间的偏差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大. (四)样本标准偏差(四)样本标准偏差 国际标准化组织规定,把样本方差的正平方根作为样本标国际标准化组织规定,把样本方差的正平方根作为样本标准偏差,用符号准偏差,用符号 S S 来表示:来表示:(五)样本极差(五)样本极差一组数据中最大值与最小值之差。用符号一组
11、数据中最大值与最小值之差。用符号R R表示:表示:R = X max - - X min例1、某校从甲、乙两名优秀选手中选1名选手参加全市中学生田径百米比赛,该校预先对这两名选手测试了8次,测试成绩如下表:根据测试成绩,请判断派哪一位选手参加比赛更好?解析:此题要用样本的方差的大小来衡量甲、乙两名选手百解析:此题要用样本的方差的大小来衡量甲、乙两名选手百米赛成绩的稳定性,方差较小的稳定性强些米赛成绩的稳定性,方差较小的稳定性强些 2 2、方差分析的含义、方差分析的含义 方差是描述变异的一种指标,方差是描述变异的一种指标,方差分析是一种假设方差分析是一种假设检验的方法检验的方法, , 即是对变异
12、的分析;即是对变异的分析; 方差分析方差分析是是对总变异进行分析。考察总变异是由哪对总变异进行分析。考察总变异是由哪些部分组成的,这些部分间的关系如何。些部分组成的,这些部分间的关系如何。3 3、方差分析的基本思想、方差分析的基本思想根据变异的来源,将全部观察值根据变异的来源,将全部观察值总的离均差平方和总的离均差平方和及及自由度自由度分解为两个或多个部分,除随机误差外,分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某些特定因素的作用加以其余每个部分的变异可由某些特定因素的作用加以解释。解释。通过比较不同来源变异的方差(也叫均方通过比较不同来源变异的方差(也叫均方MSMS),借),
13、借助助F F分布做出统计推断,从而判断某因素对观察指分布做出统计推断,从而判断某因素对观察指标有无影响。标有无影响。方差分析根据试验中考察的因子的个数,可分为:方差分析根据试验中考察的因子的个数,可分为: 单因子方差分析单因子方差分析 两因子方差分析两因子方差分析 多因子方差分析(试验设计)多因子方差分析(试验设计)4 4、方差分析的分类、方差分析的分类5 5、方差分析的假设及结论、方差分析的假设及结论 指标服从正态分布指标服从正态分布 不同水平的方差和均方差相等不同水平的方差和均方差相等 相互独立的随机样本(数据相互独立)相互独立的随机样本(数据相互独立)012:rHmmm= 方差分析是在相
14、同方差假定下检验多个正态均值是否方差分析是在相同方差假定下检验多个正态均值是否相等的一种统计分析方法。相等的一种统计分析方法。112:,rHm mm不全相等不全相等二、单因子方差分析二、单因子方差分析 试验中所要考察的影响因素只有一个,则称之为单试验中所要考察的影响因素只有一个,则称之为单因子试验,其数据分析可采用单因子方差分析法。因子试验,其数据分析可采用单因子方差分析法。 设一个试验中要考察的影响因子设一个试验中要考察的影响因子A,其有,其有r个水平,在每一个水平,在每一个水平下各进行个水平下各进行m次重复试验,结果用次重复试验,结果用Yi1,Yi2,Yim表示。表示。(一)、引起数据误差
15、的原因(一)、引起数据误差的原因组间变异组间变异总变异总变异组内变异组内变异 试验的数据共有试验的数据共有n=rmn=rm个。这个。这n n个数据的差异可以个数据的差异可以用总离散平方和(也简称为平方和)用总离散平方和(也简称为平方和) 来表示。来表示。211rmTijijSyy=TS因子因子A A的水平不同的水平不同(组间平方和)(组间平方和)随机误差随机误差(组内平方和)(组内平方和) 各种变异的表示方法:各种变异的表示方法:TfTSTMSAfASAMSefeSeMSTAefff=+TAeSSS=+ 三者之间的关系:三者之间的关系:总变异总变异处理变异处理变异误差变异误差变异 总变异总变异
16、: : 所有测量值之间总的变异程度。所有测量值之间总的变异程度。其自由度为:其自由度为:11Tfnrm=211rmTijijSyy= 组间变异:组间变异:各组均数与总均数的离均差平方和。反映的各组均数与总均数的离均差平方和。反映的是是随机误差处理因素随机误差处理因素的共同影响。的共同影响。其自由度为:其自由度为:1Afr=21rAiiSm yy= 组内变异:组内变异:同一组内,虽每个对象接受的处理相同,但测量值同一组内,虽每个对象接受的处理相同,但测量值不相同,这种变异称为组内变异,也称不相同,这种变异称为组内变异,也称SeSe误差。用各组内各测量误差。用各组内各测量值值YijYij与其所在组
17、的均数差值的平方和来表示,反映与其所在组的均数差值的平方和来表示,反映随机误差随机误差的影的影响。响。其自由度为:其自由度为:(1 )eTAfffrm=211rmeijiijSyy= 变异程度除与离均差平方和的大小有关外,还与其自由度有变异程度除与离均差平方和的大小有关外,还与其自由度有关。关。由于各部分自由度不相等,因此各部分离均差平方和不能直由于各部分自由度不相等,因此各部分离均差平方和不能直接比较,须:将各部分离均差平方和除以相应自由度,其比值称接比较,须:将各部分离均差平方和除以相应自由度,其比值称为为均方差均方差,简称均方,简称均方(mean square,MS)。 AAAMSSf=
18、eeeMSSf=均方差:均方差:组间均方和组内均方的计算公式为组间均方和组内均方的计算公式为: 当当MSA与与MSe相差不大时,可以认为因子相差不大时,可以认为因子A的影响不显著;反的影响不显著;反之,则认为之,则认为A是显著的。一般用两者的比值来表示这种关系,称之是显著的。一般用两者的比值来表示这种关系,称之为为F比:比:AeFMSMS=F比:比:注:注:公式是在公式是在H H0 0成立的条件下进行的,即成立的条件下进行的,即MSMSA A与与MSMSe e差别应该很小差别应该很小( (即即F F值应接近于值应接近于1)1)。那么要接近到什么程度呢?。那么要接近到什么程度呢?FisherFi
19、sher计算出了计算出了F F的分布规律(即标准的的分布规律(即标准的F F值)。值)。即认为因子即认为因子A的影响显著(或称之的影响显著(或称之为在显著水平)为在显著水平) 显著性的具体判定方法:显著性的具体判定方法:1,aAeFFff 简便的计算方法:简便的计算方法:2221111ijrmrmTijijijTSyyyn=22211()rriAiiiTTSm yymn=eTASSS=1 1、所考察的问题、所考察的问题 为考察四种解毒药的解毒效果,按完全随机化方法将为考察四种解毒药的解毒效果,按完全随机化方法将24只只大白鼠大白鼠随机等分成组(将随机等分成组(将大白鼠大白鼠编成编成124号,用
20、计算机对号,用计算机对每个每个大白鼠大白鼠产生一个随机数,然后按随机数从小到大的顺序排序,产生一个随机数,然后按随机数从小到大的顺序排序,前面前面6个个大白鼠大白鼠分为第一组,紧接着的分为第一组,紧接着的6个个大白鼠大白鼠分成第二分成第二组,组,),每组),每组大白鼠大白鼠服用一种解毒药。服用之后,考察大白鼠服用一种解毒药。服用之后,考察大白鼠血中胆碱脂酶的含量血中胆碱脂酶的含量 (/ml)。(二)、举例(二)、举例2H H0 0: 即即4 4个试验组总体均数相等个试验组总体均数相等 H H1 1:4 4个试验组总体均数个试验组总体均数不全相等不全相等 1234mmmm=0.05=(1 1)
21、建立检验假设建立检验假设2 2、具体分析步骤、具体分析步骤(2 2) 确定显著性水平确定显著性水平检验水准:检验水准:一个因素一个因素(factor):解毒药):解毒药四个水平四个水平(level)()(r=4):):A、空白对照、空白对照D, i=1,2,3,4分别代表分别代表A、B、C、D每水平有每水平有m=只大白鼠,分别表示为只大白鼠,分别表示为j=1,2,6 注:注:显著性检验的判断是依据小概率事件原理进行的。小概率显著性检验的判断是依据小概率事件原理进行的。小概率 在这里称为显著性水平,实际是判断错误的概率(即风险度),在这里称为显著性水平,实际是判断错误的概率(即风险度),与其相对
22、应的与其相对应的=1=1称为置信度。称为置信度。 (3 3)计算离均差平方、自由度、均方)计算离均差平方、自由度、均方(4 4)计算)计算F F 值,列方差分析表值,列方差分析表(5 5)下结论)下结论注意:即使是同一种解毒药,其效果也是波动的。这种注意:即使是同一种解毒药,其效果也是波动的。这种波动可以用方差波动可以用方差 来度量,即方差的估计。这里,方来度量,即方差的估计。这里,方差的估计是差的估计是MSMSe e。因此,标准差的估计是:。因此,标准差的估计是:eMS=2查附表查附表F界值表,得界值表,得F0.05(3,20)=3.10。由于。由于FF0.05(3,20),在,在0.05水
23、平上不同的解毒药物的效果显著处理因素的水平上不同的解毒药物的效果显著处理因素的4个水个水平中至少有一个组的总体平均值不同于其他各组。从表中平中至少有一个组的总体平均值不同于其他各组。从表中所示的值可见,不同解毒药物的效果是不同的。解毒药物所示的值可见,不同解毒药物的效果是不同的。解毒药物A和和C与空白对照组与空白对照组D相近。相近。B组血中胆碱脂酶含量较其他组血中胆碱脂酶含量较其他组高。组高。三、重复数不等的单因子方差分析三、重复数不等的单因子方差分析 单因子试验中,若每个水平下重复试验的次数不同。单因子试验中,若每个水平下重复试验的次数不同。 设一个试验中要考察的影响因子设一个试验中要考察的
24、影响因子A,在,在Ai水平下有水平下有mi次试次试验(各不全相等),其计算方法需进行如下改变:验(各不全相等),其计算方法需进行如下改变:221riAiiTTSmn=inm=四、双因子方差分析四、双因子方差分析 试验中所要考察的影响因素有试验中所要考察的影响因素有A、B两个,则称之为两个,则称之为双因子试验,可采用双因子方差分析法进行数据分析,其目双因子试验,可采用双因子方差分析法进行数据分析,其目的是检验两个因素对试验结果有无影响。的是检验两个因素对试验结果有无影响。 对每一因子的每一水平都可取一个容量为对每一因子的每一水平都可取一个容量为n nijij的样本(这里的样本(这里介绍无重复试验
25、的情况),因素介绍无重复试验的情况),因素A A有有r r个水平,个水平,因素因素B B有有s s个水平。个水平。对对因素因素A A、B B的每一个水平的组合(的每一个水平的组合(Ai,BjAi,Bj) ),i=1,2,i=1,2,r; ,r; j=1,2,j=1,2,s ,s )只进行)只进行一次试验,得到一次试验,得到n=rn=rs s个结果个结果YijYij,将结果,将结果列表(如下页表)。其中列表(如下页表)。其中YijYij表示因素表示因素A A的第个水平与因素的第个水平与因素B B的第的第个水平构成的一组配合(个水平构成的一组配合(Ai,BjAi,Bj)进行试验的结果。)进行试验的
26、结果。 各种变异的表示方法:各种变异的表示方法:TfTSBfBSBMSefeSeMSTABeffff=+TABeSSSS=+ 三者之间的关系:三者之间的关系:AfASAMS总变异总变异处理变异处理变异误差变异误差变异区组变异区组变异 为了解为了解3 3种不同配比的饲料对仔猪生长影响的差种不同配比的饲料对仔猪生长影响的差异,对异,对3 3种不同品种的猪各选种不同品种的猪各选3 3头进行试验,测得在头进行试验,测得在3 3个月内猪体重的增加量(如下表所示)。假定猪体重个月内猪体重的增加量(如下表所示)。假定猪体重增加量服从正态分布,且各种配合的方差相等。试分增加量服从正态分布,且各种配合的方差相等
27、。试分析不同饲料和猪的品种对猪的生长有无显著影响。析不同饲料和猪的品种对猪的生长有无显著影响。例例3 3: 1 1、将表中数据各减去、将表中数据各减去5050,其差计为,其差计为Y Yijij,列出方,列出方差计算表如下:差计算表如下:解:解: 2 2、由上表数据可计算:、由上表数据可计算: 3 3、列出方差分析表如下:、列出方差分析表如下: 4 4、得出结论:、得出结论:说明不同饲料对猪体重的增长无显著影响;说明不同饲料对猪体重的增长无显著影响;0.0455.2(2,4)6.94AFF=说明品种的差异对猪体重增长的影响相当显著。说明品种的差异对猪体重增长的影响相当显著。0.050.0190(
28、2,4)(2,4)18BFFF=,不仅大于,而且还大于作业1、某工厂从、某工厂从3个外协加工的机械锻件,各任取个外协加工的机械锻件,各任取4 个锻件,由同一台试验机,同一操作者,按随个锻件,由同一台试验机,同一操作者,按随机的顺序进行强度试验,结果如下表。机的顺序进行强度试验,结果如下表。强度试验数据强度试验数据问:这三个工厂的锻件强度是否有显著差异,哪问:这三个工厂的锻件强度是否有显著差异,哪个工厂的锻件最好?个工厂的锻件最好?显著水平显著水平= 0.05时,估计时,估计锻件的强度区间。锻件的强度区间。 次数次数生产厂生产厂1 2 3 4A1A2A3115 116 98 83103 107 118 11673 89 85 97 质量漫画之三质量漫画之三