1、第十一章 方差分析学习要求基本概念:指标、因素、水平、单因素方差分析、双因素方差分析基本步骤掌握单因素方差分析的基本方法 在工农业生产和科研活动中,我们经常遇到这在工农业生产和科研活动中,我们经常遇到这样的问题:影响产品产量、质量的因素很多,例如样的问题:影响产品产量、质量的因素很多,例如影响农作物的单位面积产量有品种、施肥种类、施影响农作物的单位面积产量有品种、施肥种类、施肥量等许多因素。我们要了解这些因素中哪些因素肥量等许多因素。我们要了解这些因素中哪些因素对产量有显著影响,就要先做试验,然后对测试结对产量有显著影响,就要先做试验,然后对测试结果进行分析,作出判断。方差分析就是分析测试结果
2、进行分析,作出判断。方差分析就是分析测试结果的一种方法。果的一种方法。引引 言言基基 本本 概概 念念 试验试验指标指标试验结果。试验结果。可控可控因素因素在影响试验结果的众多因素中,可人为在影响试验结果的众多因素中,可人为 控制的因素。控制的因素。水平水平可控因素所处的各种各种不同的状态。每个可控因素所处的各种各种不同的状态。每个 水平又称为试验的一个处理。水平又称为试验的一个处理。单因素试验单因素试验如果在一项试验中只有一个因素改变,如果在一项试验中只有一个因素改变,其它的可控因素不变,则该类试验称为其它的可控因素不变,则该类试验称为 单因素试验。单因素试验。引例引例 例例1(灯丝的配料方
3、案优选)某灯泡厂用四种配料方案制成的灯(灯丝的配料方案优选)某灯泡厂用四种配料方案制成的灯丝生产了四批灯泡,在每批灯泡中作随机抽样,测量其使用寿丝生产了四批灯泡,在每批灯泡中作随机抽样,测量其使用寿命(单位:小时),数据如下:命(单位:小时),数据如下:灯泡灯泡寿命寿命灯丝灯丝12345678甲甲1600 1610 1650 168017001720 1800乙乙1580 1640 1640 17001750丙丙1460 1550 1600 162016401740 1660 1820丁丁1510 1520 1530 157016801600灯泡的使用寿命灯泡的使用寿命试验指标试验指标 灯丝的
4、配料方案灯丝的配料方案试验因素试验因素(唯一的一个)(唯一的一个)四种配料方案(甲乙丙丁)四种配料方案(甲乙丙丁)四个水平四个水平 因此,本例是一个因此,本例是一个四水平的单因素试验四水平的单因素试验。引引 例例 用用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为分别表示四种灯泡的使用寿命,即为四个总体。假设四个总体。假设X1,X2,X3,X4相互独立,且服从方差相互独立,且服从方差相同的正态分布,即相同的正态分布,即XiN(i,2)()(i=1,2,3,4)本例问题归结为检验假设本例问题归结为检验假设 H0:1=2=3=4 是否成立是否成立 我们的目的是通过试验数据来判断因素我们的目
5、的是通过试验数据来判断因素 A 的不的不同水平对试验指标是否有影响。同水平对试验指标是否有影响。设设 A 表示欲考察的因素,它的表示欲考察的因素,它的 个不同水平,对个不同水平,对应的指标视作应的指标视作 个总体个总体 每个水平下每个水平下,我我们作若干次重复试验:们作若干次重复试验:(可等重复也可不(可等重复也可不等重复),同一水平的等重复),同一水平的 个结果,就是这个总体个结果,就是这个总体 的一个样本:的一个样本:rr12,.rXXX12,.rn nnin12,.iiiinXXXiX 单因素试验的方差分析单因素试验的方差分析12,.iiiinXXX因此,因此,相互独立,且与相互独立,且
6、与 iX同分布。同分布。单因素试验资料表单因素试验资料表其中诸其中诸 可以不一样,可以不一样,1riinnin水平水平重复重复12.rAAA 1.ni121121112.rrnnrnXXXXXX1iniijjTX列和12.rTTTiiiXT n列平均1riiT总和11riiiXn Xn12.rXXX(水平组内平均值)(水平组内平均值)(总平均值)(总平均值)试验结果试验结果 纵向个体间的差异称为纵向个体间的差异称为随机误差(组内差异),随机误差(组内差异),由试验造由试验造成;横向个体间的差异称为成;横向个体间的差异称为系统误差(组间差异),系统误差(组间差异),由因素的由因素的不同水平造成。
7、不同水平造成。品种品种重复重复12345AAAAA12341333837313937353934403535383431ijjx12010510811499ix40353638335311546ijijx例:五个水稻品种单位产量的观测值例:五个水稻品种单位产量的观测值53111536.4ijijx 单因素试验的方差分析的数学模型单因素试验的方差分析的数学模型21.,1,2,.iiXNir 具有具有方差齐性。方差齐性。122.,.rXXX相互独立,从而各子样也相互独立。相互独立,从而各子样也相互独立。首先,我们作如下假设:首先,我们作如下假设:检验假设:检验假设:012:.rH考察统计量考察统计
8、量211inrTijijSSXX经恒等变形,可分解为:经恒等变形,可分解为:TAESSSSSS其中其中2A11SSinriijXX组间平方和(系组间平方和(系统离差平方和)统离差平方和)反映的是各水平平均值偏离总平均值的偏离程度。反映的是各水平平均值偏离总平均值的偏离程度。如果如果H0 成立,则成立,则SSA 较小。较小。总离差平方和总离差平方和 2E11SSinriijijXX组内误差平方和组内误差平方和反映的是重复试验种随机误差的大小。反映的是重复试验种随机误差的大小。由由272页页4可得:可得:2222221,1,TAESSSSSSnrnr222,TAESSSSSS将将 的自由度分别记作
9、的自由度分别记作,TAEdfdfdf则则1,AAEESSdfFF rnrSSdf(记(记 ,称作均方和),称作均方和),AAAEEESSdfMSSSdfMS则则1,AAEESSdfFF rnrSSdf(记(记 ,称作均方和),称作均方和),AAAEEESSdfMSSSdfMS对给定的检验水平对给定的检验水平 ,由,由1,P FFrnr得得H0 的拒绝域为:的拒绝域为:1,FFrnrF 单侧检验单侧检验 结论:结论:方差分析方差分析实质上实质上是假设检验是假设检验,从分析离差,从分析离差平方和入手,找到平方和入手,找到F统计量统计量,对对同方差同方差的多个正态总体的多个正态总体的均值是否相等进行
10、假设检验的均值是否相等进行假设检验。单因素试验中两个水。单因素试验中两个水平的均值检验可用第九章的双样本均值检验法。平的均值检验可用第九章的双样本均值检验法。AEMSMS思考:为什么此处只做单侧检验?思考:为什么此处只做单侧检验?(1)若若 ,则称因素的,则称因素的差异极显著差异极显著(极有极有统计意统计意义),或称因素义),或称因素A的影响的影响高度显著高度显著,这时作标记,这时作标记 ;0.01FF*约约 定定 *0.050.01FFF(2)若)若 ,则称因素的,则称因素的差异显著差异显著(差异(差异有有统计意义),或称因素统计意义),或称因素A的的影响显著影响显著,作标记,作标记 ;0.
11、10.05FFF*(3)若)若 ,则称因素,则称因素A有一定影响有一定影响,作,作标记标记();0.10FF(4)若)若 ,则称因素,则称因素A无显著影响(差异无显著影响(差异无无统计意义)。统计意义)。注意注意:在方差分析表中,习惯于作如下规定:在方差分析表中,习惯于作如下规定:单因素试验方差分析表单因素试验方差分析表方差来源方差来源组间组间组内组内总和总和平方和平方和ASSESSTSS自由度自由度AdfEdfTdf均方和均方和AAASSMSdfEEESSMSdfF 值值AEMSFMSF 值临介值值临介值1,Frnr简便计算公式:简便计算公式:22A1SSriiiTTnn22E111SSin
12、rriijijiiTXn1,iniijjTX1riiTT其中其中同一水平同一水平下观测值下观测值之和之和 所以观测所以观测值之和值之和方差分析步骤消费者对四个行业的投诉次数消费者对四个行业的投诉次数 行业行业观测值观测值零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业12345675766494034534468392945565131492134404451657758【例】【例】为了对几个行业的服务质量进行评价,消费者协会在为了对几个行业的服务质量进行评价,消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总
13、共者对总共23家企业投诉的次数如下表家企业投诉的次数如下表分析四个行业之间的服务质量是否有显著差异,作出这种判断需要检验这四个行业被投诉次数的均值是否相等如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异提出假设提出假设构造检验统计量构造检验统计量统计决策统计决策提出假设一般提法H0:1=2=k H1:1,2,k不全相等注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 构造检验的统计量构造统计量需要计算构造统计量需要计算水平的均值水平的
14、均值全部观察值的总均值全部观察值的总均值误差平方和误差平方和均方均方(MS)构造检验的统计量(计算水平的均值)假定从假定从第第i个总体中抽取一个容量为个总体中抽取一个容量为ni的简单的简单随机样本,第随机样本,第i个总体的样本均值为该样本的个总体的样本均值为该样本的全部观察值总和除以观察值的个数全部观察值总和除以观察值的个数计算公式为计算公式为),2,1(1kinxxinjijii构造检验的统计量(计算全部观察值的总均值)全部观察值的总和除以观察值的总个数全部观察值的总和除以观察值的总个数计算公式为计算公式为 kkiiikinjijnnnnnxnnxxi21111式中:构造检验的统计量(例题分
15、析)构造检验的统计量(计算总误差平方和 SST)全全部观察值部观察值 与总平均值与总平均值 的离差平方和的离差平方和反映全部观察值的离散状况反映全部观察值的离散状况其计算公式为其计算公式为ijxxkinjijixxSST112构造检验的统计量(计算水平项平方和 SSA)各组平均值 与总平均值 的离差平方和反映各总体的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差计算公式为 kiiikinjixxnxxSSAi12112前例的计算结果:SSA=1456.608696),2,1(kixix构造检验的统计量(计算误差项平方和 SSE)每个水平或组的各样本数据与其组平均值
16、的离差平方和反映每个样本各观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小计算公式为 kinjiijixxSSE112前例的计算结果:SSE=2708构造检验的统计量(三个平方和的关系)总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系kinjiijkiiikinjijiixxxxnxx11212112SST=SSA+SSE前例的计算结果构造检验的统计量(F分布与拒绝域)统计决策 将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策根据给定的显著性水平,在F分布表中查找与第一自由度df1k-1、第二自由度df2=n-k
17、相应的临界值 F 若FF,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF,则不拒绝原假设H0,不能认为所检验的因素对观察值有显著影响 单因素方差分析表(基本结构)单因素方差分析(例题分析)观察值之间的差异来自两个方面:组内方差组间方差F某因素不同水平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)水平内方差(组内方差)进一步的理解:进一步的理解:如果原假设成立:如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:如果原假设不成立:说明某
18、因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。用Excel进行方差分析用Excel进行方差分析 第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择“数据分析数据分析”选项第第3步:步:在分析工具中选择“单因素方差分析单因素方差分析”,然后选择“确定确定”第第4步:步:当对话框出现时 在“输入区域输入区域”方框内键入数据单元格区域 在方框内键入0.05(可根据需要确定)在“输出选项输出选项”中选择输出区域补充概念:双因素方差分析(two-way analysis of variance)分析两个因素(行因素Row和列因素Column)对试验结果的影响 如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析无交互作用的双因素方差分析或无重复双因素方差分析无重复双因素方差分析(Two-factor without replication)如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差有交互作用的双因素方差分析分析或可重复双因素方差分析可重复双因素方差分析(Two-factor with replication)