1、第六章第六章 方差分析方差分析 教学目的教学目的: 本章阐述方差分析的理论与方法,要求学生学会方差分析的基本方法。 教学重点及难点:教学重点及难点: 教学重点:教学重点:单因素与双因素方差分析。 教学难点:教学难点:方差分析表及其分析。 主要教学内容及要求:主要教学内容及要求: 1、了解方差分析的基本原理;2、掌握单因素与双因素方差分析法;3、理解掌握方差分析表;4、能够运用excel/spss软件进行相方差分析分析。章节安排章节安排 第一节第一节 方差分析原理方差分析原理 第二节第二节 F检验检验 第三节第三节 单因素方差分析单因素方差分析 第四节第四节 双因素方差分析双因素方差分析第一节第
2、一节 方差分析原理方差分析原理一、方差分析常用概念一、方差分析常用概念(一)应用方差分析的原因(一)应用方差分析的原因 1.1.检验过程繁琐检验过程繁琐 2.2.无统一的试验误差,误差估计的精无统一的试验误差,误差估计的精确性和检验的灵敏性低确性和检验的灵敏性低 3.3.推断的可靠性低,检验的推断的可靠性低,检验的I I型错误型错误率大率大 由于上述原因,多个平均数的差异显由于上述原因,多个平均数的差异显著性检验不宜用著性检验不宜用t t检验法,必须采用方差检验法,必须采用方差分析法。分析法。 (二)概念及术语(二)概念及术语 方差分析方差分析(Analysis of Variance)是由英
3、国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。 常用术语常用术语 1.因素因素 因素是指所要研究的变量,它可能对因变量产生影响。 2.水平水平 水平指各个因素的具体表现。 3.指标指标 为衡量研究结果或处理效应的好坏,在研究中具体测定的性状或观测项目称为指标。 4.交互作用交互作用 如果一
4、个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。 二、方差分析的基本思想二、方差分析的基本思想 方差分析就是通过对水平之间的方差和水平内部的方差的比较,做出拒绝还是不能拒绝原假设的判断。怎样解决下面的问题?怎样解决下面的问题?n 来自来自不同地区不同地区的大学生每个月的平均的大学生每个月的平均生活费生活费支出是否不同呢?支出是否不同呢?n 家电的家电的品牌品牌对它们的对它们的销售量销售量是否有显是否有显著影响呢?著影响呢?n 不同的不同的路段路段和和不同的时段不同
5、的时段对对行车时间行车时间有影响吗?有影响吗?n 超市的超市的位置位置和它的和它的销售额销售额有关系吗?有关系吗?n 不同的小麦不同的小麦品种产量品种产量有差异吗?有差异吗? 研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。水平品牌观测值ABC15706605402560760580361067053045807105505590630520658073056076306405108600680530n研究分类自变量研究分类自变量(因子因子factor)对数值因变量对数值因变量(观测结果观测结果)的影响的影响 例如:例如:“化肥品牌化肥品牌”是一个分类自变量是一个分类自
6、变量两个或多个两个或多个 水平水平(level)或分类。例如:或分类。例如:3个化肥品个化肥品牌牌一个数值型因变量,产量一个数值型因变量,产量分析三个品牌的化肥的产量是否有显著差异,也就分析三个品牌的化肥的产量是否有显著差异,也就是要判断是要判断“品牌品牌”对对“产量产量”是否有显著影响是否有显著影响n作出这种判断最终被归结为检验这三个品牌的产量作出这种判断最终被归结为检验这三个品牌的产量的的均值是否相等均值是否相等若它们的均值相等,则意味着若它们的均值相等,则意味着“品牌品牌”对产量是没对产量是没有影响的;若均值不全相等,则意味着有影响的;若均值不全相等,则意味着“品牌品牌”对对产量是有影响
7、的。产量是有影响的。1.01.52.02.53.0500550600650700750化肥小麦产量方差分析基本原理方差分析基本原理1. 从散点图上可以看出不同品牌的产量是有明显差异的同一个品牌,不同地块的产量也明显不同B较高,C较低2. 品牌与产量之间有一定的关系如果品牌与产量之间没有关系,那么它们的产量应该差不多相同,在散点图上所呈现的模式也就应该很接近方差分析的基本思想和原理方差分析的基本思想和原理(图形分析图形分析)方差分析的基本原理方差分析的基本原理 为了更容易的找出各化肥品牌的小麦平均产量的不同,我们对每个化肥品牌做一个箱线图。品牌A品牌B品牌C500550600650700750化
8、肥小麦产量仅从散点图上观察还不能提供充分的证据证明化仅从散点图上观察还不能提供充分的证据证明化肥品牌与小麦产量之间有显著差异肥品牌与小麦产量之间有显著差异这种差异也可能是由于抽样的随机性所造成的这种差异也可能是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对数据误差来源的分析这个名字也表示:它是通过对
9、数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据析时,需要考察数据误差的来源误差的来源方差分析的基本思想和原理方差分析的基本思想和原理三、方差分析的前提和基本步骤三、方差分析的前提和基本步骤 (一)方差分析的基本前提(一)方差分析的基本前提 1.样本是独立的随机样本。 2.各样本皆来自正态总体。 3.总体方差具有齐性,即各总体方差相等。 (二)方差分析的基本步骤(二)方差分析的基本步骤 1.计算各项平方和与自由度。 2.列出方差分析表,进行F检验。 3.做出判断。 第二节第二节 误差分解与误差分解与F检验检验 一、误差
10、分解一、误差分解1.组内误差组内误差(within groups)样本数据内部各观察值之间的差异比如,同一位置下不同超市之间销售额的差异的差异反映随机因素的影响,称为随机误差 2.组间误差组间误差(between groups)不同样本之间观察值的差异比如,不同位置超市之间销售额的差异可能是随机误差,也可能是超市位置本身所造成的系统性系统误差3.总误差总误差(total) 全部观测数据的误差大小误差平方和的分解及其关系误差平方和的分解及其关系总误差总误差总平方和总平方和(SST)随机误差随机误差处理误差处理误差组内平方和组内平方和(SSE)组间平方和组间平方和(SSA)误差度量误差度量(均方均
11、方MS)l用均方用均方(mean square)表示误差大小,以消除观测数据表示误差大小,以消除观测数据的多少对平方和的影响的多少对平方和的影响l 用平方和除以相应的自由度用平方和除以相应的自由度l 均方也称方差均方也称方差(variance) l组间均方也称组间方差组间均方也称组间方差(between-groups variance),反映各因子间误差的大小反映各因子间误差的大小l MSA=SSA自由度自由度(因子个数因子个数-1)l组内均方也称组内方差组内均方也称组内方差(within-groups variance) ,反,反映随机误差的大小映随机误差的大小l MSE=SSE自由度自由度
12、(数据个数数据个数-因子个数因子个数)l总平方和总平方和(SST)的自由度为的自由度为n-1二、二、F分布与拒绝域分布与拒绝域三、三、F-检验检验1. 将组间均方与组内均方进行比较,分析差异是否显著F=(MSAMSE)F(因子自由度,残差自由度因子自由度,残差自由度)2. 用F分布作出决策,给定的显著性水平 若FF(或P) ,则拒绝原假设H0 ,表明均值之间的差异显著,因素对观察值有显著影响1. 设 1为化肥品牌A下产量的均值, 2为化肥品牌B下产量的均值, 3为化肥品牌C下产量的2. 提出的假设为H0 : 1 2 3 H1 : 1 , 2 , 3 不全相等不全相等3.计算检验统计量4.计算P
13、值,作出决策第三节第三节 单因素方差分析单因素方差分析例题分析例题分析观测值观测值品牌品牌ABC1 15706605402 25607605803 36106705304 45807105505 55906305206 65807305607 76306405108 8600680530样本均值样本均值590590685685540540样本容量样本容量888总均值总均值605605单因素方差分析表单因素方差分析表(基本结构基本结构)误差来源误差来源平方和平方和(SS)自由度自由度(df)均方均方(MS)F值值P值值F临界值临界值组间组间(因素影响因素影响)SSAk-1MSAMSAMSE组内组
14、内(误差误差)SSEn-kMSE总和总和SSTn-1由由SPSSSPSS可以得到方差分析表可以得到方差分析表: : 来源来源平方和平方和比例比例自由度自由度均方均方F-比比 p-值值 化肥化肥868000.80224340042.60.00000004残差残差214000.198211019总计总计1082001.00023该表说明我们要拒绝零假设,各化肥该表说明我们要拒绝零假设,各化肥品牌导致的小麦产量之间有显著不同品牌导致的小麦产量之间有显著不同. . 单因素方差分析单因素方差分析用用Excel进行方差分析进行方差分析 (Excel检验步骤检验步骤) 第第1步:步:选择“工具工具 ”下拉菜
15、单第第2步:步:选择“数据分析数据分析 ”选项第第3步:步:在分析工具中选择“单因素方差分单因素方差分析析 ” ,然 后选择“确定确定 ”第第4步:步:当对话框出现时 在“输入区域输入区域 ”方框内键入数据单元格区域 在方框内键入0.05(可根据需要确定) 在“输出选项输出选项 ”中选择输出区域用用SPSS进行方差分析进行方差分析 (单因素方差分析单因素方差分析)第第1步:步:选择【Analyze】 【Compare Means】 【One-Way-ANOVA】进入主对话框第第 2 步 :步 : 在 主 对 话 框 中 将 因 变 量 ( 产 量 ) 选 入【Dependent List】,将
16、自变量(品牌)选入【Factor)】第第3步步 (需要多重比较时需要多重比较时)点击【Post-Hoc】从中选择一种方法,如LSD; (需要均值图时需要均值图时)在【Options】下选中【Means plot】,(需要相关统计量时需要相关统计量时) 选择【Descriptive】,点击【Continue】回到主对话框。点击【OK】 第四节第四节 双因素方差分析双因素方差分析 在小麦产量的例子中,我们将总效应分为两类:化肥变量的效应和残差变量的效应。 换句话说,我们只考虑了效应的两个来源,即来自化肥变量和随机误差。 但是影响小麦产量的因素除了所用化肥的品牌,可能还有土壤、天气等等因素的影响。
17、考虑其他因素的好处是降低残差的效应,即降低F统计量的分母,F值会变大,使我们拒绝均值相等的零假设,或者说我们可以解释更多的效应,从而减少误差。 本节讨论双因素方差分析(双因素方差分析(Two-Way ANOVA),其分析方法可以很容易地被推广到多因素方差分析多因素方差分析(Multi-Way ANOVA)。27一、双因素方差分析的种类一、双因素方差分析的种类(two-way analysis of variance) 分析两个因素分析两个因素(行因素行因素Row和列因素和列因素Column)对试验对试验结果的影响结果的影响 如果两个因素对试验结果的影响是相互独立的,分如果两个因素对试验结果的影
18、响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为双因素方差分析称为无交互作用的双因素方差分析无交互作用的双因素方差分析或无或无重复双因素方差分析重复双因素方差分析(Two-factor without replication)如果除了行因素和列因素对试验数据的单独影响外,如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为时的双因素方差分析称为有交互作用的双因素方差有交互作用的双因素方差分析分析或或可重复双因素方差分
19、析可重复双因素方差分析 (Two-factor with replication )例题分析例题分析个地区的交通管理局正准备扩大从郊区到商业中心的公车服务,考虑四条路线:1号线、2号线、3号线、4号线。交管局想进行检验判断四条路线的平均行驶时间是否存在差异。因为可能存在不同司机,检验时让每一名司机都分别行驶四条路线。司机司机1号线号线2号线号线3号线号线4号线号线小张小张33353537小李小李36373939小王小王35384038小刘小刘40364340小杨小杨41394340行驶时间平方和df均方F显著性组间32.400310.8001.618.225组内106.800166.675总数
20、139.20019 实际上实际上p-值值0.225远大于远大于0.05,所以不能拒绝零假设。,所以不能拒绝零假设。 交管局得出结论四条路线的平均行驶时间无差异,交管局得出结论四条路线的平均行驶时间无差异,没有某条没有某条路线行驶速度快而被选择的理由。路线行驶速度快而被选择的理由。如果不考虑司机因素如果不考虑司机因素单因素分析单因素分析二、二、 无交互效应的双因素方差分析无交互效应的双因素方差分析 如果上例中我们只考虑路线引起的效应而将其余的都归为随机效应,那么我们没有必要让五名司机分别行驶四条路线。 如果我们考虑不同司机的影响,我们就能减少残差平方和,从而得到更大的F值。我们把本例中的司机因素
21、称为区组因素区组因素(blocking variable),即在方差分析中能减少残差平方和的第二个处理因素。 在本例中将司机作为区组因素,从残差平方和中提取出司机的影响能够影响处理的F比值。 这里介绍无交互作用的双因素方差分析。无交互效应的双因素方差分析无交互效应的双因素方差分析 因为我们考虑不同司机行使时间的差异,所以要对区组做假设检验。两组假设分别为: 1 不同路线均值都相等 各路线均值不全相等 2 区组均值都相等 各区组均值不全相等 两因素方差分析表的格式与单因素方差分析的格式一致,唯一的区别是加了一行区组变差。01:H02:H11:H11111234222221234512:H无交互效
22、应的双因素方差分析无交互效应的双因素方差分析 从该表可以看出,关于对司机的零假设的从该表可以看出,关于对司机的零假设的p-值是值是0.002,对路线的,对路线的零假设的零假设的p-值是值是0.024。可以得知在。可以得知在0.05的显著性水平下,路线和区的显著性水平下,路线和区组的零假设都被拒绝。组的零假设都被拒绝。 因此,路线和司机这两个因素都对行驶时间有显著作用,也就是因此,路线和司机这两个因素都对行驶时间有显著作用,也就是说这两个因素的不同水平的确造成了行驶时间的不同。说这两个因素的不同水平的确造成了行驶时间的不同。 这表明司机这个因素的引进,使得路线对行驶时间从没有影响变这表明司机这个
23、因素的引进,使得路线对行驶时间从没有影响变成有显著影响。成有显著影响。无交互效应的双因素方差分析无交互效应的双因素方差分析例题分析 线路因素和司机因素合起来总共解释了行车时间差异的78.45% 其他因素(残差变量)只解释了销售量差异的21.55%无交互效应的双因素方差分析无交互效应的双因素方差分析三、三、 有交互效应的双因素方差分析有交互效应的双因素方差分析 值得注意的是,对于上面的例子,我们仅仅分析了路线和司机这两个因素分别对行驶时间的影响。也就是说因为司机变化所带来的行驶时间的变化是同行驶的路线是无关的。这显然是值得斟酌的。 对于一个实际问题,仅考虑因素各自的作用是不是合理?能不能回答我们
24、关心的问题?那就得视具体问题而论了。 因此,我们接下来简单介绍带交互作用的双因素方差分析。要说明的是,如果每一种因素水平的组合只有一个观测值,那么由于数据量不够会导致无法判断是否有交互作用。这时即使有交互作用,也混在误差项中而无法分离出来。例例7.3 该地区的交管局还想研究司机变化所带来的行驶时间的变化与行驶的路线是否有关?因此,我们假设对这个地区的交管局进行了2次测试。获得数据如下表所示司机司机1号线号线2号线号线3号线号线4号线号线小张小张3335353735373739小李小李3638373939413941小王小王3537384040423840小刘小刘4042363843454042
25、小杨小杨4143394143454042有交互效应的双因素方差分析有交互效应的双因素方差分析m为样本的行数为样本的行数有交互效应的双因素方差分析有交互效应的双因素方差分析有交互效应的双因素方差分析有交互效应的双因素方差分析因变量:行驶时间源III 型平方和df均方FSig.模型61906.000a203095.3001629.105.000司机 * 路线61.000125.0832.675.025司机155.000438.75020.395.000路线67.500322.50011.842.000误差38.000201.900总计61944.00040a. R 方 = .999(调整 R 方
26、= .999)从中可以看到,与无交互的双因素方差分析结果一样,路线和司机因素从中可以看到,与无交互的双因素方差分析结果一样,路线和司机因素的的p-值都小于值都小于0.05,检验是高度显著的。,检验是高度显著的。 交互项交互项“司机司机*路线路线”反映的是司机因素和路线因素联合产生的对行驶时反映的是司机因素和路线因素联合产生的对行驶时间的附加效应。由于间的附加效应。由于p-值值0.025小于小于0.05,因此,检验高度显著,因此,检验高度显著,这表明司机因素和路线因素联合产生的交互作用对行驶时间有显著影响这表明司机因素和路线因素联合产生的交互作用对行驶时间有显著影响。换句话说,也就是不同路线的行
27、驶时间差异会因为所使用的司机的不。换句话说,也就是不同路线的行驶时间差异会因为所使用的司机的不同而不同,同而不同,或者说不同司机的行驶时间差异会因为所经过的路线不同而不同。或者说不同司机的行驶时间差异会因为所经过的路线不同而不同。有交互效应的双因素方差分析有交互效应的双因素方差分析 交互作用的模型可以从点图中直观看出。图7.4中的五条折现分别表示了每名司机行驶不同路线所需的平均时间。如果在有交互作用的模型中,这样五条线还是平行的,那就说明司机因素和路线因素之间没有交互作用。从该图可以看出,这五条线并不平行,这从直观上说明这两个因素的主效应不是简单可加的,是有交互作用的。本章小结本章小结方差分析(Analysis of Variance, ANOVA)是20世纪20年代由英国统计学家费雪首先提出的,最初主要应用于生物和农业田间试验,以后推广到各个领域应用。它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性。本章介绍了方差分析的基本思想与假定,以及如何做单因素方差分析和双因素方差分析,要求学生学会方差分析的基本方法。 本章练习本章练习 P207209的练习题。