1、1第六章第六章 方差分析方差分析2 本章教学目标本章教学目标l了解方差分析可以解决那些实际问题;l了解应用方差分析的基本条件;l掌握方差分析的基本概念及其分析方法;l正确使用 Excel 软件求解单因素和双因素方差分析问题及其运行输出结果分析.本章主要内容本章主要内容4.1 方差分析概述4.2 单因素方差分析4.3 双因素方差分析本章重点本章重点:考虑交互作用的双因素方差分析 3在生产经营管理过程中,通常有很多因素会影响产品的质量、产量、销售量等指标。如农作物的产量受品种、肥料、气候、雨水、光照、土壤、播种量等众多因素的影响;产品销售量受品牌、质量、价格、促销手段、竞争产品、顾客偏好、季节、居
2、民收入水平等众多因素的影响;化工产品的得率受温度、压力、催化剂、原料配比等因素的影响。因此需要了解:哪些因素会对所研究的指标产生显著影响;这些影响因素在什么状况下可以产生最好的结果。方差分析就是解决这类问题的一种统计分析方法。 6.1 方差分析概述方差分析概述4某大型连锁超市为研究各种促销方式的效果,选择下属 4 个门店,分别采用不同促销方式,对包装食品各进行了4 个月的试验。试验结果如下:超市管理部门希望了解:不同促销方式对销售量是否有显著影响?哪种促销方式的效果最好? 促销方式 与上年同期相比(%) A1 (广告宣传) 104.8 95.5 104.2 103.0 A2 (有奖销售) 11
3、2.3 107.1 109.2 99.2 A3 (特价销售) 143.2 150.3 184.7 154.5 A4 (买一送一) 145.6 111.0 139.8 122.7 【案例【案例1 1】哪种促销方式效果最好】哪种促销方式效果最好?5影响某化工厂化工产品得率的主要因素是反应温度和催化剂种类。为研究产品的最优生产工艺,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了一次试验,测得结果如下: 化工产品得率试验(得率:%)催化剂 温度 B1 B2 B3 A1(60 OC) 66 73 70 A2(70 OC) 81 96 53 A3(80 OC) 97
4、79 66 A4(90 OC) 79 76 88 【案例【案例2 2】如何确定最优生产工艺】如何确定最优生产工艺 6案例案例 2 要研究的问题要研究的问题温度是否对该产品的得率有显著影响?若有显著影响,应将温度控制在什么范围内可使得率最高?催化剂是否对该产品的得率有显著影响?若有显著影响,哪种催化剂的效果最好?温度和催化剂的不同组合是否对产品得率有显著影响?如有显著影响,哪种温度和催化剂的组合可使得率最高?7 记 A, B, C 为试验中状态发生变化的因素, 称因素在试验中所取的不同状态为水平水平。 设因素 A 有 a 个水平,记为 A1, A2, , Aa;因素 B 有 b个水平,记为 B1
5、, B2, , Bb 等。 若试验中只有一个变动的因素,就称为单因素试验; 若有两个变动的因素,就称为双因素试验; 若有两个以上的变动因素,则称为多因素试验。二二. .方差分析的基本假设方差分析的基本假设 设因素 A 在水平 Ai 下的某项指标为总体 Xi,则假定 Xi N( i, 2 ), Xi 相互独立 一一. 方差分析的基本概念方差分析的基本概念8 就是要检验原假设 H0:1 = 2 = = a 是否成立。 若拒绝 H0,就说明因素 A 对试验结果有显著影响,进一步还应确定使效果达到最佳的水平。 若不能拒绝 H0,则说明因素 A 对该项指标无显著影响,试验结果中的差异主要是由其他未加控制
6、的因素和试验误差所引起的。 虽然可以用两两 t 检验法来检验各 i 间是否存在显著差异,但 t 检验无法检验多个因素间的交互效应,而这正是方差分析要解决的主要问题。 三三. .方差分析的目的方差分析的目的96.2 6.2 单因素方差分析单因素方差分析一一. .基本概念基本概念 记水平 Ai 下的 ni 个试验结果为 xij ,则xij = i + iji = 1, 2, a;j = 1, 2, ni ij N(0, 2 ),且相互独立其中 ij 是由各种无法控制的因素引起的随机误差随机误差。 上式说明,试验结果 xij 受到两方面的影响: 因素 A 的水平 Ai 的均值 i 随机误差 ij 1
7、0为一般平均。 称 i = i - ; i = 1, 2, , a nNiii1称) (为试验总次数iinN 从而要检验的原假设可改写为: H0:1= 2 = = a = 0 为水平 Ai 的效应效应,反映了水平 Xi 的均值与一般平均的差异。11二二. .方差分析的基本方法方差分析的基本方法方差分析 的基本思路:将因素的不同水平和随机误差对试验结果的影响进行分离,并比较两者中哪一个对试验结果 xij 的影响起主要作用。若因素的不同水平对试验结果 xij 的影响是主要的,就拒绝 H0,说明因素 A 对试验结果有显著影响;若试验结果 xij 中的差异主要是由随机误差引起的,就不能拒绝 H0,说明
8、因素 A 对试验结果无显著影响。为此,需要对总的偏差平方和进行分解。 12称jijiixnx1)1(ijijxNx1.1.总的偏差平方和总的偏差平方和ijijTxxS2)(为总的偏差平方和总的偏差平方和, 它反映了样本数据 xij 间总的差异量的大小。为便于对 ST 进行分解,记水平 Ai 下的样本均值为 132. 偏差偏差平方和的分解平方和的分解ijijTxxS2)(ijiijexxS2)(iiiAxxnS2)(其中iiiijiiijijiijxxnxxxxxx22)()(2()(iiiijiijxxnxx22)()(ijiiijxxxx2)(AeSS 反映了各样本(同一水平)内的数据差异,
9、主要是由随机误差所引起的,称为误差平方和误差平方和或组内平方和组内平方和。反映了各样本(不同水平)间数据的差异,主要是由因素A的不同水平效应间的差异引起的,称为因素A的平方和的平方和 或 组间平方和组间平方和。利用 SA 和 Se 之比就可以构造出检验 H0 的统计量。 14故在给定水平 下,若 F F (a-1, N-a)/() 1/(aNSaSFeA可以证明, F (a-1, N-a)3. 检验检验 H0 的统计量的统计量当 H0 为真时,统计量就拒绝 H0,说明各水平 Ai 的效应间存在显著差异,或称因素 A 的作用是显著的。由于 SA /(a-1) 和 Se /(N-a) 分别是组间数
10、据和组内数据的样本方差,故称这种基于检验样本方差比的方法为方差分析方差分析。 15若 F F0.001(a-1, N-a),称因素 A 的作用极高度显著;若 F F0.01(a-1, N-a),称因素 A 的作用高度显著;若 F0.01 (a-1, N-a) F F0.05(a-1, N-a),称因素 A 的作用一般显著;若 F F0.05(a-1, N-a),则认为因素 A 的作用不显著。 )/() 1/(aNSaSeA来源平方和自由度均方和F 比显著性ASAa-1SA/(a-1)误差SeN-aSe/(N-a)总和STN-1单因素方差分析表三三. .方差分析表方差分析表16 2. 因素因素
11、A 的各水平间是否都存在显著差异?的各水平间是否都存在显著差异? 这可以通过对各 i 进行两两 t 检验来确定。 如果存在多个效果最好的水平(它们间并无显著差异),就可以有多种最优水平可供决策者选择。 ix 若因素 A 的作用是显著的,接下来还需要确定: 1. 因素因素 A 的哪一水平效果最好?的哪一水平效果最好?四四. .进一步的分析进一步的分析这可以通过求出各来确定, 它是 i 的优良估计。17某大型连锁超市为研究各种促销方式的效果,选择下属4个门店,分别采用不同促销方式,对包装食品各进行了4个月的试验。试验结果如下:超市管理部门希望了解:不同促销方式对销售量是否有显著影响?哪种促销方式的
12、效果最好? 促销方式 与上年同期相比(%) A1(广告宣传) 104.8 95.5 104.2 103.0 A2(有奖销售) 112.3 107.1 109.2 99.2 A3(特价销售) 143.2 150.3 184.7 154.5 A4(买一送一) 145.6 111.0 139.8 122.7 【案例【案例1 1】哪种促销方式效果最好】哪种促销方式效果最好?18可用 Excel 的【工具】“数据分析”“方差分析:单因素方差分析”求解单因素方差分析问题。 案例 1 的方差分析表 其中:P-value P 值,为检验中达到的显著性水平,其含义与 t 检验中“P(T=t)单尾”相同。 F c
13、rit 在水平 (默认0.05)下拒绝域的临界值 F。 P-value = 0.00014 F ( a-1,(a-1)(b-1) ) 时,拒绝 H01;当 FB F ( b-1,(a-1)(b-1) ) 时,拒绝 H02。 ) 1)(1/() 1/(baSbSFeBB同样可以证明:当 H01 为真时,统计量) 1)(1/() 1/(baSaSFeAA F( a-1, (a-1)(b-1) )当 H02 为真时,统计量 F(b-1, ( a-1)(b-1) )4. 检验用的统计量检验用的统计量26 无交互作用的双因素方差分析表来源 平方和 自由度 均方和 F 比 A SA a-1 SA /(a-
14、1) B SB b-1 SB /(b-1) 误差 Se (a-1)(b-1) Se /(a-1)(b-1) 总和 ST ab-1 ) 1)(1/() 1/(baSaSeA) 1)(1/() 1/(baSbSeB5. 方差分析表方差分析表 27影响某化工厂化工产品得率的主要因素是反应温度和使用的催化剂种类。为研究产品的最优生产工艺条件,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了一次试验,测得结果如下: 化工产品得率试验(%)催化剂 温度 B1 B2 B3 A1 (60 OC) 66 73 70 A2 (70 OC) 81 96 53 A3 (80 OC)
15、 97 79 66 A4 (90 OC) 79 76 88 【案例【案例2 2】如何确定最优生产工艺?】如何确定最优生产工艺?28可用 Excel 【工具】“数据分析”“方差分析:无重复双因素分析”求解无交互作用的双因素方差分析问题。 案例2的方差分析表来源 平方和 自由度 均方和 F 比 P-value A 250 3 83.3 0.42 0.743 B 360.5 2 180.3 0.92 0.449 误差 1179.5 6 196.6 总和 1790 11 因素 A 的 P-value = 0.743 0.05 因素 B 的 P-valu = 0.49 0.05 故温度和催化剂对该化工产
16、品的得率都无显著影响!? 案例案例 2 分析分析29 显然,很可能是由于未考虑因素间的交互作用,才导致了错误的分析结果。 问题出在哪里?问题出在哪里?催化剂 温度 B1 B2 B3 A1 (60 OC) 66 73 70 A2 (70 OC) 81 96 53 A3 (80 OC) 97 79 66 A4 (90 OC) 79 76 88 以上结论既不符合实际情况, 也违背化学反应的基本常识。由本案例的试验数据可以明显看出,温度和催化剂不同搭配下的得率之间是存在显著差异的。30 1. 考虑交互作用时的双因素试验考虑交互作用时的双因素试验 交互效应交互效应 记 A, B 间的交互作用为 AB,
17、, i , j 的定义同前。 由于存在交互作用,因此 ij + i + j 称 ( )ij = ij - - i - j为 Ai 与 Bj 的交互效应交互效应,它反映了两因素间不同水平的组合对试验结果的影响。 因此,总体 Xij 的均值可表示为 ij = + i + j + ( )ij 二二. .考虑交互作用的双因素方差分析考虑交互作用的双因素方差分析31(2)(2)要检验的假设要检验的假设由于考虑了交互作用,因此要检验的原假设有以下三个: H01:1= 2 = = a = 0 H02:1= 2 = = b = 0 H03:( )ij = 0;对一切 i, j为检验交互作用,就需要在每一 Ai
18、 Bj 水平组合下进行重复试验。记 xijk 为在 Ai Bj 组合下的第 k 次试验的结果。 32其中 Se , SA , SB 的含义同前;SAB 则主要是由交互效应所引起的差异,称为 AB 间平方和间平方和。 ijkijkTxxS2)( 完全类似地,可以将总的偏差平方和 ST 作如下分解:2.2.偏差平方和的分解偏差平方和的分解BABAeSSSS33故 H01, H02, H03 的拒绝域分别为: FA F( a-1,ab(n-1) ) FB F( b-1,ab(n-1) ) FAB F( (a-1)(b-1),ab(n-1) ) 当 H02为真时,) 1(/) 1/(nabSbSFeB
19、B 同样可以证明:当 H01为真时,) 1(/) 1/(nabSaSFeAA F( a-1, ab(n-1) ) 当 H03为真时,) 1(/) 1)(1/(nabSbaSFeBABA F( (a-1)(b-1), ab(n-1) )F( b-1, ab (n-1) )3.3.检验用的统计量检验用的统计量34 有交互作用的双因素方差分析表来源 平方和 自由度 均方和 F 比 A SA a-1 SA /(a-1) B SB b-1 SB /(b-1) AB SAB (a-1)(b-1) SAB /(a-1)(b-1) 误差 Se ab(n-1) Se /ab(n-1) 总和 ST abn-1 )
20、 1(/) 1/(nabSaSeA) 1(/) 1/(nabSbSeB) 1(/) 1)(1/(nabSbaSeBA4.4.方差分析表方差分析表 35影响某化工厂产品得率的主要因素是反应温度和使用的催化剂种类。为研究产品的最优生产工艺条件,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了两次试验,测得结果如下: 化工产品得率试验(%)催化剂 温度 B1 B2 B3 A1 (60 oC) 66, 58 73, 68 70, 65 A2 (70 oC) 81, 79 96, 97 53, 55 A3 (80 oC) 97, 95 79, 69 66, 56 A4
21、 (90 oC) 79, 71 76, 56 88, 82 【案例【案例2 2】如何确定最优生产工艺?】如何确定最优生产工艺? 36可用 Excel 【工具】“数据分析”“方差分析:可重复双因素分析” 求解考虑交互作用的双因素方差分析问题。来源 平方和 自由度 均方和 F 比 P-value A 435.5 3 145.2 4.21 0.0298 B 611.1 2 305.5 8.87 0.0043 AB 2912.9 6 485.5 14.09 8.3E-5 误差 413.5 12 34.5 总和 4373.0 23 方差分析表重新求解案例重新求解案例2 2 37运行结果分析运行结果分析
22、因素 A 的 P-value = 0.0298 0.05 因素 B 的 P-value = 0.0043 0.01 交互作用的 P-value = 8.3E-5 0.001 温度对得率有显著影响; 催化剂对得率的影响是高度显著的; 温度与催化剂的交互作用对得率的影响是极高度显著的。 这说明各种催化剂都有最佳的催化温度。 由本案例可知,如果因素间存在显著的交互作用而在方差分析时未加考虑,就会得出错误结论。 故对双因素和多因素方差分析,通常都应考虑交互作用。 38进一步的分析进一步的分析 由 Excel 的运行输出结果还可得到各ijx可知 A2B2 和 A3B1 这两种组合可使得率最高,且这两种组合的平均得率之间无显著差异,而其他组合与它们之间都存在显著差异。在使用第二种催化剂时,应将温度控制在 70 oC;而使用第一种催化剂时,应将温度控制在80 oC 。平均得率都可达到 96% 左右。 如下: B1 B2 B3 A1 62 70.5 67.5 A2 80 96.5 54 A3 96 74 61 A4 75 66 85 ijx