1、2022-7-221第七章第七章 方差分析方差分析一、一、二、二、三、三、四、四、五、五、六、六、七、七、2022-7-222 方差分析方差分析(Analysis of Variance,ANOVA)是假设检验的一种延续与扩展,它可以解决诸如多个总体均值是否相等等方面的检验问题,在因素分析中具有一定的优势。方差分析主要用来对方差分析主要用来对多多个总体均值是否相等个总体均值是否相等作出假设检验,作出假设检验,研究分类型分类型自变量对数值型因变量的影响自变量对数值型因变量的影响。例:例:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。该制造商想知道颜色
2、是否对销售量有显著影该制造商想知道颜色是否对销售量有显著影响响,随机抽取了5家超市前一期的销售量(表1)进行分析。一、方差分析的内容一、方差分析的内容2022-7-223表表1 四种颜色饮料的销售量及均值四种颜色饮料的销售量及均值超市超市(j)水平水平A(i)无色无色(A1)粉红粉红(A2)橘黄色橘黄色(A3)绿色绿色(A4)1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8合计合计136.6147.8132.2157.3573.9水平均值水平均值观察值个数观察值个数样本方差
3、样本方差样本标准差样本标准差 x1=27.32n1=52.671.64x2=29.56n2=52.141.46x3=26.44n3=53.311.82x4=31.46n4=51.661.29总均值总均值x=28.695一、方差分析的内容一、方差分析的内容2022-7-224 其中,其中,i(I=1,2,3,4)表示所有饮料(无色、表示所有饮料(无色、粉红、橘黄、绿色)销售量之均值。粉红、橘黄、绿色)销售量之均值。要知道颜色是否对饮料销售有显著影响,要知道颜色是否对饮料销售有显著影响,就是要知道四种颜色饮料销售量的均值是否就是要知道四种颜色饮料销售量的均值是否有显著差异有显著差异,即进行下述假设
4、检验:,即进行下述假设检验:H0:1=2=3=4 H1:四个总体均值不全相等四个总体均值不全相等一、方差分析的内容一、方差分析的内容2022-7-225 因素或因子:因素或因子:是一个独立的变量,是方差分析是一个独立的变量,是方差分析的研究对象的研究对象 (例中饮料的颜色);(例中饮料的颜色);单因素方差分析:单因素方差分析:只针对一个因素进行分析;只针对一个因素进行分析;多因素方差分析:多因素方差分析:同时针对多个因素进行分析。同时针对多个因素进行分析。水平或处理:水平或处理:因子的不同表现因子的不同表现 (例中饮料的四种不同颜色:无色、粉红、(例中饮料的四种不同颜色:无色、粉红、橘黄色、绿
5、色橘黄色、绿色););二、方差分析的有关术语及假设二、方差分析的有关术语及假设2022-7-226试验试验收集样本数据的过程。这里若只考虑颜色一个因素,则收集样本数据的过程。这里若只考虑颜色一个因素,则可称为单因素四水平的试验可称为单因素四水平的试验总体总体因素的每一个水平可以看作是一个总体因素的每一个水平可以看作是一个总体比如比如A1、A2、A3、A4四种颜色可以看作是四个总体四种颜色可以看作是四个总体样本数据样本数据上面的数据可以看作是从这四个总体中抽取的样本数据上面的数据可以看作是从这四个总体中抽取的样本数据 二、方差分析的有关术语及假设二、方差分析的有关术语及假设2022-7-227
6、(1 1)每个总体都应服从正态分布每个总体都应服从正态分布 (2 2)各个总体的方差各个总体的方差 2必须相等必须相等 (3 3)不同观测值是独立的(每个样本点的取值不不同观测值是独立的(每个样本点的取值不影响其他样本点的取值)影响其他样本点的取值)样本来自于一个相同的总体样本来自于不同的总体 二、方差分析的有关术语及假设二、方差分析的有关术语及假设2022-7-228 分析可知,四种颜色饮料销售量的差异主要来自分析可知,四种颜色饮料销售量的差异主要来自以下两个方面:以下两个方面:随机误差:随机误差:在因素的同一水平在因素的同一水平(同一个总体同一个总体)下,下,样本的各观察值之间的差异。比如
7、,同一种颜色的饮样本的各观察值之间的差异。比如,同一种颜色的饮料在不同超市上的销售量是不同的,不同超市销售量料在不同超市上的销售量是不同的,不同超市销售量的差异可以看成是的差异可以看成是随机因素随机因素的影响,或者说是的影响,或者说是由于抽由于抽样的随机性所造成的样的随机性所造成的,称为,称为随机误差。随机误差。系统误差:系统误差:在因素的不同水平在因素的不同水平(不同总体不同总体)下,各下,各观察值之间的差异。比如,同一家超市,不同颜色饮观察值之间的差异。比如,同一家超市,不同颜色饮料的销售量也是不同的,这种差异料的销售量也是不同的,这种差异可能可能是由于抽样的是由于抽样的随机性所造成的,随
8、机性所造成的,也可能也可能是由于颜色本身所造成的,是由于颜色本身所造成的,后者所形成的误差是后者所形成的误差是由由系统性因素系统性因素造成的造成的,称为,称为系统系统误差。误差。三、方差分析的原理三、方差分析的原理2022-7-229数据的误差用平方和数据的误差用平方和(sum of squares)表示表示1.组内平方和组内平方和(within groups)因素的同一水平下数据误差的平方和因素的同一水平下数据误差的平方和p 比如,无色饮料比如,无色饮料A1在在5家超市销售量的误差平方和家超市销售量的误差平方和只包含只包含随机误差随机误差2.组间平方和组间平方和(between groups
9、)因素的不同水平之间数据误差的平方和因素的不同水平之间数据误差的平方和p 比如,比如,A1、A2、A3、A4四种颜色饮料销售量之间四种颜色饮料销售量之间 的误差平方和的误差平方和既包括既包括随机误差随机误差,也包括,也包括系统误差系统误差三、方差分析的原理三、方差分析的原理2022-7-2210两类方差两类方差组内方差组内方差(MSE)因素的同一水平因素的同一水平(同一个总体同一个总体)下样本数据的方差下样本数据的方差比如,无色饮料比如,无色饮料A1在在5家超市销售数量的方差家超市销售数量的方差组内方差只包含组内方差只包含随机误差随机误差组间方差组间方差(MSA)因素的不同水平因素的不同水平(
10、不同总体不同总体)下各样本之间的方差下各样本之间的方差比如,比如,A1、A2、A3、A4四种颜色饮料销售量之间四种颜色饮料销售量之间的方差的方差组间方差既包括组间方差既包括随机误差随机误差,也包括,也包括系统误差系统误差三、方差分析的原理三、方差分析的原理2022-7-2211方差比较方差比较若不同颜色对销售量若不同颜色对销售量没有影响没有影响,则组间方差中,则组间方差中只包含随只包含随机误差,没有系统误差机误差,没有系统误差。这时,组间方差与组内方差的。这时,组间方差与组内方差的数值就应该很接近,它们的比值就会接近数值就应该很接近,它们的比值就会接近1若不同颜色对销售量若不同颜色对销售量有影
11、响有影响,在组间方差中,在组间方差中除了包含随除了包含随机误差外,还会包含系统误差机误差外,还会包含系统误差,这时组间方差的数值就,这时组间方差的数值就会大于组内方差的数值,它们之间的比值就会大于会大于组内方差的数值,它们之间的比值就会大于1当这个当这个比值大到某种程度比值大到某种程度时,就可以说不同水平之间存时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响在着显著差异,也就是自变量对因变量有影响所剩问题归结为:比值多大,才能拒绝原假设。所剩问题归结为:比值多大,才能拒绝原假设。可通过计算可通过计算F统计量进行统计量进行F检验检验来判断。来判断。三、方差分析的原理三、方差分析
12、的原理2022-7-2212 观察值之间的差异来自两个方面:MSAFMSE组间方差组内方差某因素不同水平的影响(系统性影响)其他随机因素的影响(随机性影响)水平间方差(组间方差)水平内方差(组内方差)小结:小结:如果原假设成立:如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。三、方差分析的原理三、方差分析的原理2022-7-2213(一)单因素方差分析的数据结构(一)单因素方差分析的
13、数据结构 (one-way analysis of variance)观察值观察值 (j)因素因素A(i)水平水平A1 水平水平A2 水平水平Ak12:ni x11 x21 xk1 x12 x22 xk2 :11nx22nxkknx四、单因素方差分析四、单因素方差分析2022-7-2214四、单因素方差分析四、单因素方差分析2022-7-22151、提出假设、提出假设一一般提法般提法H0:1=2=k 自变量对因变量没有显著影响自变量对因变量没有显著影响 H1:1,2,k不不全全相等相等自变量对因变量有显著影响自变量对因变量有显著影响 注意:拒绝原假设,只表明注意:拒绝原假设,只表明至少至少有两
14、个总有两个总体的均值不相等,并不意味着所有的均值体的均值不相等,并不意味着所有的均值都不相等都不相等 2022-7-2216 构造检验统计量需要计算构造检验统计量需要计算(1)(2)(3)(4)(5)2、构造检验的统计量、构造检验的统计量2022-7-2217假定从假定从第第i个总体中抽取一个容量个总体中抽取一个容量为为ni的简单的简单随机样本,第随机样本,第i个总体的样本均值为该样本的个总体的样本均值为该样本的全部观察值总和除以观察值的个数全部观察值总和除以观察值的个数计算公式为计算公式为),2,1(1kinxxinjijii(1)计算水平的均值计算水平的均值2022-7-2218全部观察值
15、的总和除以观察值的总个数全部观察值的总和除以观察值的总个数计算公式为计算公式为 kkiiikinjijnnnnnxnnxxi21111式中:(2)计算全部观察值的总均值)计算全部观察值的总均值2022-7-2219总误差平方和(总误差平方和(sum of squares for total,SST)全全部观察值部观察值 与总平均值与总平均值 的离差平方和的离差平方和反映全部观察值的离散状况反映全部观察值的离散状况其计算公式为其计算公式为ijxxkinjijixxSST112(3)计算计算误差平方和误差平方和2022-7-2220各组平均值各组平均值 与总平均值与总平均值 的离差的离差平方和平方
16、和(Sum of Squares for Factor A,SSA)反映各总体的样本均值之间的差异程度,又称反映各总体的样本均值之间的差异程度,又称组组间平方和间平方和该平方和既包括随机误差,也包括系统误差该平方和既包括随机误差,也包括系统误差计算公式为计算公式为 kiiikinjixxnxxSSAi12112),2,1(kixix水平项平方和水平项平方和SSA(3)计算计算误差平方和误差平方和2022-7-2221每个水平或组的各样本数据与其组平均值的离差每个水平或组的各样本数据与其组平均值的离差平方和平方和(Sum of Squares for Error,SSE)反映每个样本各观察值的离
17、散状况,又称反映每个样本各观察值的离散状况,又称组内平组内平方和方和该平方和反映的是随机误差的大小该平方和反映的是随机误差的大小计算公式为计算公式为 kinjiijixxSSE112误差项平方和误差项平方和SSE(3)计算计算误差平方和误差平方和2022-7-2222可以证明可以证明:总离差平方和总离差平方和(SST)、误差项误差项离差平方和离差平方和(SSE)、水平项离差平方和水平项离差平方和(SSA)之间有如下关系之间有如下关系kinjiijkiiikinjijiixxxxnxx11212112n 在本例中,可以验证:在本例中,可以验证:115.930=76.846+39.084三个平方和
18、的关系三个平方和的关系(3)计算计算误差平方和误差平方和2022-7-2223 SST反映全部数据总的误差程度;反映全部数据总的误差程度;SSE反映随机误反映随机误差的大小;差的大小;SSA反映随机误差和系统误差的大小反映随机误差和系统误差的大小如果原假设成立,则表明没有系统误差,如果原假设成立,则表明没有系统误差,SSA除以除以其自由度其自由度后的均方(后的均方(组间均方组间均方)与与SSE除以其自由除以其自由度度后的均方(后的均方(组内均方组内均方)差异就不会太大;如果)差异就不会太大;如果组组间均方间均方显著地大于显著地大于组内均方组内均方,说明各水平,说明各水平(总体总体)之之间的差异
19、不仅有随机误差,还有系统误差间的差异不仅有随机误差,还有系统误差判断因素的水平是否对其观察值有影响,实际上就判断因素的水平是否对其观察值有影响,实际上就是比较是比较组间方差组间方差与与组内方差组内方差之间差异的大小之间差异的大小三个平方和的作用三个平方和的作用(3)计算计算误差平方和误差平方和2022-7-2224各误差平方和各误差平方和的大小与观察值的多少有关,为的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需消除观察值多少对误差平方和大小的影响,需要要将其平均将其平均,这就是,这就是均方均方,也称为,也称为方差方差计算方法是用误差平方和除以相应的自由度计算方法是用误差平
20、方和除以相应的自由度三个平方和对应的自由度分别是三个平方和对应的自由度分别是SST的的自由度为自由度为n-1,其中其中n为全部观察值的个数为全部观察值的个数SSA的的自由度为自由度为k-1,其中其中k为因素为因素水平水平(总体总体)的的个个数数SSE 的的自由度为自由度为n-k注:注:n-1=(k-1)+(n-k)(4)计算均方计算均方MS2022-7-2225 组间方差组间方差:SSA的均方,记为的均方,记为MSA,计算公计算公式为式为1kSSAMSA组内方差组内方差knSSEMSE76.84625.61254 1MSA前例计算结果:39.0842.4428204MSE 前例计算结果:(4)
21、计算均方计算均方MS2022-7-2226将将MSA和和MSE进行对比,即得到所需要的检进行对比,即得到所需要的检验统计验统计量量F当当H0为真时,二者的比值服从分子自由度为真时,二者的比值服从分子自由度为为k-1、分母自由度为分母自由度为 n-k 的的 F 分布分布,即,即),1(knkFMSEMSAF25.615210.4862.4428F 前例计算结果:(5)计算检验统计量计算检验统计量 F 2022-7-2227F分布与拒绝域分布与拒绝域(5)计算检验统计量计算检验统计量 F 2022-7-2228 将统计量的将统计量的值值F与给定的显著性水平与给定的显著性水平 的的临界值临界值F 进
22、行比较,作出对原假设进行比较,作出对原假设H0的决策的决策根据给定的显著性水平根据给定的显著性水平,在,在F分布表中查找与分布表中查找与第一自由度第一自由度df1k-1、第二自由度第二自由度df2=n-k 相应相应的临界值的临界值 F 若若FF ,则拒绝原假设则拒绝原假设H0,表明均值之间的表明均值之间的差异是显著的,所检验的因素对观察值有显著差异是显著的,所检验的因素对观察值有显著影响影响若若F3.24,因此拒绝原假设,从而得出:颜色对该公司饮料销售有显颜色对该公司饮料销售有显著影响。著影响。3、统计决策、统计决策 2022-7-2230(三)单因素方差分析表(三)单因素方差分析表(基本结构
23、基本结构)四、单因素方差分析四、单因素方差分析2022-7-2231(三)单因素方差分析表(三)单因素方差分析表(例题分析例题分析)四、单因素方差分析四、单因素方差分析2022-7-2232 如果同时需考虑两个因素两个因素A与B的影响,则可进行双因素方差分析双因素方差分析。双因素方差分析中需假设两个因素有无交互作用,双因素方差分析中需假设两个因素有无交互作用,即各自是否独立地发挥影响作用即各自是否独立地发挥影响作用。1.数据结构数据结构五、双因素方差分析五、双因素方差分析2022-7-22332.2.离差平方和的分解离差平方和的分解SSTSSCSSRSSE其中:rjkiijxxSST112)(
24、22111(.)(.)rkrjjjijSSCxxk xx22111(.)(.)rkkiijiiSSRxxr xxSSESSTSSCSSR可以证明:于是五、双因素方差分析五、双因素方差分析2022-7-2234表3 双因素方差分析表误差来源 平方和 自由度 均方差 F值 A因素 SSC r-1 MSC=SSC/(r-1)FC=MSC/MSE B因素 SSR k-1 MSR=SSR/(k-1)FR=MSR/MSE 随机误差 SSE (r-1)(k-1)MSE=SSE/(r-1)(k-1)合计 SST n-1 SST/(n-1)差异源SSdfMSFP-valueF crit行5.36741.3417
25、5 0.477534 0.7518043.25916列76.84553 25.61517 9.116529 0.0020273.4903误差33.717122.80975总计115.929519 在饮料销售例饮料销售例中,如果我们还关心不同超市是否对销售有影响,这时可将5个不同的超市作为因素B考虑,它有5个水平。双因素分析结果如下:五、双因素方差分析五、双因素方差分析2022-7-2235拒绝原假设表明因素拒绝原假设表明因素(自变量自变量)与观测值之间有与观测值之间有关系关系组间平方和组间平方和(SSA)度量了自变量度量了自变量(颜色颜色)对因变量对因变量(销售量销售量)的影响效应的影响效应只
26、要组间平方和只要组间平方和SSA不等于不等于0,就表明两个变量之,就表明两个变量之间有关系间有关系(只是是否显著的问题只是是否显著的问题)当组间平方和比组内平方和当组间平方和比组内平方和(SSE)大,而且大到一大,而且大到一定程度时,就意味着两个变量之间的关系显著,定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱表明它们之间的关系就越弱六、关系强度的测量六、关系强度的测量 2022-7-2236变量间关系的
27、强度用自变量平方和变量间关系的强度用自变量平方和(SSA)占总平方和占总平方和(SST)的比例大小来反映的比例大小来反映自变量平方和占总平方和的比例记为自变量平方和占总平方和的比例记为R2,即即其平方根其平方根R就可以用来测量两个变量之间的关系强度,就可以用来测量两个变量之间的关系强度,取值范围取值范围01。2()()()SSARSST组间平方和单因素总平方和2()SSRSSCRSST联合效应双因素总效应六、关系强度的测量六、关系强度的测量 2022-7-2237第第1步:步:选择选择“工具工具”下拉菜单下拉菜单第第2步:步:选择选择“数据分析数据分析”选项选项第第3步:步:在分析工具中选择在
28、分析工具中选择“单因素方差分析单因素方差分析”,然后选择然后选择“确定确定”第第4步:步:当对话框出现时当对话框出现时 在在“输入区域输入区域”方框内键入数据单元格区域方框内键入数据单元格区域 在在 方框内键入方框内键入0.05(可根据需要确定)(可根据需要确定)在在“输出选项输出选项”中选择输出区域中选择输出区域七、七、用用Excel进行方差分析进行方差分析(步骤步骤)2022-7-2238一、方差分析有关概念及原理一、方差分析有关概念及原理 何谓方差分析?何谓方差分析?方差分析的基本假定方差分析的基本假定 方差分析的基本思想及原理方差分析的基本思想及原理 误差来源的分解(总离差平方和、组间离差平方和、误差来源的分解(总离差平方和、组间离差平方和、组内离差平方和)组内离差平方和)二、单因素方差分析二、单因素方差分析(分析步骤:提出假设、构造检验分析步骤:提出假设、构造检验统计量、作决策;统计量、作决策;看懂方差分析表看懂方差分析表)三、关系强度的测定三、关系强度的测定四、双因素的方差分析表四、双因素的方差分析表