1、中央财经大学统计学院第第5章章 方差分析方差分析Analysis of Variance(ANOVA)5.1 方差分析简介5.2 单因素方差分析5.3 双因素方差分析中央财经大学统计学院 2学习目标学习目标l掌握方差分析中的基本概念;l掌握方差分析的基本思想和原理;l掌握单因素方差分析的方法及应用;l初步了解多重比较方法的应用;l了解双因素方差分析的方法及应用。中央财经大学统计学院 35.1 方差分析中的基本概念方差分析中的基本概念和假设和假设 中央财经大学统计学院 4为什么要进行方差分析?为了比较四个专业的起薪,我们从某高校四个专业的毕业生中分别随机选择6人调查他们的起薪。如何根据样本数据比
2、较不同专业毕业生的平均起薪?中央财经大学统计学院 5要研究的问题要研究的问题总体总体1 1,1 1(专业(专业=1=1)总体总体2 2,2 2 (专业专业=2=2)总体总体3 3,3 3(专业专业=3=3)样本样本1 1样本样本2 2样本样本3 3样本样本4 4总体总体4 4,4 4(专业专业=4=4)211,sx222,sx233,sx244,sx?4321中央财经大学统计学院 6各个总体的均值相等吗?各个总体的均值相等吗?Xf(X)1 2 3 4Xf(X)3 1 2 4 中央财经大学统计学院 7研究方法:两样本的研究方法:两样本的t检验?检验?l用t检验比较两个均值:l每次只能比较两个均值
3、,要解决上述问题需要进行6次t检验l在整体检验中犯第一类错误的概率显著增加:如果在每次t检验中犯第一类错误的概率等于5%,则在整体检验中等于1-(1-0.05)6=0.2649中央财经大学统计学院 8方差分析可以用来比较多个均值方差分析可以用来比较多个均值l方差分析(Analysis of variance,ANOVA)的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。l可以看作t检验的扩展,只比较两个均值时与t检验等价。l20世纪20年代由英国统计学家费希尔(R.A.Fisher)最早提出的,开始应用于生物和农业田间试验,以后在许多学科中得到了广泛应用。中央财经大学统计学院 95.
4、1.1 方差分析中的几个基本概念方差分析中的几个基本概念l因变量:我们实际测量的、作为结果的变量,例如失业持续时间。l自变量:作为原因的、把观测结果分成几个组以进行比较的变量例如奖金水平。l在方差分析中,自变量也被称为因素(factor)。l因素的不同表现,即每个自变量的不同取值称为因素的水平。中央财经大学统计学院 105.1.1 基本概念基本概念l方差分析主要用来研究一个定量因变量与一个或多个定性自变量的关系l只有一个自变量的方差分析称为单因素方差分析。l研究多个因素对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。中央财经大学统计学院 115.1.1:固定效应与
5、随机效应模型:固定效应与随机效应模型 l固定效应模型:因素的所有水平都是由实验者审慎安排而不是随机选择的。l随机效应模型:因素的水平是从多个可能的水平中随机选择的。l固定效应和随机效应模型在假设的设置和参数估计上有所差异,本章研究的都是固定效应模型。中央财经大学统计学院 125.1.2:方差分析中的基本假设:方差分析中的基本假设l(1)在各个总体中因变量都服从正态分布;l(2)在各个总体中因变量的方差都相等;l(3)各个观测值之间是相互独立的。中央财经大学统计学院 13(1)正态性的检验)正态性的检验 l各组数据的直方图l峰度系数、偏度系数lQ-Q图,K-S检验*中央财经大学统计学院 14(2
6、)等方差性的检验)等方差性的检验 l经验方法:计算各组数据的标准差,如果最大值与最小值的比例小于2:1,则可认为是同方差的。最大值和最小值的比例等于1.833.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。变差源SSdfMSFP-valueF crit组间625.162312.5811.430.00023.32组内820.723027.36总计1445.8832中央财经大学统计学院 325.2.4 方差分析中的多重比较方差分析中的多重比较l在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显著差异。但要进一步检验哪些均值之间有显著差异还需要采用多重
7、比较的方法进行分析。这在方差分析中称为事后检验(Post Hoc test)。l多重比较是对各个总体均值进行的两两比较。方法很多,如Fisher最小显著差异(Least Significant Difference,LSD)方法、Tukey的诚实显著差异(HSD)方法或Bonferroni的方法等。这里我们只介绍最小显著差异方法。中央财经大学统计学院 33用用LSD法进行多重比较的步骤法进行多重比较的步骤l1、提出假设lH0:i=jlH1:i jl2、计算检验的统计量 l3a、如果 或 则拒绝H0。l3b、计算 的置信区间:如果0包含在该置信区间内则不能拒绝H0,否则拒绝H0。)11(jiji
8、nnMSExxt2/tt2/tt jixx)11()(2/jijinnMSEtxx中央财经大学统计学院 34实例:热带雨林采伐实例:热带雨林采伐l很多统计软件都可以直接进行多重比较。下表是SPSS对热带雨林例子的输出结果。l置信区间5.3114.03,3.2612.68不包括0,差异显著。l置信区间-6.043.02包括了0,差异不显著。(I)采伐类型(J)采伐类型均值差(I-J)标准误p-值95%置信区间下限上限从未采伐过1年前采伐过9.672.140.00015.3114.038年前采伐过7.972.310.00173.2612.681年前采伐过从未采伐过-9.672.140.0001-1
9、4.03-5.318年前采伐过-1.692.310.4682-6.403.028年前采伐过从未采伐过-7.972.310.0017-12.68-3.261年前采伐过1.692.310.4682-3.026.40中央财经大学统计学院 355.3 双因素方差分析双因素方差分析l5.3.1 无交互作用的双因素方差分析l5.3.2 有交互作用的双因素方差分析l5.3.3 双因素方差分析的步骤中央财经大学统计学院 36交互作用交互作用l交互作用即一个因素对因变量的影响程度受另一个因素的影响的情况。l假设学生分两类:在校和在职。把两类学生随机分成两组,分别采用课堂讲授和交互式教学方法,考试结果如下表。l可
10、见课堂讲授的方式更适合于在校生,交互式教学方式更适合于在职生。在这种情况下我们说两个因素之间存在着交互作用。课堂讲授交互式教学在校学生9075在职学生7590中央财经大学统计学院 37双因素方差分析的类型和基本假设双因素方差分析的类型和基本假设l双因素方差分析中因素A和B对结果的影响相互独立时称为无交互作用的双因素方差分析。l如果除了A和B对结果的单独影响外还存在交互作用,这时的双因素方差分析称为有交互作用的双因素方差分析。l双因素方差分析中的基本假设是各个子总体都服从正态分布,有相同的方差,并且各个观测值之间相互独立(与单因素时相同)。中央财经大学统计学院 385.3.1无交互作用的双因素方
11、差分析模型无交互作用的双因素方差分析模型l在无交互作用的双因素方差分析模型中因变量的取值受四个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;以及误差项。写成模型的形式就是:ijkiiijX中央财经大学统计学院 395.3.1无交互作用的双因素方差分析模型无交互作用的双因素方差分析模型l离差平方和的分解:SSESSBSSAXXXXXXrmXXsmXXSSTrisjmkjiijksjjriirisjmkijk111212121112)()()()(SSASSBSSESST中央财经大学统计学院 40无交互作用的双因素方差分析表无交互作用的双因素方差分析表变差来源离差平方和SS自由度d
12、f均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSE误 差SSEn-r-s+1MSE=SSE/(n-r-s+1)合 计SSTn-1中央财经大学统计学院 415.3.2 有交互作用的双因素方差分析模型有交互作用的双因素方差分析模型l在有交互作用的双因素方差分析模型中因变量的取值受五个因素的影响:总体的平均值;因素A导致的差异;因素B导致的差异;由因素A和因素B的交互作用导致的差异;以及误差项。写成模型的形式就是:ijkijiiijX)(中央财经大学统计学院 425.3.2 有交互作用的双因素方差分析模型有交
13、互作用的双因素方差分析模型l离差平方和的分解:SSESSABSSBSSAXXXXXXmXXrmXXsmXXSSTrisjmkijijkrisjjiijsjjriirisjmkijk 111211212121112)()()()()(SSTSSASSBSSESSAB中央财经大学统计学院 43有交互作用的双因素方差分析表有交互作用的双因素方差分析表变异来源离差平方和SS自由度df均方MSF值A因素SSAr-1MSA=SSA/(r-1)FA=MSA/MSEB因素SSBs-1MSB=SSB/(s-1)FB=MSB/MSEAB交互作用SSAB(r-1)(s-1)MSAB=SSAB/(r-1)(s-1)F
14、AB=MSAB/MSE误 差SSErs(m-1)MSE=SSE/rs(m-1)合 计SSTn-1中央财经大学统计学院 445.3.3 双因素方差分析的步骤(双因素方差分析的步骤(1)l双因素方差分析的步骤与单因素分析类似,主要包括以下步骤:l1.分析所研究数据能否满足方差分析要求的假设条件,需要的话进行必要的检验。如果假设条件不满足需要先对数据进行变换。中央财经大学统计学院 455.3.3 双因素方差分析的步骤(双因素方差分析的步骤(2)l2、提出零假设和备择假设。双因素方差分析可以同时检验两组或三组零假设和备择假设。l要说明因素A有无显著影响,就是检验如下假设:l要说明因素B有无显著影响,就
15、是检验如下假设:l在有交互作用的双因素方差中,要说明两个因素的交互作用是否显著还要检验第三组零假设和备择假设:0:210rH0:211不全为,rH0:210sH0:211不全为,sH0)()(:rs12110H0)()()(:rs12111不全为,H中央财经大学统计学院 465.3.3 双因素方差分析的步骤(双因素方差分析的步骤(3)l 3、计算F检验值。l4、根据实际值与临界值的比较,或者p-值与的比较得出检验结论。l与单因素方差分析的情况类似,对FA、FB和FAB,当F的计算值大于临界值F(或者p-值)时 拒绝零假设H0。中央财经大学统计学院 47双因素方差分析:起薪的例子(双因素方差分析
16、:起薪的例子(1)同时考虑专业和性别因素,二者对起薪有显著影响吗?(假设无交互作用)序号序号专业专业性别性别起薪起薪(元)(元)1103000210310031033004114000511370061135007203500中央财经大学统计学院 48双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(2)l1、同时考虑两个因素时,每种实验条件下的数据只有3个,不适合直接进行正态性和等方差性检验。假设这些条件成立。l2、提出假设(有交互作用的方差分析模型):l对专业因素:l对性别因素:0:43210H0:43211不全为,H0:210H0:211不全为,H中央财经大学统计学院 49双因素方
17、差分析:起薪的例子(双因素方差分析:起薪的例子(3)l在SPSS菜单中选择“分析”“一般线性模型”“单变量”,经过相应的设定后输出的方差分析表。源III 型平方和df均方FSig.校正模型7528333 41882083.33 17.52 0.0000 截距216600417 1216600416.67 2019.12 0.0000 专业4927917 31642638.89 15.29 0.0000 性别2600417 12600416.67 24.20 0.0001 误 差2041250 19107434.21 总计226170000 24校正的总计9569583 23中央财经大学统计学院
18、 50双因素方差分析:起薪的例子(双因素方差分析:起薪的例子(4)l由于专业变量对应的p值(Sig.一栏)为0.0000,说明在考虑了性别因素以后各专业之间的平均起薪差异仍然是显著的。l从性别对起薪的影响看,该变量对应的p值为0.0001,小于通常使用的a值,说明平均起薪的性别差异也是显著的。中央财经大学统计学院 51双因素方差分析:失业保险的例子(双因素方差分析:失业保险的例子(1)年龄组123928894奖 11008980859078868878金21088972937579967782水 3927975907181788782平 4757368768372 同时考虑奖金和年龄因素,二者
19、对失业时间有显著影响吗?中央财经大学统计学院 52双因素方差分析:失业保险的例子(双因素方差分析:失业保险的例子(2)l1、同时考虑奖金水平和年龄因素时,每种实验条件下的数据只有3个,不适合直接进行正态性和等方差性检验。假设这些条件成立。l2、提出假设(有交互作用的方差分析模型):l对奖金因素:l对年龄因素:l对交互作用:0:43210H0:43211不全为,H0:3210H0:3211不全为,H0)()(:4312110H0)()()(:4312111不全为,H中央财经大学统计学院 53双因素方差分析:失业保险的例子(双因素方差分析:失业保险的例子(3)源III 型平方和df均方FSig.校
20、正模型1856 11168.69 4.20 0.0016 截距250167 1250166.69 6223.91 0.0000 奖金625 3208.32 5.18 0.0067 年龄720 2360.11 8.96 0.0012 奖金*年龄510 685.07 2.12 0.0887 误差965 2440.19 总计252987 36校正的总计2820 35中央财经大学统计学院 54双因素方差分析:失业保险的例子(双因素方差分析:失业保险的例子(4)l4、结论:l在5%的显著性水平下奖金水平对就业时间影响显著;l年龄对就业时间有显著影响;l奖金水平与年龄的交互作用的影响不显著 中央财经大学统
21、计学院 55小结小结(1)l1、方差分析(ANOVA),一般用来分析一个定量因变量与一个或几个定性自变量(因素)之间的关系,它可以对多个总体的均值是否相等进行整体检验。l2、根据研究所涉及的因素的多少,方差分析可分为单因素方差分析和多因素方差分析(包括双因素方差分析)。l3、方差分析中的基本假设是,来自各个总体的数据都服从正态分布,相互独立,且有相同的方差。中央财经大学统计学院 56小结小结(2)l4、方差分析的基本思想是,将观察值之间的总变差分解为由所研究的因素引起的变差和由随机误差项引起的变差,通过对这两类变差的比较做出接受或拒绝原假设的判断的。l5、方差分析的主要步骤包括:建立假设;计算F检验值;根据实际值与临界值的比较做出决策。l6、在方差分析中,当拒绝H0时表示至少有两个均值有显著差异。但要知道哪些均值之间有显著差异还需要借助于多重比较的方法,例如LSD方法。