1、1实用统计方法实用统计方法第三章 方差分析2第三章第三章 方差分析方差分析(ANOVA)方差分析(Analysis of Variance,简记为 ANOVA)是分析试验数据的一种常用统计方法.在方差分析中,我们把试验数据(响应变量)的总变差(总波动)分解为所考察因素(分类变量)的变差和由随机因素引起的变差,然后通过分析比较这些变差来推断哪些因素对指标(响应变量)影响最显著,哪些不显著.对多个总体的均值进行统计推断通常使用方差分析.3第三章第三章 3.1 单因子单因子方差分析方差分析H0:所有均值相等所有均值相等H1:至少有一对至少有一对均值不等均值不等 例例3.1.1 为了比较五种品牌的胶合
2、板的耐久性,对每个品牌取四个样品做摩擦试验,测量磨损掉的板材量,磨损量小的品牌质量是较好的。根据磨损量我们来比较五种品牌.多重比较的问题也是以下假设检验问题.4第三章第三章 3.1 单因子单因子方差分析方差分析在方差分析中:在方差分析中:指标(或称因变量或响应变量):记录在各种试验条件下的观测结果;若干个因素(或称自变量或分类变量):设定观测的试验条件.分类变量的不同值又称为水平.磨损量的变化=平均水平 +品牌的不同 +误 差 5第三章第三章 3.1 单因子单因子方差分析方差分析 方差分析将观测到的响应变量的变差分解为由于分类变量不同水平产生的(组间)变差和随机误差(组内)进行分析.组组 间间
3、 组组 内内 全全 部部 变变 差差1234组内变差组均值组均值组间变差组间变差6第三章第三章 3.1 单因子单因子方差分析方差分析-观测数据观测数据 A A .AObs 1 .Obs 2 .Obs .12 .kkknnknkXXXXXXXXXXnXXXXXXjkjk112111222212121122平 均组 内 差 异()()组 间 差 异:()iiXX27第三章第三章 3.1 单因子单因子方差分析方差分析-胶合板的观测数据胶合板的观测数据 ACME CHAMP AJAX TUFFY XTRA ob1 2.3 2.2 2.2 2.4 2.3 ob2 2.1 2.3 2.0 2.7 2.5
4、ob3 2.4 2.4 1.9 2.6 2.3 ob4 2.5 2.6 2.1 2.7 2.4均 值 2.325 2.375 2.05 2.60 2.375组内差异 0.0875 0.0875 0.05 0.06 0.0275 总变差总变差=(2.3-2.345)=(2.3-2.345)2 2+(2.2-2.345)+(2.2-2.345)2 2+(2.4-2.345)+(2.4-2.345)2 2=0.9295=0.9295 =组内总变差组内总变差 +组间总变差组间总变差 =0.3125+0.617 =0.3125+0.617 (2.345(2.345是是2020个数据的平均值个数据的平均值
5、)8第三章第三章 3.1 单因子单因子方差分析方差分析-模型与方差分解方差分解i jiji jii jijiXXXXXX,()()()222nkkk n111()单因子方差分析的均值模型为 Xij=i+ij(i=1,.,k;j=1,.,n)ijN(0,2)或效应模型(或线性模型)Xij=+ai+ij (i=1,.,k,j=1,.,n;ij N(0,2)且且 a1+a2+.+ak=0)方差分解自由度分解9第三章第三章 3.1 单因子单因子方差分析方差分析-方差分解与统计检验方差分解与统计检验ijk nijikiijk nijiXXn XXXX11212112,.,.()()()nkkk n111
6、()()总变差可以分解为:-Total SS=SS(因素A)+Residual SS,即 Total DF=DF(A)+Residual DF,即 均方:MS(.)=SS(.)/DF(.)F比 :F(.)=MS(.)/Residual MS 10第三章第三章 3.1 单因子单因子方差分析方差分析-用SAS/INSIGHT进行进行方差分析多组比较的直观图形直观图形:Analyze=Box plot =Y:区间型因变量,X:名义型自变量方差分析计算:Analyze=Fit(X,Y)Y:区间型因变量,X:名义型自变量 11第三章第三章 3.1 单因子单因子方差分析方差分析-用编程方法(ANOVA和和
7、GLM过程过程)例例3.1.1(胶合板磨损试验胶合板磨损试验):为比较种不同品牌产品的质量,每种 抽取个做磨损试验.试问不同品牌的磨损量有无显著差异?解一:proc anova data=veneer;class brand;model wear=brand;run;或 proc glm data=veneer;class brand;model wear=brand;run;12第三章第三章 3.1 单因子单因子方差分析方差分析-用编程方法(NPAR1WAY过程过程)解二解二:ANOVA要求数据满足以下假定:观测是独立的;观测为正态总体的样本;各组的方差相等(即方差齐性)。用ANOVA进行方
8、差分析的第一步应判断这几个要求的假定是否合理。假定和一般可认为成立,而正态性假定若数据太少也不能检验,以下用非参数方法.sas程序如下:proc npar1way data=veneer;class brand;title 木板数据的非参数检验木板数据的非参数检验;var wear;run;13第三章第三章 3.1 单因子单因子方差分析方差分析 均值的比较均值的比较-预定比较和多重比较预定比较和多重比较 进行方差分析后,尤其在原假设被拒绝后,常要估计或检验均值间的差异。常用的有均值线性函数的估计、预定的比较与多重比较.(1)均值线性函数的估计:均值线性函数的估计:如估计(m1+m2)/2 m3
9、 ,用ESTIMATE语句(2)预定的比较:预定的比较:如检验 H0:(m1m2)/2m3,用CONTRAST语句(3)多重比较:多重比较:从所有均值对中找出均值不等 的对。用MEANS 语句 14第三章第三章 3.1 单因子单因子方差分析方差分析均值的比较均值的比较-多重比较多重比较 多重比较:用多重比较:用MEANS语句及选项语句及选项 当要对许多对均值进行比较,关心的问题是如何控制错判均值为不等的概率 (1)LSD(Least Signification Difference)对每一对均值都使用t-检验(实际上至少误判一对的概率a)(2)TUKEY 比较所有的均值对并控制误判概率ANOV
10、A=OneWay ANOVA.。(2)在弹出的主窗口中选择因变量和自变量:WEAR=Dependent,BRAND=Independent。17第三章第三章 3.1 单因子单因子方差分析方差分析用分析员应用进行单因子方差分析用分析员应用进行单因子方差分析 (3)为了直观地比较五种牌子的质量,绘制盒须图和条形图。按Plots健,在弹出的“Plots Options”窗口中由“Type of Plots”项选中Box&Whisper Plot和Bar Chart(使前方小方框划)=OK;还可以根据各组的均值和标准差绘制5种牌子的均值标准差图.(4)为了检验方差分析中关于方差齐性的假定,以及进行其它
11、检验,按Tests键(见图示3.1),在弹出的“One Way ANOVA:Tests”窗口中由“Tests for Equal Variance”项选中Levenes Test(使前方小方框划)=OK;由该检验窗口(见图示3.3)还可以选择用多种非参数方法进行检验(当方差分析的正态性假定不能成立时)及进行功效分析。18第三章第三章 3.1 单因子单因子方差分析方差分析用分析员应用进行单因子方差分析用分析员应用进行单因子方差分析 (5)为了进行多重比较,按Means键,在弹出的“Means”窗口中由“Comparisons Method”项首先从向下箭头选择多重比较的方法(共有10种),以及显
12、著性水平;还可以在弹出的“Means”窗口中由“Breakdown”项要求对定量变量分组计算你需要的描述统计量。(6)将要求绘图、分析计算的项选择完毕后,从相应窗口按OK键返回到单因子方差分析的主窗口(见图示3.1)=OK,系统将按用户的要求进行分析计算。(7)查看输出结果,从图示3.5左边的树状表可以选择你想查看的各类计算结果。输出3.1.4是五种牌子的条形图;输出3.1.5是五种牌子的盒须图。其它输出结果可查看例3.1.1中有关结果。19第三章第三章 3.2 两两因子因子方差分析方差分析 在方差分析模型中在方差分析模型中,若考察影响指标若考察影响指标的因子有两个或的因子有两个或 更多更多,
13、这就是多因子方这就是多因子方差分析问题差分析问题.多因子方差分析问题多因子方差分析问题,不仅因子个数不仅因子个数多了多了,还要考虑这些因子间是否有交互还要考虑这些因子间是否有交互作用作用.本节主要讨论两个因子的方差分析本节主要讨论两个因子的方差分析的问题的问题.20第三章第三章 3.2 两两因子因子方差分析方差分析-两因子方差分析的模型(无重复试验)设因子A有r个水平,因子B有c个水平,指标Y在AiBj条件下的试验数据yij满足以下模型:yij=+ai+bj+ij(i=1,.,r;j=1,.,c)a1+a2+.+ar =0,b1+b2+.+bc=0,ijN(0,2),(i=1,.,r;j=1,
14、.,c;且相互独立且相互独立)检验的假设为检验的假设为H(a):a1=a2=.=ar=0(因子A对指标Y没有影响)H(b):b1=b2=.=bC=0(因子B对指标Y没有影响)21第三章第三章 3.2 两两因子因子方差分析方差分析-方差分析方法 采用与单因子方差分析相同的方法-方差分析方法来检验以上两个假设。设指标Y的总偏差平方和SST可分解为 SST=SSA+SSB+SSE SSA称为因子A的偏差平方和,它反映因子A的不同水平对指标Y的影响大小。SSB称为因子B的偏差平方和,它反映因子B的不同水平对指标Y的影响大小。SSE称为误差(或剩余)平方和,它反映除因子A和因子B以外其余因素及随机误差对
15、指标Y的影响大小。22第三章第三章 3.2 两两因子因子方差分析方差分析-方差分析方法 直观地看,如果因子A对指标Y的影响是显著的(即否定假定H(a),SSA相对于误差的平方和SSE就应该大;类似地,若SSB相对于误差的平方和SSE 大,也应该否定假定H(b).记 因子A的均方为 MSA=SSA/fA 误差的均方为 MSE=SSE/fE则检验H(a)的统计量F:FA=MSA/MSE23第三章第三章 3.2 两两因子因子方差分析方差分析-方差分析方法类似地,记 因子B的均方为 MSB=SSB/fB 误差的均方为 MSE=SSE/fE则检验H(b)的统计量 FB=MSB/MSE 设由试验数据(样本
16、值)计算得到统计量FA(或FB)比值为fa(fb),则显著性概率值(p值)为 p=PFA fa 或 p=PFB fb 当p值很小时(如0.05),应否定H(a)(或 H(b),否则H(a)(或 H(b)相容。24第三章第三章 3.2 两两因子因子方差分析方差分析ANOVA过程的一般用法过程的一般用法PROC ANOVA DATA=数据集名;CLASS 变量名列;MODEL 因变量名列=自变量名列 ;MEANS 效应/CLM LSD alpha=a Duncan Waller Tukey;RUN;25第三章第三章 3.2 两两因子因子方差分析方差分析ANOVA过程的一般用法过程的一般用法-例子例
17、子 例例3.2.2 为提高合金钢的强度Y,同时考虑碳(C)含量(因子A)及钛(Ti)与铝(AL)的含量和(因子B)对强度Y的影响。目的是找出最佳的含量组合,使强度Y达最大。试用ANOVA过程分析这组试验数据。data d322;/*生成sas数据集 */do a=a1,a2,a3;do b=b1,b2,b3,b4;input y;output;end;end;cards;63.1 63.9 65.6 66.8 65.1 66.4 67.8 69.0 67.2 71.0 71.9 73.5 ;26第三章第三章 3.2 两两因子因子方差分析方差分析ANOVA过程的一般用法过程的一般用法-例子例子
18、生成生成SAS数据集数据集D322的另一的另一SAS程序程序:data d322;input a$b$y;cards;a1 b1 63.1 a1 b2 63.9 a1 b3 65.6 a1 b4 66.8 a2 b1 65.1 a2 b2 66.4 a2 b3 67.8 a2 b4 69.0 a3 b1 67.2 a3 b2 71.0 a3 b3 71.9 a3 b4 73.5 ;27第三章第三章 3.2 两两因子因子方差分析方差分析ANOVA过程的一般用法过程的一般用法-例子例子proc print data=d322;run;proc anova data=d322;class a b;m
19、odel y=a b;means a b/t;run;28第三章第三章 3.2 两两因子因子方差分析方差分析-两因子的交互作用 在两因子的试验中,我们不仅要分析因子在两因子的试验中,我们不仅要分析因子A A和因子和因子B B对指对指标标Y Y是否有影响,有时还要考虑两个因子之间联合起来对指标是否有影响,有时还要考虑两个因子之间联合起来对指标Y Y是否有影响。这种联合作用称为两因子间的交互作用。下面看是否有影响。这种联合作用称为两因子间的交互作用。下面看两种试验情况:两种试验情况:情况情况1:(1:(无交互作用无交互作用)A1 A2A1 A2 B1 10 20 B1 10 20 B2 15 25
20、 B2 15 25 A1A2B1B2Y不管因子不管因子B B取什么水平,因子取什么水平,因子A A的水平的水平A2A2下的指标下的指标Y Y总是比总是比A1A1高。高。29第三章第三章 3.2 两两因子因子方差分析方差分析-两因子的交互作用 类似地,不管因子类似地,不管因子A A取什么水平,因子取什么水平,因子B B的的水平水平B2B2下的指标总是下的指标总是比比B1B1高。高。A1A2B1B2这种情况下,一个因子水平的好坏及其程度不受这种情况下,一个因子水平的好坏及其程度不受另一因子水平的影响的情况,称为因子另一因子水平的影响的情况,称为因子A A与因子与因子B B无交互作用。无交互作用。Y
21、30第三章第三章 3.2 两两因子因子方差分析方差分析-两因子的交互作用情况情况2:(2:(有交互作用有交互作用)A1 A2A1 A2 B1 10 20 B1 10 20 B2 15 10 B2 15 10 YA1A2B1B2在因子在因子B B的的B1B1水平下,因子水平下,因子A A的水的水平平A2A2下的指标下的指标Y Y比比A1A1高。而在高。而在B2B2水平下,因子水平下,因子A A的水平的水平A2A2下的指下的指标标Y Y比比A1A1低低。这种情况下,因子这种情况下,因子A A取不同水平对指标的影响与因子取不同水平对指标的影响与因子B B取什么水平有关;同样因子取什么水平有关;同样因
22、子B B取不同水平对指标的影响取不同水平对指标的影响与因子与因子A A取什么水平有关;称为因子取什么水平有关;称为因子A A与因子与因子B B之间有之间有交互作用。交互作用。31第三章第三章 3.2 两两因子因子方差分析方差分析-两因子方差分析的模型(有交互作用)设因子A有r个水平,因子B有c个水平,指标Y在AiBj条件下进行n次重复试验的数据yijt满足以下模型:yijt=+ai+bj+(ab)ij+ijt (i=1,.,r;j=1,.,c;t=1,n)a1+a2+.+ar =0,b1+b2+.+bc=0,(ab)1j+(ab)2j+.+(ab)rj=0 (j=1,.,c)(ab)i1+(a
23、b)i2+.+(ab)ic=0 (i=1,.,r)ijtN(0,2),(i=1,.,r;j=1,.,c;t=1,n;且相互独立且相互独立)32第三章第三章 3.2 两两因子因子方差分析方差分析-两因子方差分析的模型(有交互作用)检验的假设为检验的假设为H(a):a1=a2=.=ar=0 (因子A对指标Y没有影响)H(b):b1=b2=.=bC=0 (因子B对指标Y没有影响)H(ab):(ab)11=(a b)12=.=(ab)rc=0 (因子A和因子B没有交互作用)33第三章第三章 3.2 两两因子因子方差分析方差分析-方差分析方法 仍 采用与单因子方差分析相同的方法-方差分析方法来检验以上叁
24、个假设。设指标Y的总偏差平方和SST可分解为 SST=SSA+SSB+SSAxB+SSE 其中SSAXB称为因子A与因子B交互作用的偏差平方和,它反映两因子对指标Y的联合影响大小。检验H(ab)的统计量F:FAB=MSAB/MSE34第三章第三章 3.2 两两因子因子方差分析方差分析-有交互作用的两因子方差分析的例子 例例3.2.3 考虑合成纤维收缩率(因子A)和总拉伸倍数(因子B)对纤维弹性Y的影响。收缩率取4个水平:A1=0,A2=4,A3=8,A4=12;因子B也取4个水平:B1=460,B2=520,B3=580,B4=640。在每个组合AiBj下重复做二次试验(弹性Y的数据见下面数据
25、行).试用编程方法和“分析员应用”分析合成纤维数据,并回答以下问题:(1)收缩率(因子A)、拉伸倍数(因子B)对弹性Y有无显著性影响?(2)因子A和因子B是否有交互作用?(3)使纤维弹性达最大的生产条件是什么?35第三章第三章 3.2 两两因子因子方差分析方差分析-有交互作用的两因子方差分析的例子 解 首先使用ANOVA过程分析合成纤维的试验数据。以下SAS程序先创建SAS数据集D323,然后调用ANOVA过程对数据集D323进行方差分析。MODEL语句给出两因子考虑交互作用的方差分析模型。data d323;do a=0 to 12 by 4;do b=460 to 640 by 60;do
26、 i=1 to 2;input y;output;end;end;end;cards;71 73 72 73 75 73 77 75 73 75 76 74 78 77 74 74 76 73 79 77 74 75 74 73 75 73 73 72 70 71 69 69;36第三章第三章 3.2 两两因子因子方差分析方差分析-有交互作用的两因子方差分析的例子proc anova data=d323;class a b;model y=a b a*b;means a a*b/t bon;run;用菜单系统用菜单系统AnalystAnalyst的步骤见的步骤见p60p60到到p62p62。结论结论(p62)p62):使纤维强度达最大的最佳生产条件:使纤维强度达最大的最佳生产条件 是是A3A3和和 B2B2;其次是;其次是A2A2和和B3B3。37第三章第三章 方差分析方差分析(ANOVA)小小 结结 本章介绍了方差分析的模型,方差分解与检验及有关的概念(如效应,水平,多重比较等).本章还具体介绍了以下几类方差分析:.单因子方差分析;.两因子方差分析;.均值的比较.本章的分析工具涉及到SAS/INSIGHT,分析员应用(ANALYST)及编程方法.用到的SAS过程有ANOVA,GLM等.作业:3-1,3-2,3-3