1、第第 7 章章 方差分析方差分析授课老师:授课老师:李芳凤李芳凤 email: 第5章介绍了两个样本均值比较的t检验,而在实际中,经常会遇到多个样本均值比较的问题,方差分析方法就是处理这类问题的一种常用统计方法。方差分析中的有关术语u试验指标u所要考察的指标u如水质的恶臭、产品的颜色、油漆的亮度u因素u影响试验指标的原因或条件u通常用大写英文字母A、B、C表示方差分析中的有关术语u水平u因素所处的不同状态u通常用表示该因素的字母加下标表示,如Aiu试验处理(处理)u对受试对象给予的某种外部干预或措施,是因素水平的一个组合。【例】某医生为研究一种降糖药的疗效,以统一的纳入标准和排除标准选择了60
2、名II型糖尿病患者,随机将其分为三组进行双盲临床试验。其中高剂量组21人,低剂量组19人,对照组20人,对照组服用公认的降糖药物。治疗4周后测得其餐后2小时血糖的下降值(mmol/L),结果如表1。问治疗4周后餐后2小时血糖下降值的三组总体水平是否不同?表1II型糖尿病患者治疗4周后餐后2小时血糖的下降值(mmol/L)高剂量组低剂量组对照组5.6 0.6 12.49.5 5.7 0.96.0 12.8 7.08.7 4.1 3.9 4.9 4.3 9.48.1 6.4 3.83.8 7.0 7.56.1 5.4 8.413.2 3.1 12.216.5 6.0 9.2试验指标试验指标:血糖的
3、下降血糖的下降值;值;影响试验指标的条件影响试验指标的条件称为因素为药物;称为因素为药物;因素所处的状态称为因素所处的状态称为该因素的水平该因素的水平-本本例药物有例药物有3 3个不同的水个不同的水平平在一项试验中,如果影响试验指标的因素只在一项试验中,如果影响试验指标的因素只有一个,则称该试验为有一个,则称该试验为单因素试验单因素试验(本例本例);如果;如果影响试验指标的因素有多个,则称该试验为影响试验指标的因素有多个,则称该试验为多因多因素试验素试验。【例例】某饮料生产企业研制出一种新型饮料。饮料的某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透颜色共
4、有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、价格、包装、味道等可明。这四种饮料的营养含量、价格、包装、味道等可能影响销售量的因素全部相同。现从地理位置相似、能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表料的销售情况,见表2。试分析饮料的颜色是否对销售。试分析饮料的颜色是否对销售量产生影响。量产生影响。表表2 该饮料在五家超市的销售情况该饮料在五家超市的销售情况超市超市无色无色粉色粉色橘黄色橘黄色绿色绿色1234526.528.725.129.127.231.228
5、.330.827.929.627.925.128.524.226.530.829.632.431.732.8这里,试验指标是销售量,颜色是因素,不同的这里,试验指标是销售量,颜色是因素,不同的4种颜种颜色就是这个因素的色就是这个因素的4个不同的水平。这里除了颜色之外个不同的水平。这里除了颜色之外,其他因素完全相同,故是单因素的试验。,其他因素完全相同,故是单因素的试验。方差分析消费者对四个行业的投诉次数消费者对四个行业的投诉次数 行业行业观测值观测值零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业1234567576649403453446839294556513149213440
6、4451657758【例例】为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表方差分析1.分析4个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响2.作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等3.若它们的均值相等,则意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;若均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异方差分析可以检验这种差异是否显著方差分析可以检验这种差异是否显著方差分析的基本假定1.每个总体
7、都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个行业被投诉的次数必须服从正态分布2.各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,4个行业被投诉次数的方差都相等3.观察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立方差分析中的基本假定1.在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等2.如果4个总体的均值相等,可以期望4个样本的均值也会很接近4个样本的均值越接近,推断4个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分 方差分
8、析中基本假定 如果原假设成立,即H0:m1=m2=m3=m4q4个行业被投诉次数的均值都相等q意味着每个样本都来自均值为m、方差为 2的同一正态总体 方差分析中基本假定n若备择假设成立,即H1:mi(i=1,2,3,4)不全相等q至少有一个总体的均值是不同的q4个样本分别来自均值不同的4个正态总体 问题的一般提法1.设因素有k个水平,每个水平的均值分别用m m1,m m2,m mk 表示2.要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:m m1 m m2 m mk H1:m m1,m m2,,m mk 不全相等不全相等问题的一般提法n设m m1为零售业被投诉次数的均值,m m2
9、为旅游业被投诉次数的均值,m m3为航空公司被投诉次数的均值,m m4为家电制造业被投诉次数的均值,提出的假设为H0:m m1 m m2 m m3 m m4 H1:m m1,m m2,m m3,m m4 不全相等不全相等n在建立单因素试验的数学模型之前,先分析一下影响试验结果变化的原因。引起试验结果变化的原因有随机因素与人为控制因素两类。nANOVA的基本思想就是通过对试验结果数据的总变异的分析,将总变异按照变异原因的不同,分解为人为控制因素带来的变异(因素效应)和随机因素带来的变异(误差效应),并作出数量估计。方差分析的基本思想单因素方差分析的数据结构观察值观察值 (j)因素因素(A)i 水
10、平水平A1 水平水平A2 水平水平As12:n x11 x21 xs1 x12 x22 xs2 :x1nx2n xsn单因素方差分析(数学模型)l设因素A有s种处理,单因素方差分析可用下面的线性模型来表示 s单因素方差分析(数学模型)l设全部观测数据的总均值为m,第i个水平效应用第i个处理均值与总均值的差(mi-m)表示,记为i,即i=mi-m。l这样,第i个处理均值被分解成mi=i+m,方差分析模型可以表达为 n要检验s个水平(总体)的均值是否相等,等价于检验假设:H0:1 2 s H1:1,2,s 不全相等不全相等单因素方差分析(数学模型)平方和分解n从方差分析的基本思想出发,要把一个试验
11、的总变异依据变异来源分为相应的变异。n引起观察值出现变异的原因有处理效应和误差效应。处理间平均值的差异由处理效应所致,同一处理内的变异则由随机误差引起。平方和分解n记总离差平方和平方和分解记水平Aj下的样本平均值为平方和分解n将SST写成=0=SSE=SSA平方和分解n总离差平方和n误差平方和n效应平方和由随机误差引起的由不同水平的效应差异和随机误差引起的平方和的统计特征n由第3章可知222221(1)1()(1)niinSXXnn故221(1),sEiiSSn22(-)即ESSn sn同理22(-1)ASSs构造检验统计量n由F分布定义n记,1称为组间均方;AASSMSs,-称为组内均方EE
12、SSMSn s22/(1)/(1)(-1,)/()/()AAEESSsSSsFF snsSSnsSSnsn从而得到方差分析的拒绝域(-1,)AEMSFF snsMS构造检验统计量当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即因素各水平对总体的影响较大。AEMSFMSn从而得到方差分析的拒绝域(-1,)AEMSFF snsMS单因素方差分析表误差来源平方和(SS)自由度(df)均方(MS)F值组间SSAk-1MSAMSAMSE组内(误差)SSEn-kMSE总和SSTn-1提出假设1.一般提法H0:m1=m2=ms 因素各水平对试验指标没有显著影响 H1:m1,m2,ms不全相等
13、因素各水平对试验指标有显著影响 2.注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 构造检验的统计量n构造统计量需要计算水平的均值全部观察值的总均值误差平方和均方(MS)构造检验的统计量(例题分析)构造检验的统计量计算总误差平方和计算总误差平方和 SST计算组间平方和计算组间平方和 SSA构造检验的统计量计算组内平方和计算组内平方和 SSE 构造检验的统计量(计算均方 MS)1.组间方差:组间方差:SSA的均方,记为MSA,计算公式为构造检验的统计量(计算检验统计量 F)统计决策 将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策根据给
14、定的显著性水平,在F分布表中查找与第一自由度df1s-1、第二自由度df2=n-s 相应的临界值 F 若FF ,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若FF ,则不拒绝原假设H0,无证据表明所检验的因素对观察值有显著影响 统计决策用Excel进行方差分析(Excel分析步骤)第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择【数据分析数据分析】选项第第3步:步:在分析工具中选择【单因素方差单因素方差分析分析】,然后选择【确定确定】第第4步:步:当对话框出现时在【输入区域输入区域】方框内键入数据单元格区域在【】方框内键入0.05(可根据需要确定)在【输
15、出选项输出选项】中选择输出区域练习270861.145661.4164SSASSTSSEx22,19,3wzy练习某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果:n要求:(1)完成上面的方差分析表。n(2)检验三种方法组装的产品数量之间是否有显著差异?差异源 SSdfMSFF crit组间2103.3541组内3836总计2942021.47810227 142.0740744256多重比较的意义1.通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存
16、在差异2.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)多重比较的步骤1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)2.计算检验的统计量:3.计算LSD4.决策:若 ,拒绝H0;5.若 ,不拒绝H0t分布自由度为(n-k)消费者对四个行业的投诉次数消费者对四个行业的投诉次数 行业行业观测值观测值零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业1234567576649403453446839294556513149213440445
17、1657758用SPSS进行方差分析和多重比较n第第1步步:选择【Analyze】,并选择【General Linear Model-Univaiate】进入主对话框n第第2步步:将因变量)选入【Dependent Variable】,将自变量选入【Fixed Factor(s)】n第第3步步(需要均值图时)点击【Plots】,将“行业”选入【Horizontal Axis】,在【Plots】下点击【Add】,点击【Continue】回到主对话框n(需要多重比较时)点击【Post-Hoc】,将“行业”选入【Post-Hoc Test for】,在【Equal Variances Assumed
18、】下选择一种方法,如LSD,点击【Continue】回到主对话框用SPSS进行方差分析和多重比较n(需要相关统计量时)点击【Options】,在【Display】下选中【Descriptive】,点击【Continue】回到主对话框n(需要方差齐性检验时)点击【Options】,在【Display】下选中【Homogeneity tests】,点击【Continue】回到主对话框n(需要对模型的参数进行估计时)点击【Options】,在【Display】下选中【Parameter estimates】,点击【Continue】回到主对话框n(需要预测值时)点击【Save】,并在【Predict
19、ed Values】下选中【Unstandardized】,点击【Continue】回到主对话框;点击【OK】n(注:选择【Analyze-Compare Means】,并选择【One-Way-ANOVA】也可以进行单因素方差分析,但得到的结果不如上面多)Tests of Between-Subjects EffectsTests of Between-Subjects EffectsDependent Variable:投诉次数1456.609a3485.5363.407.03951416.174151416.174360.749.0001456.6093485.5363.407.03927
20、08.00019142.52656869.000234164.60922SourceCorrected ModelIntercept行业ErrorTotalCorrected TotalType III Sumof SquaresdfMean SquareFSig.R Squared=.350(Adjusted R Squared=.247)a.(Corrected Model)是对整个方差分析模型的检验是对整个方差分析模型的检验。其原假设是:模型中的因素。其原假设是:模型中的因素(行业行业)对因变量对因变量(投投诉次数诉次数)无显著影响。由于显著性水平无显著影响。由于显著性水平Sig.0.0
21、5,表明该模型是显著的,表明该模型是显著的Multiple ComparisonsMultiple ComparisonsDependent Variable:投诉次数LSD-24.00*7.551.005-39.80-8.20-14.006.990.060-28.63.63-13.007.229.088-28.132.1324.00*7.551.0058.2039.8010.006.990.169-4.6324.6311.007.229.145-4.1326.1314.006.990.060-.6328.63-10.006.990.169-24.634.631.006.642.882-12.
22、9014.9013.007.229.088-2.1328.13-11.007.229.145-26.134.13-1.006.642.882-14.9012.90(J)行业家电制造业零售业旅游业航空公司零售业旅游业航空公司家电制造业旅游业航空公司家电制造业零售业(I)行业航空公司家电制造业零售业旅游业MeanDifference(I-J)Std.ErrorSig.Lower BoundUpper Bound95%Confidence IntervalBased on observed means.The mean difference is significant at the.05 leve
23、l.*.双因素方差分析1.分析两个因素(行因素Row和列因素Column)对试验结果的影响 2.如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析无交互作用的双因素方差分析或无重复双因素方差分析无重复双因素方差分析(Two-factor without replication)3.如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差有交互作用的双因素方差分析分析或可重复双因素方差分析可重复双因素方差分析(Two-factor wit
24、h replication)双因素方差分析的基本假定1.每个总体都服从正态分布对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本2.各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的3.观察值是独立的双因素方差分析(数学模型)l设因素A有I种处理,因素B有J种处理,双因素方差分析可用下面的线性模型来表示(无重复双因素分析)双因素方差分析不同品牌的彩电在不同品牌的彩电在5个地区的销售量数据个地区的销售量数据 品牌因素品牌因素地区因素地区因素地区地区1地区地区2地区地区3地区地区4地区地区5品牌品牌1品牌品牌2品牌品牌3品牌品牌4365345358288 35036
25、8323280 343363353298 340330343260 323333308298 双因素方差分析表(基本结构)误差来源误差来源平方和平方和(SS)自由度自由度(df)均方均方(MS)F值值P值值F临界值临界值行因素行因素SSRk-1MSRMSRMSE列因素列因素SSCr-1MSCMSCMSE误差误差SSE(k-1)(r-1)MSE总和总和SSTkr-1双因素方差分析例题分析n提出假设n对品牌因素提出的假设为H0:m1=m2=m3=m4(品牌对销售量无显著影响)H1:mi (i=1,2,4)不全相等(有显著影响)n对地区因素提出的假设为H0:m1=m2=m3=m4=m5(地区对销售量
26、无显著影响)H1:mj(j=1,2,5)不全相等(有显著影响)无重复双因素分析(Excel检验步骤)n第第1步:步:选择“工具工具”下拉菜单,并选择【数数据分析据分析】选项n第第2步:步:在分析工具中选择【方差分析:无重方差分析:无重复双因素分析复双因素分析】,然后选择【确定】n第第3步:步:当对话框出现时,在【输入区域】方框内键入数据区域n在【】方框内键入0.05(可根据需要确定)n在【输出区域】中选择输出区域,选择【确定】双因素方差分析差异源差异源SSdfMSFP-valueF crit 行行(品牌品牌)13004.634334.8518.10789.46E-053.4903 列列(地区地
27、区)2011.74502.9252.100850.143673.2592 误差误差2872.712239.392 总和总和1788919可重复双因素分析n【例例】城市道路交通管理部门为研究不同的路段和不同的时间段对行车时间的影响,让一名交通警察分别在两个路段和高峰期与非高峰期亲自驾车进行试验,通过试验共获得20个行车时间(单位:min)的数据,如下表。试分析路段、时段以及路段和时段的交互作用对行车时间的影响 可重复双因素方差分析表(基本结构)误差来源误差来源平方和平方和(SS)自由度自由度(df)均方均方(MS)F值值P值值F临界临界值值行因素行因素SSRk-1MSRFR列因素列因素SSCr-1MSCFC交互作用交互作用SSRC(k-1)(r-1)MSRCFRC误差误差SSEKr(m-1)MSE总和总和SSTn-1m为样本的行数为样本的行数可重复双因素分析(Excel检验步骤)n第第1步:步:选择“工具工具”下拉菜单,并选择【数数据分析据分析】选项n第第2步:步:在分析工具中选择【方差分析:可重方差分析:可重复双因素分析复双因素分析】,然后选择【确定】n第第3步:步:当对话框出现时,在【输入区域】方框内键入数据区域(A1:C11)n在【】方框内键入0.05(可根据需要确定)n在【每一样本的行数每一样本的行数】方框内键入重复试验次数(5)n在【输出区域】中选择输出区域,选择【确定】