1、方差分析方差分析实际工作中这样的问题:几种不同的原料对产品质量有无显著影响这里考察的对象:原料称为因素因素把因素所对应的状态称为水平水平当考察的因素只有一个时,称为单因素问题单因素问题。Minitab方差分析 (analysis of variance 简称ANOVAANOVA).Minitab方差分析 例 考察温度对某一化工产品的得率的影响,选了五种不同的温度,同一温度作了三次试验,测得的结果如下:温度6065707580得率909796848492939683868892938882平均得率9094958584Minitab 要分析不同的温度对得率的影响,考虑如下的问题:同一温度下的得率不
2、一样,差异原因称为试验误差; 温度的不同引起的得率的差异称为条件误差。方差分析Minitab当我们要问温度对得率到底有无确切的影响时,由于上述多种误差原因的存在,就不能随意回答.方差分析Minitab方差分析的功能功能:分析实验数据中不同来源的变异对总变异的贡献大小,确定实验中的自变量是否对因变量有重要影响。方差分析的方法方法:检验各总体的均值是否相等来判断分类型自变量(因素)对数值型因变量是否有影响。方差分析Minitab方差分析 方差分析与回归分析的区别:当研究的是两个数值型变量的关系时是回归分析. 回归分析沿水平轴的自变量是数值型变量,而方差分析中是分类变量。 Minitab方差分析 在
3、因素只有一个时不一定要采用方差分析,可以采用t-检验和 z-检验 t-检验和 z-检验不能用于多于 2 个样本的数据. 此时就要采方差分析。 方差分析有单因素与多因素的区分。Minitab单因素方差分析理论基础单因素方差分析单因子试验的一般概述(记号) 在一个试验中只考察一个因子A及其r个水平A1,A2, ,Ar在水平Ai下重复mi次试验,总试验次数n= m1+m2 + mr 记yij是第i个水平下的第j次重复试验的结果,这里i 水平号,j 重复号经过随机化后,所得的n个试验结果列于下表单因子试验的数据:Minitab单因素方差分析单因子试验的三项基本假定 A1.正态性正态性。在水平i下的数据
4、yi1, yi2, yimi是来自正态总体的一个样本,i=1,2,rA2.方差齐性方差齐性。r个正态总体的方差相等,即A3.随机性随机性。所有数据yij都相互独立 ),(2iiN222221r单因子试验所涉及的多个正态总体 Minitab单因素方差分析单因子试验的统计模型 其中 是因子A的第i个水平下第j次试验结果; 是因子A的第i个水平的均值,是待估参数; 是因子A的第i个水平下第j次试验误差,它们是相互独立同分布的随机变量由此可知:单因子试验的三项基本假定用到试验数据yij上去,可得到如下统计模型:iijiijmjriy, 2 , 1, 2 , 1 ,), 0(2Nijyiij),(2ii
5、jNyMinitab单因子方差分析Minitab单因子方差分析总平方和的分解公式Minitab单因子方差分析AETSSSMinitab2111122112)()()()()(rimjrimjiiijiiijrimjijTiiiyyyyyyyyyyS单因子方差分析总平方和的分解公式Minitab单因子方差分析均方和Minitab单因子方差分析F检验Minitab单因素方差分析方差分析表Minitab 例例2: 茶是一种饮料,它含有叶酸(folacin),这是一种维他命B。如今要比较各种茶叶中的叶酸含量。现选定绿茶,这是一个因子,用A表示。又选定四个产地的绿茶,记为A1, A2, A3, A4,它
6、是因子A的四个水平。为测定试验误差,需要重复。我们选用水平重复数不等的不平衡设计,即A1, A2, A3, A4分别制作了7,5,6,6个样品,共有24个样品等待测试。单因素方差分析Minitab单因素方差分析采用随机化试验方法,填写试验结果. Minitab10987654A1A2A3A4四个产地绿茶叶酸含量的打点图(dotplot) 图上表示叶酸含量,线表示样本均值。下述一些直观的印象是重要.图中每种绿茶的叶酸含量有高有低.从样本均值看,A1与A2的叶酸含量偏高一些.从样本极差看, A1,A2 ,A3 的极差接近, A4的略小一点。单因素方差分析Minitab单因素方差分析Minitab单
7、因素方差分析诸均值的参数估计Minitab单因素方差分析小结Minitab多重比较多重比较 r个水平均值是否彼此相等?用方差分析方法 假如r个均值不全相等,哪些均值间的差异是重要的?用多重比较r,21Minitab多重比较Minitab多重比较重复数相等情况的多重比较(T法)Minitab多重比较重复数相等情况的多重比较(T法)Minitab多重比较重复数不等情况的多重比较(S法)Minitab多重比较重复数不等情况的多重比较(S法)Minitab多重比较的Minitab参数设置 个别误差率与全族误差率(显著性水平)个别误差率与全族误差率(显著性水平) 与多重比较关联的类型 I 误差率(假设检
8、验第I类错误的概率)通常用于确定方差分析中的特定因子水平之间的显著差异。Minitab 个别误差率个别误差率 单一比较错误地断定实测差异与原假设显著不同的最大概率。此概率等于为假设检验选择的显著性水平。 全族误差率全族误差率 由多个比较组成的过程错误地断定至少有一个实测差异与原假设显著不同的最大概率。全族误差率基于个别误差率和比较次数。对于单一比较,全族误差率等于个别误差率。但是,每个附加比较都会导致全族误差率不断增加。Minitab多重比较的误差率 示例示例 查看五个不同钢铁厂的钢强度(在每个工厂中使用 25 个样本),可以运行单因子方差分析 。方差分析产生的 p 值小于 0.05,断定至少
9、有一个工厂的平均值不同于其他工厂的平均值。 查看五个工厂之间所有的 10 个比较,以明确确定哪些平均值是不同的。Minitab多重比较的误差率 如果为 10 个比较中的每一个指定的 Alpha 均为 0.05(个别误差率),则 Minitab 将针对由 10 个比较组成的一组计算全族误差率,即 0.28。但是,如果要让整个一组比较的全族误差率为 0.05,则 Minitab 为每个单个比较指定的 Alpha 均为 0.007。Minitab多重比较的误差率 许氏与最佳值的多重比较许氏与最佳值的多重比较 (MCB) 专门用于确定最佳因子水平、与最佳值稍有差异的因子水平、以及与最佳值有显著差异的因
10、子水平的多重比较方法。可以将“最佳值”定义为最高平均值或最低平均值。 许氏 MCB 将为每个水平均值与其余水平均值的最佳值之间的差异创建置信区间。MinitabMinitab多重比较方法 具体地说: 最高为最佳 最低为最佳 置信区间包含零置信区间包含零 无差异 无差异 置信区间整个大于零置信区间整个大于零明显更好 明显更差 置信区间整个小于零置信区间整个小于零明显更差 明显更好MinitabMinitab多重比较方法 Fisher 最低显著性差异最低显著性差异 (LSD) 法法 将个别误差率控制到指定水平的同时,为因子水平均值之间的配对差异创建置信区间。 Fisher 法随后使用个别误差率和比
11、较次数为所有置信区间计算同时置信水平同时置信水平。此同时置信水平是所有置信区间包含实际差值的概率。MinitabMinitab多重比较方法Minitab 例,测量内存芯片的响应时间。从五个不同的制造商处抽取 25 个芯片作为样本。方差分析产生的 p 值为 0.01,至少有一个制造商的平均值不同于其他制造商。 查看五个工厂之间所有的 10 个比较,以明确确定哪些平均值是不同的。 使用 Fisher 法,可以指定每个比较的个别误差率都应为 0.05(等效于 95% 置信水平)。Minitab 将创建这十个 95% 置信区间,并计算出这一组置信区间的71.79% 同时置信水平。Minitab多重比较
12、方法 多重比较的多重比较的 Dunnett 法法 用于为每个因子水平的平均值与控制组控制组平均值之间的差异创建置信区间。 为所有比较指定全族误差率,Dunnett 法针对每个单个比较相应地确定置信水平。MinitabMinitab多重比较方法 Tukey,全族误差率:,全族误差率:选中此项可通过使用 Tukey 方法(在不平衡情况下也称为 Tukey-Kramer)获得水平平均值之间的所有配对差异,然后输入介于 0.5 和 0.001 之间的全族误差率。大于等于 1.0 的值解释为百分比。默认误差率为 0.05。MinitabMinitab多重比较方法 Fisher,个别误差率:,个别误差率:
13、选中此项可通过使用 Fisher 的 LSD 过程获得水平平均值之间的所有配对差异,然后输入介于 0.5 和 0.001 之间的个别误差率。MinitabMinitab多重比较方法 Dunnett,全族误差率:,全族误差率:选中此项可为每个处理平均值和控制平均值之间的差异提供双侧置信区间,然后输入介于 0.5 和 0.001 之间的全族误差率。 对照组水平:对照组水平:输入用于对照组因子水平的值MinitabMinitab多重比较方法Minitab 许氏许氏 MCB,全族误差率:,全族误差率:选中此项将获得每个水平平均值与其他水平均值中的最佳值之间的差异的置信区间 。最佳有两种选择。如果将最小
14、平均值视为最佳,则设置 K = -1;如果将最大平均值视为最佳,则设置 K = 1。 最大为最佳:最大为最佳:选择此项会将最大平均值视为最佳。 最小为最佳:最小为最佳:选择此项会将最小平均值视为最佳。Minitab多重比较方法残差检验 残差是否正态分布正态概率图、直方图 残差是否序列相关残差与顺序图 残差是否异方差残差与拟合值图残差概率图Minitab残差概率图Minitab方差齐性检验MinitabMinitab某项研究对三类公路上有行驶经验以及无行驶经验的驾驶员进行比较。这两个因子是: 驾驶经验。在此次研究中,分别采用了 8 名无经验和 8 名有经验的驾驶员。经验具有两个水平,其代码分别为
15、有经验 = 1,无经验 = 0。道路类型。每位驾驶员在三种道路的其中一种上驾驶。三个水平分别编码为一级公路 = 1,二级公路 = 2,土路 = 3。检验人员记录了每位驾驶员在每种公路上所做的控制校正次数。响应变量为“校正”。下面给出了数据集: 道路类型经验 1 2 30 4 23 16 18 15 27 8 21 23 10 13 14 1 6 2 20 4 6 15 13 8 8 7 12 17 数据: 驾车.MTW Minitab95% 标准差 Bonferroni 置信区间 道路 类型 经验 N 下限 标准差 上限 1 0 4 2.80384 5.88784 40.4990 1 1 4
16、1.84435 3.87298 26.6400 2 0 4 2.26721 4.76095 32.7478 2 1 4 1.98261 4.16333 28.6371 3 0 4 2.88359 6.05530 41.6509 3 1 4 2.42820 5.09902 35.0732 解释解释对于驾车数据,第一个因子为经验,第二个因子为道路类型。在六个因子水平组合的每一单元中有四个观测值。s 的第一个值 5.88784 与道路类型 = 1 和经验 = 0 对应。区间 (2.80384,40.4990) 估计道路类型 = 1 和经验 = 0 的总体标准差。根据此区间,s 介于 2.80384
17、和 40.4990 之间。标准差的最大值 6.05530 与道路类型 = 3 和经验 = 0 对应。 Minitab输出示例输出示例 Bartlett 检验(正态分布) 检验统计量 = 0.85, p 值 = 0.974 Levene 检验(任何连续分布) 检验统计量 = 0.42, p 值 = 0.830 解释解释 如果检验的 p 值较高(0.974 和 0.830),则表明方差之间不存在差异。Minitab输出示例输出示例输出示例:等方差检验图形Minitab对于驾车数据,置信区间图表明:在所有道路类型的控制校正次数中,经验越少的驾驶员具有更大的变动性。 调查员比较了四种不同配方的油漆的硬
18、度。将每种油漆配方取六份样品涂到一小块金属上,然后待其凝固,测量其硬度。此外,还记录每份样品的凝固温度以及涂油漆的人(操作员)的编号。 数据: 油漆硬度.MTW Minitab 输出示例输出示例 来源 自由度 SS MS F P 油漆 3 281.7 93.9 6.02 0.004 误差 20 312.1 15.6 合计 23 593.8 S = 3.950 R-Sq = 47.44% R-Sq(调整) = 39.56% 解释解释 油漆硬度方差分析得到的 p 值是 0.004。因此,假设选择常用的 a 水平 0.05 进行检验,则将断定油漆配方之间的硬度存在显著差异。 对于油漆数据,S 为 3
19、.950,R 为 47.44%,调整的 R 为 39.56%。方差分析输出第一部分:方差分析表Minitab S、R 和调整的和调整的 R 是模型对数据的拟合优度的度量。这些值有助于您选择具有最佳拟合的模型。 S 表示数据值与拟合值的标准距离。对于给定研究,模型预测响应的效果越好,S 越小。 R (R 平方)描述在观测的响应值中由预测变量 解释的变异量。R 始终随预测变量的增加而增大。例如,最佳的五预测变量模型的 R 始终比最佳的四预测变量模型的高。因此,比较相同大小的模型时 R 最有效。 调整的 R 表示已根据模型中的项数调整的修正 R 。如果包括了不必要的项,R 会人为地变得很高。与 R
20、不同,调整的 R 在您向模型中添加项时可能变小。使用调整的 R 比较预测变量数不同的各个模型。Minitab使用单个统计量的表评定数据的以下属性: N N。因子每个水平所包括的观测值数。 均值均值。每个水平观测值的均值。这些样本均值是对每个水平总体均值的估计值。 标准差标准差。每个水平的样本标准差。方差分析假定所有水平的总体标准差相等。因此,如果样本标准差差异很大,则可能需要使用等方差检验命令来检验数据的方差相等性。 合并标准差合并标准差。合并标准差是对所有水平公共标准差的估计值。Minitab方差分析输出第二部分:个体值估计及置信区间方差分析输出第二部分:个体值估计及置信区间输出示例输出示例
21、 均值(基于合并标准差)的单组 95% 置信区间 水平 N 均值 标准差 +-+-+-+- 混料 1 6 14.733 3.363 (-*-) 混料 2 6 8.567 5.500 (-*-) 混料 3 6 12.983 3.730 (-*-) 混料 4 6 18.067 2.636 (-*-) +-+-+-+- 5.0 10.0 15.0 20.0 合并标准差 = 3.950 解释解释油漆硬度分析的结果表明:配方 2 的硬度均值最低 (8.5678.567),配方 4 的最高 (18.06718.067)。不同配方的标准差之间的差异还不足以引起关注。合并标准差为 3.9503.950。Min
22、itab输出示例输出示例 均值(基于合并标准差)的单组 95% 置信区间 水平 N 均值 标准差 +-+-+-+- 混料 1 6 14.733 3.363 (-*-) 混料 2 6 8.567 5.500 (-*-) 混料 3 6 12.983 3.730 (-*-) 混料 4 6 18.067 2.636 (-*-) +-+-+-+- 5.0 10.0 15.0 20.0 合并标准差 = 3.950 解释解释在油漆硬度的结果中,配方 2 和配方 4 均值的区间不重叠。这表明这些水平的总体均值不同。 Minitab Minitab 为因子的每个水平都提供 95% 的置信区间。当方差分析表中的
23、p 值 表明因子水平均值之间有差异时,可以使用单个置信区间的表来研究差异: 每个星号都表示样本均值。 每对圆括号都表示总体均值的 95% 的置信区间。每个水平的总体均值位于相应区间内的可信度为 95%。 如果两个均值的区间不重叠,则表明总体均值不同。Minitab 使用 Tukey 法对信息进行分组 油漆 N 均值 分组 混料 4 6 18.067 A 混料 1 6 14.733 A B 混料 3 6 12.983 A B 混料 2 6 8.567 B 不共享字母的均值之间具有显著差异。 方差分析输出第三部分:多重比较(Tukey比较)MinitabTukey 95% 整体置信区间 油漆 水平
24、间的所有配对比较 单组置信水平 = 98.89% Minitab 解释解释 油漆硬度数据的分组信息显示组 A 包含混料 1、3 和 4,而组 B 包含混料 1、2 和 3。这两个组都包含混料 1 和 3。组内的因子水平之间并不存在显著差异。因为混料 2 和 4 并不共享同一个字母,混料 4 具有一个比混料 2 显著高很多的均值。 置信区间显示所有均值差异的可能范围: 配方 2 和配方 4 的均值之间差异的置信区间为 (3.114,15.886)。此范围不包括 0,表明这些均值之间差异显著。 其余均值对的置信区间都包括 0,表明这些均值之间差异不显著。Minitab多重比较多重比较 - Fish
25、er 最低显著性差异最低显著性差异 (LSD) 输出示例输出示例 使用 Fisher 方法对信息进行分组 油漆 N 均值 分组 混料 4 6 18.067 A 混料 1 6 14.733 A B 混料 3 6 12.983 B C 混料 2 6 8.567 C 不共享字母的均值之间具有显著差异。 MinitabFisher 95% 两水平差值置信区间 油漆 水平间的所有配对比较 同时置信水平 = 80.83% Minitab 解释解释油漆硬度数据的分组信息显示组 A A 包含混料 1 和 4;组 B B 包含混料 1 和 3;而组 C C 包含混料 2 和 3。混料 1 和 3 分别位于两个组
26、中。组内的因子水平之间并不存在显著差异。因为下列因子水平组合不共享同一个字母,所以它们的均值存在显著差异: 混料 1 和 2 混料 2 和 4 混料 3 和 4置信区间显示所有均值差异的可能范围: 配方 1 和配方 2 的均值之间差异的置信区间为 (-10.924-10.924,- -1.4091.409)。此范围不包括 0,表明这些均值之间差异显著。 类似地,配方 2 和配方 4 之间差异的置信区间 (4.7434.743,14.25714.257) 以及配方 3 和配方 4 之间差异的置信区间 (0.3260.326,9.8419.841) 也不包括 0,表明这些差异也显著。 其余均值对的
27、置信区间都包括 0,表明这些均值之间差异不显著。Minitab多重比较多重比较 - - 许氏与最佳值的多重比较许氏与最佳值的多重比较 (MCB)(MCB)输出示例输出示例许氏 MCB(与最佳值的多重比较) 全族误差率 = 0.05 临界值 = 2.19 Minitab 解释解释 对于油漆硬度分析,将最大均值指定为最佳。 因此,配方 1 的均值 (14.733)、配方 2 的均值 (8.567) 和配方 3 的均值 (12.983) 都与配方 4 (18.067) 的均值进行比较,因为后者是最大(最佳)均值。配方 4 本身的均值与配方 1 的均值进行比较,因为后者是其余三个均值中最大的。 结果表
28、明: 配方 4 的均值与配方 2 的均值之间差异的置信区间 (-14.500,0.000) 以及与配方 3 的均值之间差异的置信区间 (-10.083,0.000) 都以 0 为终点,表明这些差异显著。 其余两个区间的终点不为 0,表明差异不显著。Minitab方差分析输出第四部分:图形(残差检验)图形图形 - 单值图单值图Minitab 解释解释 油漆硬度数据的单值图显示: 一般情况下配方 4 的硬度值最高。 所有四个水平中数据的展开程度(离差)几乎都相同。 任何点与其余点相比都不异常大或异常小(异常值 )。Minitab图形图形 - 数据的箱线图数据的箱线图Minitab 解释解释 油漆硬
29、度数据的箱线图对以下情况进行图解: 配方 4 的硬度值、均值和中位数均为最大。 配方 2 的硬度值、均值和中位数均为最小。 配方 2 数据的中间一半展开的程度很大,如大箱所示。 配方 2 的值的整体范围最大,如细丝的末端所示。 任何水平的数据中都没有异常值(星号)。 此例中,每个水平只有六个观测值,因此单值图可能比箱线图更合适。Minitab图形图形 - 残差的直方图残差的直方图解释:对于油漆硬度数据,没有证据表明存在偏度或异常值。 Minitab图形图形 - 残差的正态概率图残差的正态概率图Minitab 解释解释 对于油漆硬度数据,残差显示为直线。没有证据表明存在非正态性、偏度、异常值或未确定的变量。Minitab图形图形 - 残差与拟合值残差与拟合值Minitab 解释解释 从此图中可以看出,残差随机分散在 0 附近。没有证据表明存在异方差、缺项或异常值。Minitab图形图形 - 残差与顺序残差与顺序Minitab 解释解释 对于油漆硬度数据,残差随机分散在 0 附近。没有证据表明误差项彼此相关。Minitab图形图形 - 残差与变量残差与变量Minitab 解释解释 对于油漆硬度数据,残差随机分散在 0 附近。没有证据表明残差中存在模式或数据中存在弯曲。此图表明样本凝固的温度似乎没有对响应产生系统化影响。Minitab图形图形 - 四合一残差图四合一残差图Minitab