1、第第8章章 方差分析方差分析学习目标v掌握方差分析基本思想、应用条件以及计算方法;v掌握完全随机设计资料的特征以及SAS分析程序;v掌握随机区组设计资料的特征及其SAS分析程序;v掌握拉丁方设计资料的特征及其SAS分析程序;v掌握析因设计资料的特征及其SAS分析程序;v掌握正交试验设计资料的特征及其SAS分析程序;v掌握重复测量资料的特征及其SAS分析程序;v掌握协方差分析治疗的特征及其SAS分析程序;方差分析概述方差分析概述vt检验和u检验适用于两个样本均数的比较,对于k个样本均数的比较,如果仍用t检验或u检验,犯第一类错误的概率就会增加。v因而t检验和u检验不适用于多个样本均数的比较。用方
2、差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。方差分析概述方差分析概述v下面结合单个处理因素的情况介绍方差分析的基本统计思想。将N个受试对象随机分为k(k2)组,分别接受不同的处理,第i组的样本量为ni,第i处理组的第j个测量值用Xij表示。方差分析的目的就是在H0:成立的条件下,通过分析各处理组均数 之间差别大小,推断k个总体均数间有无差别,从而说明处理因素的效果是否存在。iX总离均差平方和及自由度v总变异的离均差平方和为各变量值与总均数差值的
3、平方和,离均差平方和和自由度为v v总自由度=N-1 组间离均差平方和、自由度和均方v组间离均差平方和为各组样本均数与总均数差值的平方和组内离均差平方和、自由度和均方v组内离均差平方和为各处理组内部观察值与其均数差值的平方和之和 v数理统计证明,总离均差平方和等于各部分离均差平方和之和 三种变异的关系 总自由度=N-1=三种变异的关系v可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS总)可分解为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度也分解为组间自由度和组内自由度两部分。v方差分析的统计量 方差分析应用v方差分析的应用条件为:各样本须是相互独
4、立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性。v方差分析的用途很广,包括:两个或多个样本均数间的比较;分析两个或多个因素间的交互作用;回归方程的线性假设检验;多元线性回归分析中偏回归系数的假设检验;两样本的方差齐性检验等。方差分析的基本思想 v根据研究目的和设计类型,将总变异中的离均差平方和及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定P值,作出统计推断。完全随机设计资料的方差分析 v单因子方差分析介绍 CXginjiji112CnXgiinjiji112)(组间组间vSS组内
5、组间MSMS组间总SSSS组内组内vSS变异来源自由度SSMSF总变异N-1组间g-1组内N-g方差分析的SAS程序 v方差分析解决问题的思路是:从所有观测值的总变差中分析出系统误差和随机误差,并用数量表示。在一定意义下比较系统误差和随机误差。两者差别不大,说明试验条件的变化(因素水平的不同)对试验结果影响不大;如果两者相差较大,且系统误差大的多,说明系统条件变化引出的误差不可忽视。方差分析的SAS程序v在SAS系统中一般利用PROC ANOVA过程和PROC GLM过程进行方差分析。而PROC ANOVA过程一般只能用于平衡数据的方差分析。所谓平衡数据指的是所有效应因子的交叉水平上,样本数相
6、同,否则称为非平衡数据。它比PROC GLM过程的运行速度要快,要求的存贮空间也要小一些。PROC GLM过程可用于平衡和非平衡数据的各种方差分析、协方差分析以及广义线性模型分析。现对两个过程分别予以介绍。PROC ANOVA vPROC ANOVA过程的格式为:PROC ANOVA ;CLASS variables ;MODEL dependents=effects ;BY variables;MEANS effects ;TEST E=effect;REPEATED effects;PROC ANOVAvCLASS语句指定分类变量,指定模型中的效应因子变量;vMODEL定义拟合模型,给出模
7、型中的因变量和效应变量的模型结构,并且通过特定的表达式规定自变量的作用方式;如果没有指定任何自变量,则模型中仅包含常数项,此时检验的内容是应变量的均数是否为零;MODEL语句中指定的自变量必须是CLASS语句中声明过的分类变量,ANOVA过程不允许自变量中有连续型变量(数值变量),而应变量则必须是数值型变量。vBY语句指定分组变量;PROC ANOVAvMEANS语句计算和比较均值,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异;vTEST语句指定效应平方和和误差项,构建检验,裂区
8、设计数据处理时需要;vREPEATED语句指定模型中的重复测量因子(MODEL语句中存在有相同试验单位的重复测量的独立变量时),已检验相关因子效应,其中的变量名代表重复测量因素(如测量时间等),其后水平数代表重复测量的次数,如果需指定重复测量各次的具体标识,可在其后按顺序列出,并用圆括号括起来。PROC GLMvPROC GLM过程的格式为:PROC GLM ;CLASS variables ;MODEL dependents=effects ;BY variables;MEANS effects ;LSMEANS effects ;CONTRAST effects ;ESTIMATE eff
9、ects ;TEST E=effect;REPEATED effects;PROC GLMvCLASS语句指定分类变量,指定模型中的效应因子变量;vMODEL定义拟合模型,给出模型中的因变量和效应变量的模型结构;vBY语句指定分组变量;vMEANS语句计算和比较均值,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异;PROC GLMvLSMEANS语句是GLM过程步特有的语句,它的功能和MEANS语句类似,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效
10、应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异,但LSMEANS语句输出的均值不是算术均值,而是最小二乘均值;PROC GLMvCONTRAST语句使你可以用自定义的方式进行假设检验,它必须出现在MODEL语句之后,如果用到MANOVA语句、REPEATED语句、RANDOM语句或TEST语句,CONTRAST语句必须出现在这些语句之前;标记用来标识所进行的检验,用以标识的文字或符号需用单引号括起来;效应表达式用以指定假设检验的因素(组合),这些因素(组合)必须是MODEL语句中出现过的;效应表达式后的常数向量用以指定相应因素(组合)各水平的值,在指定各水平
11、的情况下进行相关因素的分析;PROC GLMvESTIMATE语句可实现对线性方程的估计,它也必须出现在MODEL语句之后,使用的规则和CONTRAST语句基本相同。其中的语句元素的含义和用法也与CONTRAST语句相同。vTEST语句指定效应平方和和误差项,构建检验,裂区设计数据处理时需要;vREPEATED语句指定模型中的重复测量因子(MODEL语句中存在有相同试验单位的重复测量的独立变量时),已检验相关因子效应。随机区组设计资料的方差分析 v随机区组设计是根据“局部控制”和“随机排列”原理进行的,将试验地按肥力程度等性质不同划分为等于重复次数的区组,使区组内环境差异最小而区组间环境允许存
12、在差异,每个区组即为一次完整的重复,区组内各处理都独立地随机排列。这是随机排列设计中最常用、最基本的设计。随机区组设计资料的方差分析v随机区组设计的优点是:设计简单,容易掌握;富于伸缩性,单因素、复因素以及综合试验等都可应用;能提供无偏的误差估计,在大区域试验中能有效地降低非处理因素等试验条件的单向差异,降低误差;对试验地的地形要求不严,只对每个区组内的非处理因素等试验条件要求尽量一致。因此,不同区组可分散设置在不同地段上。缺点是:这种设计方法不允许处理数太多。因为处理多,区组必然增大,局部控制的效率降低,所以,处理数一般不要超过20个,最好在10个左右。随机区组设计资料的方差分析v随机区组设
13、计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。随机区组设计资料的方差分析表 变异来源离均差平方和SS自由度均方差MSF总变异N-1处理间k-1区组间b-1误差拉丁方设计资料的方差分析 v完全随机设计只涉及到一个处理因素。随机区组设计涉及一个处理因素、一个区组因素(或称为配伍因素)。倘若实验研究涉及一个处理因素和两个控制因素,每个因素的类
14、别数或水平数相等,此时可采用拉丁方设计来安排实验,将两个控制因素分别安排在拉丁方设计的行和列上。拉丁方设计资料的方差分析v将k个不同符号排成k列,使得每一个符号在每一行、每一列都只出现一次的方阵,叫做kk拉丁方。应用拉丁方设计(latin square design)就是将处理从纵横二个方向排列为区组(或重复),使每个处理在每一列和每一行中出现的次数相等(通常一次),即在行和列两个方向都进行局部控制。所以它是比随机区组多一个方向局部控制的随机排列的设计,因而具有较高的精确性。v拉丁方设计的特点是处理数、重复数、行数、列数都相等。它的每一行和每一列都是一个区组或一次重复,而每一个处理在每一行或每
15、一列都只出现一次,因此,它的处理数、重复数、行数、列数都相等。析因设计资料的方差分析 v前四节介绍的单因素方差分析只涉及一个处理因素,该因素至少有两个水平,只是根据实验对象的属性和控制实验误差的需要,采用的实验设计方法有所不同。如比较注射4种不同剂量的雌激素对白鼠子宫体重增加量的影响,处理因素是注射不同剂量的雌激素,有4个水平。完全随机设计是将n只白鼠随机分4组,随机区组设计是将n只白鼠按出生体重相近的原则,4只一组配成区组后,每个区组内随机分配处理(注射4种不同剂量的雌激素)。拉丁方设计则是在随机区组设计基础上增加了一个列区组,如白鼠有甲、乙、丙、丁四个种系(行区组),每个种系的4只白鼠按体
16、重大小分、4个级别(列区组),A、B、C、D4个拉丁字母代表处理(不同剂量的雌激素)。拉丁方设计资料的方差分析v可以看出,完全随机设计、随机区组设计和拉丁方设计的处理因素没有变化,都是比较注射4种不同剂量的雌激素的差别,只是改变了设计方法。在同样的实验条件下,通过改进实验设计方法可以大大提高实验效率。如上述实验,白鼠按体重配成区组后再施加处理(随机区组设计),试验的误差均方通常小于完全随机分组设计。拉丁方设计资料的方差分析v在此之前介绍的各种试验设计方法,严格地说,它们仅适用于只有1个试验(或处理)因素的试验问题之中,其他因素都属于区组因数,即与试验因素无交互作用。如果试验所涉及的处理因素的个
17、数2,当各因素在试验中所处的地位基本平等,而且因素之间存在1级(即2因素之间)、2级(即3因素之间)乃至更复杂的交互作用时,需选用析因设计。本节介绍以析因试验为主要内容的多因素试验的方差分析方法。正交试验设计资料的方差分析 v析因设计的缺点是当因素个数较多时(三个因素以上),所需实验单位数、处理组数、实验次数和方差分析的计算量剧增。减少多因素实验次数的有效方法是采用正交设计。v当析因设计要求的实验次数太多时,一个非常自然的想法就是从析因设计的水平组合中,选择一部分有代表性水平组合进行试验。因此就出现了分式析因设计,但是对于试验设计知识较少的实际工作者来说,选择适当的分式析因设计还是比较困难的。
18、正交试验设计资料的方差分析v正交试验设计是研究多因素多水平的又一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是分式析因设计的主要方法。是一种高效率、快速、经济的实验设计方法。日本著名的统计学家田口玄一将正交试验选择的水平组合列成表格,称为正交表。例如作一个三因素三水平的实验,按全面实验要求,须进行33=27种组合的实验,且尚未考虑每一组合的重复数。若按L9(3)3正交表安排实验,只需作9次,按L18(3)7正交表进行18次实验,显然大大减少了工作量。因而正交实验设计在很多领域的研究中已经得到广泛应用。重复
19、测量资料的方差分析 v重复测量是指对同一观察对象的同一观察指标在不同时间点上进行多次测量,用于分析观察指标在不同时间上的变化规律。这类测量资料在医学研究中比较常见。例如,药效分析中常分析给药后不同时间的疗效比较。在实际工作中,重复测量资料常被误作配对设计或随机单位组设计进行分析,不仅损失了重复测量数据所蕴含的信息,还容易得出错误的结论。由于同一受试对象在不同时点的观测值之间往往彼此不独立,存在某种程度的相关,因此不能满足常规统计方法所要求的独立性假定,使得其分析方法有别于一般的统计分析方法。本节通过实例分析,就医学研究中重复测量资料的方差分析方法进行探讨,并提供了SAS程序解决方案。重复测量资
20、料的方差分析v重复测量设计大体有两类。一类是对每个人在同一时间不同因子组合间测量;另外一类是对每个人在不同时间点上重复。前者常见于裂区设计,而后者常见于经典试验设计即包括前测,处理一次或几次后测的情况。后者比前者要多见。不论沿裂区方向还是沿时间点重复,个体内因子无一例外的都是重复测量因子。重复测量设计的特点是一定有个体内因子但不一定有个体间因子。后者是不同处理组合或不同个体组。而且即使有不同组群(例如男性和女性)但人人都经历重复测量而不是一组接受重复测量另一组不接受。重复测量资料的方差分析v具有重复测量的设计,即在给予某种处理后,在几个不同的时间点上从同1个受试对象(或样品)身上重复获得指标的
21、观测值;有时是从同1个个体的不同部位(或组织)上重复获得指标的观测值。由于这种设计符合许多医学试验本身的特点,故在医学科研中应用的频率相当高。如果试验中共有K个试验因素,其中只有M个因素与重复测量有关,则称为具有M个重复测量的K因素设计。重复测量资料的方差分析v在对重复测量资料进行方差分析时,除要求样本是随机的,在处理的同一水平上观测是独立的,及每一水平的测定值都来自正态总体外,特别强调协方差的复合对称性或球形性。因此,在进行重复测量资料的方差分析前,应先对资料的协方差阵进行球形性检验。若满足球形性要求,则直接进行方差分析;不满足球形性要求时,需对与时间有关的F统计量分子、分母的自由度进行校正
22、,以减少犯I类错误的概率,或直接进行多变量方差分析。重复测量资料的方差分析v对重复测量实验数据的方差分析需考虑两个因素的影响,一个因素是处理分组,可通过施加干预和随机分组来实现;另一个因素是测量时间,由研究者根据专业知识和要求确定。因此,重复测量资料的变异可分解为处理因素、时间因素、处理和时间的交互作用、受试对象间的随机误差和重复测量的随机误差5部分。重复测量资料的方差分析v重复测量设计优点是:每一个体作为自身的对照,克服了个体间的变异。分析时可更好地集中于处理效应,同时被试者间自身差异的问题不再存在。也就是减少了一个差异来源。重复测量设计的每一个体作为自身的对照,研究所需的个体相对较少,因此
23、更加经济。v重复测量设计缺点是:滞留效应,前面的处理效应有可能滞留到下一次的处理;潜隐效应,前面的处理效应有可能激活原本以前不活跃的效应;学习效应,由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。协方差分析 v在介绍医学试验设计时曾谈到,严格按试验设计的项基本原则设计试验,目的就是为了排除非处理因素的干扰和影响,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但在某些实际问题中,有些因素在目前还不能控制或难以控制,如在动物饲养试验中,各组动物所增加的平均体重不仅仅与各种饲料营养价值高低有关,还与各动物的进食量有关,甚至与各动物的初始重量等因素及其交互作用都有关系。
24、如果直接进行方差分析,会因为混杂因素的影响而无法得出正确结论。协方差分析v协方差分析是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量,建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均数之间是否有显著性的差别,这就是协方差分析问题的基本思想。协方差分析v协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变量Y在一个或几个因素不同水平上的差异,但Y在受
25、这些因素影响的同时,还受到另一个变量X的影响,而且X变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时如果X与Y之间可以建立回归关系,则可用协方差分析的方法排除X对Y的影响,然后用方差分析的方法对各因素水平的差异进行统计推断。在协方差分析中,我们称Y为因变量,X为协变量,即在方差分析中用来校正因变量的数值型变量。协方差分析v也许有人会问随机因素的影响也是不能人为控制的,为什么不能把X作为一种随机因素处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的,但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平处理。最后在进行方差分析时
26、,我们才能排除这一随机因素的影响,对另一因素的各水平进行比较。协方差分析v例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。显然,这种方法往往是很困难的,一般需要很大的样本。若可供试验的动物很少,初始体重又有明显差异,无法选到体重相当的动物,那就只好认为初始体重X与最终体重Y有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他因
27、素例如饲料种类,数量对增重的影响了。它既利用了回归分析的基本方法,又用到了方差分析的基本思想,这就是协方差分析的基本思想。协方差分析v消除初始体重影响的另一种方法是对最终体重与初始体重的差值即y-x 进行统计分析。这种方法与协方差分析的生物学意义是不同的。对差值进行分析的生物学假设是初始体重对以后的体重增量没有任何影响,而协方差分析则是假设体重增量中包含初始体重的影响(不仅仅是初始体重对最终体重的影响),这种影响的大小与初始体重成正比。如果这一比值为1,协方差分析与对差值进行方差分析是相同的。但如果比值不为1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的因素在以后的生长过程中
28、也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发挥作用;这两种生物学假设是有很大区别的。希望同学们在以后的学习中注意统计学知识背后的研究假设。协方差分析v由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。协方差分析v在医学研究中,很多情况下都需要借助协方差分析来排除非处理因素的干扰从而准确地估计处理因素的试验效应。例如,评价三种药物治疗高脂血症的效果,寻求各方面自然条件基本相同的受试者是很困难的,但是把患者的年龄、
29、体重指数、用药前的血脂水平等作为协变量进行协方差分析就简单很多。同样,比较几种不同营养奶粉对婴幼儿体重增长的作用差异,把研究对象的性别、年龄、基线体重等混杂因子作为协变量进行协方差分析是非常有效的统计分析方法。本章小节 v方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定P值,作出统计推断。v方差分析的应用条件为:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性。v完全随机设计是采用完全随机化的分组
30、方法,将全部试验对象分配到k个处理组,各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。本章小节v随机区组设计是根据“局部控制”和“随机排列”原理进行的,将研究对象按性质不同划分为等于重复次数的区组,使区组内环境差异最小而区组间环境允许存在差异,每个区组即为一次完整的重复,区组内各处理都独立地随机排列。这是随机排列设计中最常用、最基本的设计。v将k个不同符号排成k列,使得每一个符号在每一行、每一列都只出现一次的方阵,叫做kk拉丁方。应用拉丁方设计(latin square design)就是将处理从纵横二个方向排列为区组(或重复),使每个处理在每一列和
31、每一行中出现的次数相等(通常一次),即在行和列两个方向都进行局部控制。所以它是比随机区组多一个方向局部控制的随机排列的设计,因而具有较高的精确性。本章小节v如果试验所涉及的处理因素的个数2,当各因素在试验中所处的地位基本平等,而且因素之间存在1级(即2因素之间)、2级(即3因素之间)乃至更复杂的交互作用时,需选用析因设计。析因设计的缺点是当因素个数较多时(三个因素以上),所需实验单位数、处理组数、实验次数和方差分析的计算量剧增。减少多因素实验次数的有效方法是采用正交设计。本章小节v重复测量是指对同一观察对象的同一观察指标在不同时间点上进行多次测量,用于分析观察指标在不同时间上的变化规律。这类测
32、量资料在医学研究中比较常见。重复测量设计大体有两类。一类是对每个人在同一时间不同因子组合间测量;另外一类是对每个人在不同时间点上重复。具有重复测量的设计,即在给予某种处理后,在几个不同的时间点上从同1个受试对象(或样品)身上重复获得指标的观测值;有时是从同1个个体的不同部位(或组织)上重复获得指标的观测值。由于这种设计符合许多医学试验本身的特点,故在医学科研中应用的频率相当高。本章小节v协方差分析是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中,先将定量的影响因素(即难以控制的因素)看作自变量,或称为协变量,建立因变量随自变量变化的回归方程,这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均数之间是否有显著性的差别,这就是协方差分析问题的基本思想。