1、第十三章第十三章协方差分析协方差分析协方差分析的意义协方差分析的意义对试验进行统计控制对试验进行统计控制对协方差组分进行估计对协方差组分进行估计 为了提高试验的精确性和准确性,对处理以外的一切条为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这叫量一致,这叫试验控制试验控制。但在有些情况下,即使作出很。但在有些情况下,即使作出很大努力也难以使试验控制达到预期目的。大努力也难以使试验控制达到预期目的。统计控制是试验控制的一种辅助手段。经过这种修统计控制是试验控制的一种辅助手段。经过这种修正,试
2、验误差将减小,对试验处理效应估计更为准正,试验误差将减小,对试验处理效应估计更为准确。若确。若 y y 的变异主要由的变异主要由x x的不同造成的不同造成(处理没有显著处理没有显著效应效应),则各修正后的,则各修正后的 间将没有显著差异间将没有显著差异(但原但原y y间的差异可能是显著的间的差异可能是显著的)。若。若 y y的变异除掉的变异除掉x x不同的不同的影响外,影响外,尚存在不同处理的显著效应,则可期望各尚存在不同处理的显著效应,则可期望各 间将有显著差异间将有显著差异 (但原但原y y间差异可能是不显著的间差异可能是不显著的)。此外,修正后的此外,修正后的 和原和原y y的大小次序也
3、常不一致。的大小次序也常不一致。所以,所以,处理平均数的回归修正和修正平均数的显著处理平均数的回归修正和修正平均数的显著性检验,能够提高试验的准确性和精确性,从而更性检验,能够提高试验的准确性和精确性,从而更真实地反映试验实际。这种将真实地反映试验实际。这种将回归分析回归分析与与方差分析方差分析结合在一起,对试验数据进行分析的方法,叫做协结合在一起,对试验数据进行分析的方法,叫做协方差分析方差分析(analysis of covariance)(analysis of covariance)。yyy 例13-1 为研究某降血糖药物的有效性及其合用盐酸二甲双胍片的有效性,选择收治90名2型糖尿病
4、患者,并采用随机对照试验,分为三个治疗组,第一组为该降糖药组,第二组为盐酸二甲双胍片组,第三组为该降糖药+盐酸二甲双胍片组,每组30名患者,治疗3个月,主要有效性指标为糖化血红蛋白。测得每个患者入组前(X)和3个月后(Y)的糖化血红蛋白含量(),试分析三种治疗降糖化血红蛋白的效果是否不同。表表13-3 三组患者治疗前后的糖化血红蛋白含量()三组患者治疗前后的糖化血红蛋白含量()若不考虑初始糖化血红蛋白若不考虑初始糖化血红蛋白X对对Y的影响的影响H0:1=2=3H1:1、2、3不等或不全相等不等或不全相等 =0.05结论:三种治疗组降糖化血红蛋白的效果不同。结论:三种治疗组降糖化血红蛋白的效果不
5、同。p如何在扣除或均衡这些不可控制因素的影如何在扣除或均衡这些不可控制因素的影响后比较多组均数间的差别,响后比较多组均数间的差别,应用协方差分应用协方差分析。析。p当有一个协变量时,称一元协方差分析;当有一个协变量时,称一元协方差分析;当有两个或两个以上协变量时,称多元协方当有两个或两个以上协变量时,称多元协方差分析。差分析。p协方差分析是将协方差分析是将线性回归线性回归与与方差分析方差分析相结合相结合 的一种分析方法。的一种分析方法。p把对把对反应变量反应变量Y有影响的因素有影响的因素X看作协变量看作协变量,建立建立Y对对X的线性回归,的线性回归,利用回归关系把利用回归关系把X值值 化为相等
6、,再进行各组化为相等,再进行各组Y的修正均数间比较的修正均数间比较。p修正均数修正均数是假设各协变量取值固定在其总是假设各协变量取值固定在其总 均数时的反应变量均数时的反应变量Y的均数。的均数。2)YY(2)YY(2)YY(p其实质是从其实质是从Y的总离均差平方和的总离均差平方和 中中 扣除协变量扣除协变量X对对Y的回归平方和的回归平方和 ,对残差平方和对残差平方和 作进一步分解后再进作进一步分解后再进 行方差分析。行方差分析。YYX)YY()YY()YY(YFMSMSYYYYYYYYYY 组组内内修修正正均均数数间间组组内内组组内内修修正正均均数数间间修修正正均均数数间间组组内内修修正正均均
7、数数间间总总组组内内修修正正均均数数间间总总22222)()()()()(残差平方和的分解残差平方和的分解 组组1组组21X0X2X)(11YX,)YX(22,12YY )YX(20,)(10YX,12YY Y二、应用条件二、应用条件1.各组协变量各组协变量X与因变量与因变量Y的关系是线性的,的关系是线性的,即各样本回归系数即各样本回归系数b本身有统计学意义。本身有统计学意义。2.各样本回归系数各样本回归系数b间的差别无统计学意义,间的差别无统计学意义,即各回归直线平行。即各回归直线平行。3.各组残差呈正态分布。各组残差呈正态分布。4.各协变量均数间的差别不能太大,否则有各协变量均数间的差别不
8、能太大,否则有 的修正均数在回归直线的外推延长线上。的修正均数在回归直线的外推延长线上。要求:在进行协方差分析前,应先进行方要求:在进行协方差分析前,应先进行方差齐性检验和回归系数的检验。差齐性检验和回归系数的检验。注意问题:如果不满足以上条件,建议进注意问题:如果不满足以上条件,建议进行变量变换,符合上述条件后,再进行协方行变量变换,符合上述条件后,再进行协方差分析。差分析。协方差分析的基本步骤协方差分析的基本步骤1.1.确定协变量(即未加以控制或难以控制确定协变量(即未加以控制或难以控制的因素)的因素)2.2.检验检验条件条件是否是否满足满足3.3.建立因变量建立因变量Y Y随协变量随协变
9、量X X变化的线性回归变化的线性回归关系关系4 4.利用回归关系把协变量利用回归关系把协变量X X化为相等后再进化为相等后再进行各组行各组Y Y的修正均数间比较的假设检验的修正均数间比较的假设检验完全随机设计资料的完全随机设计资料的协方差分析协方差分析 表表13-1 kn对观测值对观测值x、y的单向分组资料的的单向分组资料的 一般形式一般形式方法步骤方法步骤数据准备数据准备数据分布检验数据分布检验方差齐性检验方差齐性检验电脑运算电脑运算具体步骤具体步骤 1、计算各组、计算各组 、,平方和,平方和 、,积和,积和 均数均数 及其合计项及其合计项 2、利用合计项各数据计算校正数、利用合计项各数据计
10、算校正数C1、C2、C3,以,以及总变异的离均差平方和及总变异的离均差平方和 ,积和,积和 及自及自由度由度 3、计算各处理组间的离均差平方和,积和及自由、计算各处理组间的离均差平方和,积和及自由度度 4、列出协方差分析计算表填入上述结果,再由总、列出协方差分析计算表填入上述结果,再由总变异的及减去处理组相应各值,得到组内离均差平变异的及减去处理组相应各值,得到组内离均差平方和及自由度方和及自由度jjYX22jjYXjjYX jjYXYYXXllXYl5、计算回归估计误差平方和、计算回归估计误差平方和 及自由及自由度,其中总的及组内平方和分别按下式计算度,其中总的及组内平方和分别按下式计算 总
11、的减去组内的平方和即为总的减去组内的平方和即为“修正均数修正均数”的平方和的平方和6 6、以修正均数及组内的估计误差平方和分别除以、以修正均数及组内的估计误差平方和分别除以相应的自由度得到修正均数及组内估计误差均方,相应的自由度得到修正均数及组内估计误差均方,求求F F值值7 7、查、查F F界值表得界值表得P P值,做出统计推断值,做出统计推断8 8、多重比较的、多重比较的q q检验检验 2)(YYXXXYYYlllYY22)(例例13-1 13-1 药物治疗药物治疗是人为可控制的定性因素,称定性变量是人为可控制的定性因素,称定性变量初始糖化血红蛋白初始糖化血红蛋白是难以控制的定量因素,称协
12、变是难以控制的定量因素,称协变量量X X3 3月后的糖化血红蛋白月后的糖化血红蛋白是实验观察指标,称应变量是实验观察指标,称应变量Y Y1 1H H0 0:各总体糖化血红蛋白的修正均数相等各总体糖化血红蛋白的修正均数相等 H H1 1:各总体糖化血红蛋白的修正均数不全相等各总体糖化血红蛋白的修正均数不全相等 =0.05=0.05 2 2列表并计算初步结果列表并计算初步结果 协方差分析步骤协方差分析步骤变异来源变异来源离均差平方和及积和离均差平方和及积和 估计误差估计误差 总变异总变异 组间变异组间变异 组内变异组内变异 修正均数修正均数 协方差分析计算表模式协方差分析计算表模式2()YYXXl
13、XYlYYlMSF3 3计算相应的校正数、总的、组间及组内的计算相应的校正数、总的、组间及组内的离均差平方和、积和及自由度离均差平方和、积和及自由度(1 1)校正数)校正数(2)总的离均差平方和、积和及自由度)总的离均差平方和、积和及自由度(3)组间离均差平方和、积和及自由度)组间离均差平方和、积和及自由度 4 4计算总的、组内及修正均数的估计误差平方和、计算总的、组内及修正均数的估计误差平方和、自由度自由度 5 5列协方差分析表,查列协方差分析表,查F F界值表,界值表,P P0.010.01,拒拒绝绝H H0 0,接受接受H H1 1,可以认为在扣除初始糖化血红蛋可以认为在扣除初始糖化血红
14、蛋白因素的影响后,三组患者的总体降糖均数有差白因素的影响后,三组患者的总体降糖均数有差别。别。6 6计算公共回归系数计算公共回归系数b bc c及各组修正均数及各组修正均数 )(*XXbYYjcjj XXXYcllb组内组内组内组内 7 7修正均数间差别进行两两比较修正均数间差别进行两两比较 q q 检验检验 XXXXXYBAlalnSYYq组内组间)1(102*SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 初始初始X与各组无交互作用可认为与各组无交互作用可认为 各组回归直线
15、平行,即初始各组回归直线平行,即初始X对糖化血对糖化血红蛋白的影响在各组间是相同的。红蛋白的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验数据输入原则:数据输入原则:一个变量占一列一个变量占一列一个观测对象占一行一个观测对象占一行SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 初始初始X与各组无交互作用可认为与各组无交互作用可认为 各组回归直线平行,即初始各组回归直线平行,即初始X对糖化血对糖化血红蛋白的影响在各组间是相同的。红蛋白的影响在各组间是相
16、同的。4.修正均数的计算与假设检验修正均数的计算与假设检验SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 初始初始X与各组无交互作用可认为与各组无交互作用可认为 各组回归直线平行,即初始各组回归直线平行,即初始X对糖化血对糖化血红蛋白的影响在各组间是相同的。红蛋白的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验考察三组的初始糖化血红蛋白是否相同?考察三组的初始糖化血红蛋白是否相同?SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建
17、立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 初始初始X与各组无交互作用可认为与各组无交互作用可认为 各组回归直线平行,即初始各组回归直线平行,即初始X对糖化血对糖化血红蛋白的影响在各组间是相同的。红蛋白的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验前面已得出前面已得出三组斜率相三组斜率相同的结论,同的结论,故交互项不故交互项不需要再引入需要再引入到模型。到模型。协变量假定均数协变量假定均数随机区组设计的协方差分析随机区组设计的协方差分析例例13-2为研究为研究A、B、C三种饲料对增加大白鼠体三种饲料对增加大白鼠体
18、重的影响,有人按随机区组设计将初始体重重的影响,有人按随机区组设计将初始体重相近的相近的36只大白鼠分成只大白鼠分成12个区组,再将每个个区组,再将每个区组的区组的3只大白鼠随机分入只大白鼠随机分入A、B、C三种饲三种饲料组,但在实验设计时未对大白鼠的进食量料组,但在实验设计时未对大白鼠的进食量加以限制。三组大白鼠的加以限制。三组大白鼠的进食量进食量(X)与所增与所增体重体重(Y)如下,问扣除进食量因素的影响后如下,问扣除进食量因素的影响后,三种饲料对增加大白鼠体重有无差别,三种饲料对增加大白鼠体重有无差别?jX随机区组设计资料方差分析的变异分解随机区组设计资料方差分析的变异分解误差误差区组区
19、组处理处理总总误差误差区组区组处理处理总总 SSSSSSSS总变异处理间变异总变异处理间变异+区组间变异区组间变异+误差误差随机区组设计资料协方差分析的变异随机区组设计资料协方差分析的变异分解与此相同分解与此相同处理因素处理因素(饲料)(饲料)协变量协变量(进食量)(进食量)区组区组(大白鼠)(大白鼠)反应变量反应变量Y(增重增重)均数均数扣除协变量影响:扣除协变量影响:用线性回归残差平方和表示用线性回归残差平方和表示扣除区组的影响:扣除区组的影响:总变异区组变异处理变异误差总变异区组变异处理变异误差1.H0:各总体增重的修正均数相等各总体增重的修正均数相等 H1:各总体增重的修正均数不全相等
20、各总体增重的修正均数不全相等 =0.052.计算总的、饲料组间、大白鼠间、误差计算总的、饲料组间、大白鼠间、误差 项、饲料项、饲料+误差项的误差项的 lXX、lYY、lXY与与 自由度自由度XX2XYYY2lll)YY(总变异白鼠间总变异白鼠间误误差差误误差差饲饲料料修修正正均均数数222)YY()YY()YY(3.结论结论:F=2.190.05 按按=0.05水准不拒绝水准不拒绝HH0 0,还不能认为扣,还不能认为扣 除进食量因素的影响后,三种饲料对增除进食量因素的影响后,三种饲料对增 加大白鼠体重有差别。加大白鼠体重有差别。4.计算公共回归系数与修正均数计算公共回归系数与修正均数06594
21、2346404924088074118 05754234662274408807045 43674234623272408801037 408802463694387315102.).(.).(.).(.)(.*CBAjCjjXXXYCYCYBYAXXbYYllb饲饲料料饲饲料料饲饲料料误误差差误误差差未修正前均数:未修正前均数:74.118Y 70.45Y 10.37YCBA SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 进食量与饲料组无交互作用可认为进食量与饲料组无交互作
22、用可认为 各组回归直线平行,即进食量对增各组回归直线平行,即进食量对增 重的影响在各组间是相同的。重的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 进食量与饲料组无交互作用可认为进食量与饲料组无交互作用可认为 各组回归直线平行,即进食量对增各组回归直线平行,即进食量对增 重的影响在各组间是相同的。重的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验SPSS软件计算软件计算1.建
23、立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 进食量与饲料组无交互作用进食量与饲料组无交互作用可认为可认为 各组回归直线平行,即进食量对增各组回归直线平行,即进食量对增 重的影响在各组间是相同的。重的影响在各组间是相同的。4.修正均数的计算与假设检验修正均数的计算与假设检验固定因素固定因素随机因素随机因素交互作用交互作用T Te es st ts s o of f B Be et tw we ee en n-S Su ub bj je ec ct ts s E Ef ff fe ec ct ts sDep
24、endent Variable:增重891.8241891.8247.752.0122265.66719.695115.038a104.929252.465.462.6372159.30019113.647b3769.56511342.6883.015.0172159.30019113.647b2827.53912827.53924.880.0002159.30019113.647b66.065233.032.291.7512159.30019113.647bSourceHypothesisErrorInterceptHypothesisErrorgroupHypothesisErrorblo
25、ckHypothesisErrorXHypothesisErrorgroup*XType III Sumof SquaresdfMean SquareFSig.006 MS(block)+.994 MS(Error)a.MS(Error)b.SPSS软件计算软件计算1.建立数据文件建立数据文件2.绘制散点图与建立直线回归方程绘制散点图与建立直线回归方程3.回归直线平行性假定的检验回归直线平行性假定的检验 进食量与饲料组无交互作用可认为进食量与饲料组无交互作用可认为 各组回归直线平行,即进食量对增各组回归直线平行,即进食量对增 重的影响在各组间是相同的。重的影响在各组间是相同的。4.修正均数的计
26、算与假设检验修正均数的计算与假设检验前面已得出前面已得出三组斜率相三组斜率相同的结论,同的结论,故交互项不故交互项不需要再引入需要再引入到模型。到模型。作图作图E Es st ti im ma at te es sDependent Variable:增重67.428a4.96257.11077.74675.050a4.86064.94485.15759.063a8.36441.66976.457饲料分组A饲料B饲料C饲料MeanStd.ErrorLower Bound Upper Bound95%Confidence IntervalCovariates appearing in the m
27、odel are evaluated at thefollowing values:进食量=346.419.a.协变量假定均数协变量假定均数T Te es st ts s o of f B Be et tw we ee en n-S Su ub bj je ec ct ts s E Ef ff fe ec ct ts sDependent Variable:增重1691.40311691.40315.645.0012402.36722.221108.110a463.9482231.9742.189.1372225.36421105.970b3765.32611342.3023.230.0102225.36421105.970b6174.24816174.24858.264.0002225.36421105.970bSourceHypothesisErrorInterceptHypothesisErrorgroupHypothesisErrorblockHypothesisErrorXType III Sumof SquaresdfMean SquareFSig.009 MS(block)+.991 MS(Error)a.MS(Error)b.YYX)YY()YY()YY(Y