1、方差分析方差分析Analysis of variance 前一章介绍了两个样本均数比较的假设检验方法,但对于3个、4个、5个均数或更多个的比较,t检验或u检验就无能为力了,或许有人会想起将几个均数两两比较分别得到结论,再将结论综合,其实这种做法是错误的。试想假设检验时通常检验水平取0.05,亦即弃真概率控制在0.05以内,但将3个均数作两两比较,要作三次比较,可靠度成为 (1-0.05)3=0.857四均数比较作6次 (1-0.05)6=0.735五均数比较作10次(1-0.05)10=0.599六均数比较作15次(1-0.05)15=0.463鉴于以上的原因,对多组均数的比较问题我们采用方差
2、分析(analysis of variance),简称ANOVA。方差分析采用F检验统计量,也称F检验。方差分析方差分析 F分布Analysis of Variance(ANOVA)由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称F检验(F test)。用于推断多个总体均数有无差异。方差分析的理论基础是F分布。F分布是一种连续性分布,它是两个相互独立的变量分别除以各自的自由度后的比值,即 在实际应用中,F等于两个方差或两均方之比。2222121F方差分析方差分析 F分布 F分布的密度函数22121122/22/12121121)(222)(FFFf F011
3、1 n自由度122 n式中 为 -函数在 处的函数值,余仿此。已知,就能绘制出F分布的图形。)2(121111 n122 n F分布 F分布的分布函数和F分布的分位数 1.F分布的分布函数为:FdFfFPF0)()(式中 为F分布的密度函数,的几何意义是F分布曲线下从0到某给定F值的面积,如图2(a))(Ff)(FP 2.F分布的分位数 当 ,确定后,F分布曲线下,右侧尾部的面积为指定 时,横轴上相应的界值F,记做 如图2(b),这就是F分布的分位数,此值有F表可查。做F检验时,先求得观察样本的统计量F值后,按 ,由界值表可查得P值的大小。F检验一般为双侧检验,但界值表中,只给出了单侧界值,这
4、是因为在F检验中,规定了较大(方差)均方作为分子,较小的作为分母,故F值不会小于1。这样,界值表中只列出单侧值即可。12)(2,1F12方差分析方差分析 方差分析的基本思想其基本思想是把全部观察值之间的变异-总变异,按设计和需要分为两个或多个组成部分,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。方差分析方差分析 方差分析的基本思想例:用四种不同的饲料喂养大白鼠,每组4只,喂养8周后处死,然后测其肝重占体重的比值(%),见表1。问:四种不同饲料喂养大白鼠对其肝重比值的影响是否相同?方差分析方差分析 方差分析的基本思想方差分析方差分析 方差分析的基本思想方差分析方差分析 方差分析的
5、基本思想方差分析方差分析 方差分析的基本思想个数据存在差异(变异)的原因可分为两种:一种是饲料的不同,而引起的各组肝重比值差别;另一种是随机因素(包括个体变异、测量)的作用。16个数据的全部变异又是以两种方式表现出来的:p 组间变异(可从各组均数之间差异看出来);p 组内变异:即各组内数值之间的差异。方差分析方差分析 方差分析的基本思想组间变异:是由不同处理因素(即饲料种类)和随机因素的贡献而得来;组内变异:只是由随机因素所贡献的。若简单地用T T来表示不同饲料的作用,用E E来表示随机因素的作用(又称误差作用)。在我们计算出方差分析方差分析 方差分析的基本思想组间变异均方MS组间:组间组间组
6、间SSMS组内变异均方:组内组内SS用F值来表示这两者的比值:EETMSMSF组内组间数理统计上可以证明该比值服从自由度组间)组内,(F分布。组内组间总SSSSSS组内组间总方差分析方差分析 方差分析的基本思想EETMSMSF组内组间(1)当不同饲料的作用并无不同,即T=0时,F值约为1;(2)当不同饲料的作用不同,即T不等于0时,F值会大于1;(3)F值为1或接近于1时,就意味着各饲料的作用差别无统计学意义;(4)当F值明显地大于1时,就意味着各饲料的作用可能是不同的。以上便是方差分析原理的直观理解。查F界值表后,按所取检验水准作出结论。方差分析方差分析 方差分析的应用条件方差分析方差分析
7、完全随机设计的单因素方差分析完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到K个处理组(水平组),各组分别接受相同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。例例:按完全随机设计方法将15名患者随机分为甲,乙,丙3组o先按患者的就诊顺序编号;再从附表“随机排列表”中任意指定一行,如第21行,依次将014之间的随机数字录于各患者编号下(遇14以上的数字应舍去);按预先规定,将随机数字为04的患者分入甲组,59的患者分入乙组,1014的患者分入丙组。结果如下:患者编号患者编号 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 101
8、0 1111 1212 1313 1414 1515 随机数字随机数字 1212 1313 8 8 4 4 7 7 0 0 1111 1 1 5 5 1414 3 3 6 6 1010 9 9 2 2 处理组别处理组别 丙丙 丙丙 乙乙 甲甲 乙乙 甲甲 丙丙 甲甲 乙乙 丙丙 甲甲 乙乙 丙丙 乙乙 甲甲 随机分组的结果是第4、6、8、11、15号患者分入甲组,第3、5、9、12、14号患者分入乙组,第1、2、7、10、13号患者分入丙组。方差分析方差分析 完全随机设计的单因素方差分析以上述例题为例,说明分析步骤:方差分析方差分析 完全随机设计的单因素方差分析根据表2下半部分的初步计算结果,
9、然后根据下表中的方差分析用公式计算F值。方差分析方差分析 完全随机设计的单因素方差分析方差分析方差分析 完全随机设计的单因素方差分析方差分析方差分析 完全随机设计的单因素方差分析方差分析方差分析 完全随机设计的单因素方差分析5.各均数间的两两比较以上方差分析结果差异有显著性,是对各组均数的整体而言,不能推论其中任何两组间差异都有显著性,只能认为至少有两组均数差异有显著性。故需进一步确定哪两个总体均数间有差别,哪两个间没有差别,为此可以用方差分析提供的信息作样本均数间的两两比较,又称多重比较,方法有多种,这里仅介绍q检验法(Newman-kenls法),公式为BAXXBASXXq式中:为两两比较
10、中的任何两个对比组均数之差值;为差值的标准误,按各处理组的样本含量 是否相等,分别计算为:BAXXBAXXSin相等:innMSSBAXX组内不相等:in)112BAXXnnMSSBA(组内式中 为样本例数,分别为第A组和第B组例数,nBAnn误差组内MSMS方差分析方差分析 完全随机设计的单因素方差分析5.各均数间的两两比较方差分析方差分析 完全随机设计的单因素方差分析5.各均数间的两两比较方差分析方差分析 完全随机设计的单因素方差分析5.各均数间的两两比较方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果例题:为了解轻度和重度再生障碍性贫血患者血清中可容性CD8抗原水平(U/
11、ml)与正常人的差别有无统计学意义,从这三种人群中分别随机抽取10人,测得CD8抗原水平如下,试对该资料做统计分析。正常组:234 318 402 382 621 408 243 141 42 98轻度组:509 518 555 758 845 712 585 448 753 896重度组:851 562 918 631 653 843 659 849 762 901方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果Group=1Group=2Group=3方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行
12、结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果例题:调查得到健康男子各年龄组淋巴细胞转化率()如下,问各组间淋巴细胞转化率的差异是否有统计学意义?11-20岁:58 61 61 62 63 68 70 70 74 7821-60岁:54 57 57 58 60 60 63 64 6661-75岁:43 52 55 56 60 该例与前例相比,数据结构有何特点?方差分析方差分析 完全随
13、机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 完全随机设计的单因素方差分析 SAS 运行结果方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 配伍组设计,又称随机区组设计(randomized block design)是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素
14、(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。A 接受甲处理接受甲处理实验对象实验对象配成区组配成区组随机分配区组中随机分配区组中 B 接受乙处理接受乙处理 C 接受丙处理接受丙处理 D 接受丁处理接受丁处理方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 例例 按体重和年龄为配比条件将12只雌性小鼠配成4个区组,试对每个区组内的3只小鼠随机分配,分别给予甲、乙、丙3种饲料。o先给动物编号:第1配伍组为13号,第2配伍组为46号,第3配伍组为79号,第4配伍组
15、为1012号;再从随机排列表中,任意指定连续的4行,如第1215行,每行只取随机数字13,其余舍去,依次列于各配伍组的受试者编号下,并规定随机数字为1的小鼠喂以甲饲料,为2的小鼠喂以乙饲料,为3的小鼠喂以丙饲料。分配结果如下:动物编号动物编号 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1010 1111 1212 随机数字随机数字 3 3 1 1 2 2 3 3 2 2 1 1 2 2 3 3 1 1 1 1 2 2 3 3 处理组别处理组别 丙丙 甲甲 乙乙 丙丙 乙乙 甲甲 乙乙 丙丙 甲甲 甲甲 乙乙 丙丙 方差分析方差分析 配伍组(双因素)设计的多个样本均
16、数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 例2,为了研究雌激素,对子宫发育的作用,以四个种系的未成年雌性大白鼠每窝各3只,每只按一种剂量注射雌激素,经一定时间,取出子宫称重,结果见表7-6。试比较不同剂量及不同种系间的子宫重量有无差别?方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 例2,为了研究雌激素,对子宫发育的作用,以四个种系的未成年雌性大白鼠每窝各3只,每只按一种剂量注射雌激素,经一定时间,取出子宫称重,结果见表7-
17、6。试比较不同剂量及不同种系间的子宫重量有无差别?方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 方差分析方差分析 配伍组(双因
18、素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 4.4.推断结论推断结论因处理间和配伍间的因处理间和配伍间的p0.01p0.01,在,在=0.05=0.05水准上都拒绝水准上都拒绝H0H0接受接受H1H1,差异,差异有高度显著性。认为注射不同剂量的雌激素对大白鼠子宫发育有影响;有高度显著性。认为注射不同剂量的雌激素对大白鼠子宫发育有影响;大白鼠不同种系间子宫的发育也有差别。大白鼠不同种系间子宫的发育也有差别。方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 5.5.各均数间的两两比较各均数间的两两比较以上方差分析结
19、果差异有显著性,是对各组均数的整体而言,不能推论以上方差分析结果差异有显著性,是对各组均数的整体而言,不能推论其中任何两组间差异都有显著性。故需进一步确定哪两个总体均数间有其中任何两组间差异都有显著性。故需进一步确定哪两个总体均数间有差别,哪两个间没有差别,为此可以用方差分析提供的信息作样本均数差别,哪两个间没有差别,为此可以用方差分析提供的信息作样本均数间的两两比较,又称多重比较,方法有多种,仍可用前面介绍的间的两两比较,又称多重比较,方法有多种,仍可用前面介绍的q q检验法检验法(Newman-kenlsNewman-kenls法)。法)。方差分析方差分析 配伍组(双因素)设计的多个样本均
20、数间的比较配伍组(双因素)设计的多个样本均数间的比较 例题:用4种不同方法治疗8名患者,其血浆凝固时间的资料如下表,试分析影响血浆凝固时间的因素。方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS code方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个
21、样本均数间的比较 SAS output方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output注意:本例若对治疗方法的检验不校正个体差异,结果如何?请看该程序的输出结果.方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS o
22、utput该输出结果说明什么问题?方差分析方差分析 配伍组(双因素)设计的多个样本均数间的比较配伍组(双因素)设计的多个样本均数间的比较 SAS output该输出结果说明什么问题?多个方差的齐性检验多个方差的齐性检验1.Bartlett检验法2.Levene等3.最大方差与最小方差之比3,初步认为方差齐同。方差分析方差分析 方差分析的用途方差分析的用途(1 1)两个或多个样本均数间的比较)两个或多个样本均数间的比较(2 2)同时分析多个因素的作用)同时分析多个因素的作用(3 3)分析因素间的交互作用)分析因素间的交互作用(4 4)方差齐性检验)方差齐性检验(5 5)回归系数的显著性检验)回归
23、系数的显著性检验方差分析方差分析 方差分析的注意事项方差分析的注意事项 p 要求原始数据呈正态分布,但这一要求并不十分严格,因为当比较大(即每一组的样本含量不太小)时,它们的均数仍可看作是正态分布,仍可做方差分析。p 要求方差齐性,必要时作方差齐性检验。p 从方差分析的数学原理上讲,在方差分析中要求各种因素的效应是线性可加的。p 方差分析只能判断是否所有总体均数全相等,要研究某两个或某几个总体均数是否相等,必须做两两比较。p 有些资料虽然呈偏态或方差不齐,经过适当变量变换后,可达到方差分析的要求,常见变量变换有:对数转换、平方根转换、百分位数反正弦转换、倒数转换等。p 对于转换后仍达不到方差分
24、析要求的,应做非参数检验。方差分析方差分析 变量变换变量变换它的目的是:(1)使各组达到方差齐;(2)使资料转化为正态分布,以满足方差分析和t检验的应用条件,通常情况下,一种适当的函数转换可以使上述两个目的同时达到。(3)直线化,常用于曲线拟合。(举例)方差分析方差分析 对数变换 Xxlg对数变换常用于:(1)使服从对数正态分布资料正态化。(2)使资料达到方差齐要求,特别是各样本的标准差与均数之比(cv)比较接近时。(3)使指数曲线直线化,用于曲线拟合。方差分析方差分析 变量变换变量变换 平方根变换 Xx 平方根转换常用于:(1)服从Poisson分布的分类资料或轻度偏态资料的正态化,如放射性物质的计数一般认为是服从Poisson分布,可用平方根变换正态化。(2)当各样本的方差与均数间呈正相关时,即均数大,方差也大,可使资料达到方差齐的要求。方差分析方差分析 变量变换变量变换 倒数变换 Xx1倒数变换常用于数据两端波动较大的资料,可使极端值的影响减少。平方根反正弦变换 Xx1sin平方根反正弦变换用于:以率为观察值的偏态分布的正态化。如发病率、感如发病率、感染率、病死率、白细胞的分类计数、淋巴细胞转换率、畸变细胞出现率等染率、病死率、白细胞的分类计数、淋巴细胞转换率、畸变细胞出现率等。方差分析方差分析 变量变换变量变换Thank you!