1、1第九章 方差分析 方差分析又称做变异数分析(缩写ANOVA),它是一种应用非常广泛的变量分析方法。其作用就是对引起方差变化的各种因素进行分析和比较,从而确定各个因素对因变量是否有显著的影响。方差分析可以像Z检验一样用来比较两个或两个以上平均数的差异。但是,它与Z检验相比具有以下优点:功效高。Z检验一次只能比较两个平均数,而方差分析一次可以比较多个平均数的差异。功能强。Z检验只能分析,比较单因素实验结果,对于多因素实验的交互作用以及同时比较各个因素作用的大小则无能为力。2第一节 方差分析的基本原理一、几个基本术语(概念)因素:所谓因素是指实验因素,即在实验中准备考察的刺激变量自变量。水平:所谓
2、水平是指实验因素的水平,即每一个因素所处的状态或等级。也就是实验因素这个变量所取的“值”。实验处理:所谓实验处理是指各种实验因素的不同水平的组合。3第一节 方差分析的基本原理二、方差分析的基本原理 方差分析就是对引起方差变化的各种因素进行分析和比较,从而找出形成各样本之间差异的主要因素。它所依据的基本原理是变异的可加性,即把实验数据之间的总的差异分解为若干个不同来源的分量,具体地说,它是将总的离差平方和分解为n个不同来源的离差平方和,然后根据每个离差平方和的大小来确定它们对总的离差平方和的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。4例1 从某班学生中随机抽取条件相仿的4组学生,每
3、组5人,由4位教师采用不同的教学方法(甲、乙、丙、丁)进行某种技能的训练经过一段时间,其测验成绩如表9-1所示。教学方法甲乙丙丁被试者78726966706570726266728280867080757377757167787673jXtX5二、方差分析的基本原理一般情况下:BWTtjBjijWtijTkjnikjtjjijtijtjjijtijSSSSSSXXnSSXXSSXXSSXXnXXXXXXXXXX:2221 11222则有令可以证明6二、方差分析的基本原理 在方差分析中,比较组间变异与组内变异,要用各自的均方(即方差)来比较,而不能用平方和直接比较。则需用各平方和除以各自的自由度
4、,从而得到均方,以均方来比较。它们各自的自由度为:WWBBwBTWBdfSSdfSSFFFnKdfdfdfnKdfKdf:1:1:;1:验。即分子位置,进行单侧检将组间均方放在显著性水平。因而总是就无需检验其是否小到方小于组内均方,组内均方,如果组间均组间均方是否显著大于差分析中关心的是异要用双侧检验。在方比较两个样本方差的差检验时,利用检验。在方差齐性检验用检验方差之间的差异要则总自由度组内自由度组间自由度7三、方差分析的步骤建立假设:求F值:求平方和:即求组间平方和,组内平方和及总平方和求自由度:求方差(均方):求F值:判断结果:显著至少有一对平均数差异:1210HHK1;1;1Kndfn
5、KdfKdftWBWWWBBBdfSSMSdfSSMS;WBMSMSF 8三、方差分析的步骤作出方差分析概要表变异来源平方和SS自由度df方差MSF值F临界值检验结果组间变异SSBdfBMSB组内变异SSWdfWMSWWBMSMS9四、方差分析的基本条件总体服从正态分布总体服从正态分布变异的可加性变异的可加性(变异的相互独立性)变异的同质性:变异的同质性:即各组的变异是相等的,或者说各组的方差彼此无显著差异。22221K时所用的自由度。中较大的一个作为查表自由度不同,则可用其。如果各实验处理组两两之间均无显著差异几个要比较的样本方差,就可认为小于表中相应的临界值临界值表,当算出的查比率法。即:
6、最大)检验常用哈特莱(变异的同质性(齐性)maxmax2min2maxmaxFFFFHartleySS10五、方差齐性检验(哈特莱法)例1的数据为例解:经计算得:故方差齐性差异不显著时当查附表最小最大丁丙乙甲.,05.0,6.2056.66.20,41,4,556.662.584.3662.5,84.36,82.12,16max222222pFndfKSSFSSSS11第二节第二节 完全随机设计的方差分析完全随机设计的方差分析一、各实验处理组样本容量相等一、各实验处理组样本容量相等)1(;1;1:1211221112211112 nkdfKdfnKdfnXXSSSSnKXnXSSSSnKXXS
7、SeATkjjkjniijWekjniijkjjBAkjniijkjniijT自由度为平方和12表10-4 四种教学方法实验结果统计表甲乙丙丁7872696670657072626672828086708075737775nj5555Kn=20355335390380716778762528522509306042890825205224453042028880jXjXniijX12jjnX214604151 jiijX1069501073064122jjjnXX13例1 的计算(各实验水平的被试相等)解:建立假设:计算F值:求平方和:35610695010730637010658010695
8、072610658010730645146010730612112211122211112 kjjjkjniijekjniijkjjjAkjniijkjniijTnXXSSnkXnXSSnkXXSS丁丙乙甲:0H14例1 的计算求自由度:求均方:计算F值:16445;3141191451KnKdfKdfnkdfeAT25.221635633.1233370eeeAAAdfSSMSdfSSMS54.525.2233.123eAMSMSF15判断结果:.,01.0,29.554.5.29.5,16445;3141:01.016,3异果之间有非常显著的差故这四种教学方法的效差异极显著时值表查PFKn
9、KdfKdfFeA变异来源平方和SS自由度df方差MSF值临界值因素变异误差变异370356316123.3322.255.29总变异726*54.516第二节 完全随机设计的方差分析KNdfKdfNdfnXXSSNXnXSSNXXSSWBTiWiBT;1;1:222222自由度平方和二、各实验处理组样本容量不同二、各实验处理组样本容量不同17例2:研究人员采用四种不同的心理治疗方案,对每个志愿参加治疗的患者心理治疗,他们用录音机记录了每个被试在一段时间中所讲的词数。由于录音的困难,每种方案记录的人数各不相同。原始数据见下表,问这几种方案是否有差异?解:原始数据与计算的中间数据见下表:18 治
10、疗方案nj130744658623863082503866624458807398318563424665262504887860764302231258X764442X所有观测的平方和19例例2的计算的计算解解:建立假设:求F值77.39.2511.9509.251195.47861.95034.285015.47864.28509.76364.28501.688075.7165723125843026250739863089.7636231258764442222222222WBWWBBBTWiBTMSMSFKNSSMSKSSMSSSSSSSNXnXSSNXXSS平均数不等至少有两种治疗方
11、案的:;:143210HH20例2的计算(续)判断结果:作方差分析表:.,05.0,13.3:19,305.019,305.0之间有显著差异答:四种心理治疗方案差异显著查表得pFFF变异来源平方和自由度均方F值组间变异组内变异2850.44786.5319950.1251.93.77*总变异7636.92221第二节 完全随机设计的方差分析三、利用样本统计量进行方差分析kjjjwkjtjjBkjjkjjjSnSSXXnSSnXnX121211:.3:.2:.1误差平方和因素平方和总平均数22例3 为了考察三种教学方法的教学效果的优劣,从某校五年级中随机抽取三个班作为实验对象,经过一学年的实验,
12、然后进行测验,其结果如下表,试对三班测验成绩单的平均数是否有显著差异进行方差分析.班 级人数平均数标准差甲乙丙52484575.280.584.54.23.34.5合计14523例3的计算解:40.5983.1794.10585.83.1714225.253194.1058289.2117.41423145;2131:.325.25315.4453.3482.45289.21178.795.74458.795.80488.792.7552:.28.794548525.84455.80482.7552:.1222222WBWWWBBBWBWBTMSMSFFdfSSMSdfSSMSkndfkdfS
13、SSSX值:求求均方:求自由度求平方和求总平均数24 例3的计算6、编制方分析表:变异来源平方和SS自由度df方差MSF值F临界值(0.01)检验结果组间变异2117.8921058.944.75P0.01组内变异2531.2514217.83总变异4649.14144*40.5925第三节 随机区组设计的方差分析 在完全随机化实验设计的方差分析中,我们把总变异分解为因素的变异(组间变异)和误差的变异(组内变异),而在误差变异中既含有偶然因素带来的变异,同时又有抽样误差(个体差异)造成的。从而使误差变异增大,影响了F检验的精确度和灵敏度,为了弥补这个缺陷,常采用随机区组设计。随机区组设计是指在
14、实验中将实验对象按一定的标准分成不同的区组,然后用随机的方式决定每个区组内的被试接受何种处理的设计方法。随机区组设计在教育和心理实验中经常采用。(举例)26二、随机化区组设计的方差分析 随机区组设计中每一区组内被试的人数分配有以下三种情况:一个被试作为一个区组,所有被试都要分别接受各种实验处理。每一区组内被试的人数是实验处理数的整数倍。区组内的基本单元不是个别被试,而是以一个团体为单元。27二、随机化区组设计的方差分析 随机区组设计,由于加入了“各区组内的被试水平尽量同质”这一控制条件,这相当于在原来的实验中又增加了一个新的因素“区组”,从而成为不考虑交互作用的双因素实验。区区区SSSSSSS
15、SXabcXacSSXabcXbcSSXabcXSSSSSSSSSSATeaibjckijkbjjaibjckijkaiiAaibjckijkaibjckijkTeAT 211112211112211111121111128 自由度:单因素随机区组设计进行F检验时,一般只对实验因素进行检验,对区组不加检验。区区dfdfdfdfbdfadfabcdfATeAT11129例4 把12名学生以优、良、中、差的学习程度分成4个区组,然后按照随机区组设计的方法进行三种不同教学方法的实验。A1、A2、A3表示不同的教学方法,B1、B2、B3、B4表示4个不同的区组。实验结果如下表所示。试分析三种教学方法的
16、效果差异是否显著。A1A2A3X.jB138292693B227232171B323221964B418151346Xi.106897930解:建立假设:计算F值:3210:H7.3773.6256466471933143112.933.62565.634927412179891064143117.4953.625667524312222412314122222231413122314131412 jijijjijijiiAijijijijTXXaSSXXbSSXXSS区31自由度:求方差:列方差分析概要表(略)63211;31412131;111431区区dfdfdfdfbdfadfabcd
17、fATeAT.,01.0,9.1028.1113.46.46:13.468.24;6.4622.9301.6,2差异极显著值求pFFMSMSFFdfSSMSdfSSMSAeAAeeeAAA32三、两种实验设计的比较完全随机实验设计随机区组实验设计优点分组简单,能控制因被试流失所造成的误差。能提高实验的精确度;提供估计遗失数据的方法。缺点由于随机取样不能保证各组的真正等同,则实验误差不仅包括随机误差,还有样本间的误差。分组较烦琐;实验结果处理较为复杂。对实验处理数目有一定的限制,一般不多于8。33第三节 事后比较 方差分析中的F 检验是一种综合检验,它的结果只是总的说明各样本的平均数之间的差异是
18、否显著。但并未说明哪一对样本或哪几对样本之间的差异是否显著。若F检验差异显著,则需要进一步分析哪些样本平均数之间的差异是显著的,哪些样本之间的差异是不显著的。34第三节 事后比较一、Nk法的检验步骤特点:功效大;易于理解;对于的解释并不是以个别的检验而是用全部的保护水平为依据;提供了一个(1-)的保护水平。Nk法的步骤把各组样本平均数自小到大作等级排序,得到比较等级计算Nk的统计量,即公式:判断结果:kejirnnnknnMSXXjiq111;,21其中.,;,6之间差异不显著与则若之间差异显著与则若得出查附表临jijiXXdfkqqXXdfkqqq1jirrr35二、Nk法的应用例4中,通过
19、方差分析知道三种教学方法的教学效果之间有显著差异。则需进一步作平均数之间的比较。解:三种教学方法的等级排列:等级:1 2 3平均数:比较等级:r 分别为:2、3计算q值:)5.26(),25.22(),75.19(123XXX62.602.175.6413.475.195.26)3,1(:34414141313131nMSXXqrnknekjj时36二、Nk法的应用计算q值:判断结果:17.402.125.225.26)3,2(:245.202.175.1925.22)2,1(q :2r22qr时时之间差异不显著与间的差异显著与之间差异极显著与教学方法时3222101.05.23101.301
20、.05.01.05.),6,2(46.345.2.)6,2(24.517.4),6,2(46.317.4)3,2(.),6,3(33.662.6)3,1(24.5)6,2(,46.3)6,2(33.6)6,3(,34.4)6,3(,6AAqAAqqqAAqqqqqqdfe37二、Nk法的应用(当水平数较多时)Nk法的步骤把各组样本平均数自小到大作等级排序,得到比较等级r根据 r 和dfw(或dfe),查附表6,得出q的临界值。计算标准误SE:计算 ,即得对应于某一个r值的两个平均数相比较的临界值。从而与两个平均数之间的差异量进行比较,以判断两个平均数差异的显著性。kjjwwXnkMSnMSSE
21、11临qSEX38二、Nk法的应用(当水平数较多时,例1)解:排序,计算等级:等级:1 2 3 4平均数:比较等级 r 分别为:2、3、4查q的临界值:19.5,05.4:478.4,65.3:313.4,00.3:2,1601.05.01.05.01.05.qqrqqrqqrdfe时时时67乙X71甲X76丁X78丙X39二、Nk法的应用(当水平数较多时,例1)求SE:(样本容量相等为n时)计算SEq:11.2525.2211nMSnkMSnMSSEekjjeeX95.1011.219.5,55.811.205.4,409.1011.278.4,70.711.265.3,371.811.213.4,33.611.23,201.05.01.05.01.05.SEqSEqrSEqSEqrSEqSEqr时时时当40判断结果49*511*7267乙X71甲X76丁X78丙X71甲X76丁X78丙X