1、SPSS统计软件应用基础第七章 方差分析一、什么是方差分析?常用语言:检验一个或多个因素对试验结果 的影响是否显著。统计语言:检验多个方差相等的正态总体的 均值是否相等。二、几个术语1、试验指标衡量试验结果的量 (定量、定性)(必须是数量)。2、因素 影响试验指标的条件,(不)可控 记作A,B,C3、水平因素所处等级、状态,A 的r个水平记作 4、单(多)因素试验考察一(多)个 因素的试验。第一节 单因素方差分析一、基本问题1、基本数据:A的r个水平AAA1xxx2xxxxtxx12,rA AA2、任务:检验因素A对试验结果影响 是否显著?(A是否是重要 因素?)二、基本原理1、数学模型(数据
2、结构)(1)设 且 检验:说明:若要接受 ,表示 r个水平下的平均数相同,即A对试验结果影响不显著;反之,影响显著。212,.,.(,)1,2,.,.iiiitixxxiidNir 21,2,.;1,2,.,.(0,)ijiijiijxjt irN012:rH0H(2)记11riirii称为 的效应,iA1,2,ir21,2,.;1,2,.,.(0,)ijiijiijxjt irN 则012:0rH0H 2、基本思想(1)、条件误差:因条件不同引起的误差;随机误差:相同条件下引起的误差。(2)、基本思想:a、把条件误差与试验误差分开;b、在某种意义下加以比较,若条件 误差明显大于随机误差,则有
3、理 由认为A影响显著。3、偏差平方和分解111itrijijxxn总样本均值:1riint总样本容量:111,2,itiijjixxirt各总体的样本均值:总偏差平方和:21121122111111()()()()()()()iiiiitrTijijtrijiiijttrriijiijijtrijiiijAESxxxxxxxxxxxxxxSS其中 表示由A所引起的各组数据之间的偏差平方和(反映条件误差?),称为组间平方和;表示由随机因素引起的各组数据内部的偏差平方和(反映随机误差?),称为组内平方和。ASES、构造检验统计量(1)7.1.6()AESrFSnr(1,)FF rnr0H由柯赫伦分
4、解定理知,在假设成立的情况下,。其中称为A的均方,称为随机均方。(1)ASr()ESnr、具体判断利用公式(7.1.6)计算出 F 的值,记为F值,并根据 F 分布计算出相应的显著性概率 若Sig.小于给定的显著水平 ,则拒绝原假设,即认为因素A对试验指标有显著影响;否则认为无显著影响。通常当时,称为有非常显著影响,记为;当时,称为有显著影响,记为。.()pSigP FF值0.01.0.05Sig.0.01Sig 三、基本计算1.建立数据文件a、定义试验指标变量 x 和因素变量kind;b、输入数据;c、保存数据文件。2选择统计方法 按AnalyzeCompare meansOne-Way A
5、NOV 顺序选择菜单或菜单项。3结果说明 解释输出结果的统计意义。例7.1.1 对六种不同的农药在相同的条件下分别进行杀虫试验,试验结果如表7.1.1所示。农药试验号1234A878580A90888794A5662A5548A92999591A757281问杀虫率是否因农药的不同而有显著性的差异(显著水平)?0.01单因素方差分析要注意的两点:1、模型的条件22(,)(0,)ijiijiijijxNxN(1)、服从正态分布;(2)、r 个总体方差相等?(要求验证)2、多重比较ijx012:rH若,则拒绝 ,意味着上式中至少有一个不等号,到底哪些不等?(要比较).Sig0H练习:、将种不同品种
6、的种子 ,分别种在土质、气候条件基本相同的8块面积相等的小区域上,得到的收获量如下表。125,A AA水平试验号12345678A7678657271728379A7667706467837273A6270697371697369A6568687161696569A6771726974797684现欲检验种子品种(因素A)对收获量(试验指标)的影响是否显著。、四支温度计 和 被用来测定氢化奎宁的熔点,得如下结果:123,T T T4T0()x C温度计TTTT观测值174.0173.0171.5173.5173.0172.0171.0171.0173.5173.0173.0试检验在测量氢化奎宁
7、熔点时,这四支温度计之间有无显著性差异。第二节 两因素方差分析一、基本问题A因素水平 r 个:;B因素水平 s 个:。A、B的每种搭配下进行试验 t 次,得到下表的试验数据:12,rA AA12,rB BB所谓两因素方差分析就是考察:1、因素A对试验指标的影响是否显著?2、因素B对试验指标的影响是否显著?3、交互作用AB对试验指标的影响是否显著?注:若要考察AB、每种搭配下试验次数 。2t 什么是交互作用?例子:一种水稻品种种在四块面积与地力等条件相同的小区域上,各小区的施肥情况及产量如下表:区号一二三四施肥氮肥5斤磷肥5斤 氮肥5斤磷肥5斤产量(斤)608070110 一般地,在两个因素的试
8、验中,有时除了每个因素独立地起作用外,还可以联合起来起作用,这种作用,叫做这两个因素的交互作用。二、基本原理1、模型:ijkx来自总体 的样本,2(,)ijijxN 1,2,.kt记.11siijjs111rsijijrs总体平均数水平下的平均数iA.11rjijirjB水平下的平均数1,2,.ir1,2,.js.ii 水平的效应iA.jj 水平的效应jB()ijijij 的交互效应A B1,2,.ir1,2,.js则双因素方差分析模型为:ijkijijkijijijkx1,2,.ir1,2,.js1,2,.kt其中,相互独立且 满足2(0,)ijkN,ijij 11110,0,0,0.rsr
9、sijijijijij要检验的统计假设为:0112021203:0:0:0,1,2,;1,2,.rsijHHHirjs 若拒绝 ,则认为因素A的不同水平对试验结果有显著影响;若拒绝 ,则认为因素B的不同水平对试验结果有显著影响;若拒绝 ,则认为因素A与B不同水平搭配的交互效应对试验结果有显著影响;若三者均不拒绝,则认为因素A与B的不同水平搭配对试验结果无显著影响。01H02H03H2、偏差平方和分解111rsijkijxxrst总样本平均数:水平下样本平均数:.11tijijkkxxtiA.111stiijkjkxxst 水平下样本平均数:jB.111rtjijkikxxrt,ijA B 搭配
10、下样本平均数:总偏差平方和:2111.1112.22.1111122.11()()()()()()()()()rstTijkijkrstijkijijijijkijrstrsijkijijijijkijrsijijEA BASxxxxxxxxxxxxxxtxxxxstxxrtxxSSSBS 其中,是因素A的离差平方和;是因素B的离差平方和;是误差平方和。是交互作用的离差平方和。上式说明,总离差平方和 可以分解成由随机因素引起的误差平方和 ;由因素A各水平的效应引起的离差平方和 ;由因素B各水平的效应引起的离差平方和 以及A与B的交互效应引起的离差平方和 四部分。ASBSESA BSTSESAS
11、BSA BS、构造检验统计量(1)(1)AAESrFSrs t对 检验:01H(1)(1)BBESsFSrs t对 检验:02H(1)(1)(1)A BA BESrsFSrs t对 检验:03H由柯赫伦分解定理知,在假设 成立的情况下,010203,HHH(1,(1),(1,(1),ABFF rrs tFF srs t(1)(1),(1).A BFF rsrs t、具体判断(1)利用 的公式计算出 的具体数值,记为 ,并根据 的分布计算出显著性概率。若Sig.给定显著水平,则认为因素A对试验指标有显著性影响;否则无显著性影响。(2)利用 的公式计算出 的具体数值,记为 ,并根据 的分布计算出显
12、著性概率 。AFAFAF.()AASigP FF值BFBFAF值AF值BF.()BSigP FFB值若Sig.给定显著水平,则认为因素B对试验指标有显著性影响;否则无显著性影响。(3)利用 的公式计算出 的具体数值,记为 ,并根据 的分布计算出显著性概率 。若Sig.给定显著水平 ,则认为交互作用 对试验指标有显著性影响;否则无显著性影响。A BFA BFA BF 值A BF.()A BA BSigP FF值A B三、基本计算1.建立数据文件a、定义试验指标变量 x 和两个因素变量a,b;b、输入数据;c、保存数据文件。2选择统计方法 按AnalyzeGeneral Linear ModelU
13、nivariate顺序选择菜单或菜单项。3结果说明 解释输出结果的统计意义。例7.2.1 在某化工厂产品的生产过程中,对三种浓度,四种温度的每一种搭配重复试验二次,测得产量如下表7.2.2(单位:千克)。温度B浓度AAA A B21,2323,2526,23B22,2326,2429,27B25,2328,2724,25B27,2526,2424,23试检验不同的浓度,不同的温度以及它们之间的交互作用对产量有无显著性的差异(显著水平)?0.01练习:、设四名工人分别操作机床甲、乙、丙各一天,生产同样产品,其日产量统计如下表(单位:件):工人机床张某李某王某赵某甲53475745乙5650635
14、2丙45475442问工人的不同和机床的不同在日产量上有无显著性差异?(假定四名工人对这三台机床的熟悉情况是一样的。)、将一块耕地等分为24个小区,今有个不同的小麦品种(A1,A2,A3)和中不同的肥料(B1,B2)。现将各小麦品种与各种肥料进行搭配,对每种搭配都在个小区上试验,测得每个小区产量(千克)如下:ABAAAB9 109 812 119 813 1415 12 B9 1012 1112 1311 1222 1620 18试分析品种、肥料以及它们的交互作用对产量有无显著性的影响。第三节 多因素方差分析一、多因素试验的设计问题1、必要性有 r 个因素,每个因素有 s 个水平,所有搭配方式
15、有:次(很大)。要做那么多的试验显然是不可能的,即使是因素及水平较少,全面试验也不一定是必要的,对试验费高或带有破坏性的试验更是如此。rs、考虑:能否在所有的搭配的试验中,选出有代表性的部分试验,通过这一部分试验分析所关心问题(影响是否显著)。、解决此问题就涉及到试验设计。、试验设计的主要内容是讨论如何合理地安排试验以及试验后如何对数据进行统计分析。、试验设计的种类:正交设计、区组设计、回归设计等。二、正交设计、正交试验设计:用“正交表”来安排试验和分析试验结果的一种数理统计方法。、正交表(1)、定义:具有以下两个性质的表都称为正交表:a、每一列中不同的数字出现的次数相等。b、任意两列中,将同
16、一行的两个数字看成有序 数对,每种数对出现的次数相等。一般记为:,其中L:正交表符号,n:试验次数,a:因素水平数,b:正交表的列数(因素个数)。()bnL a例子:试验号列号1234567891111222333212312312331232313124123312231特点:a、将正交表中的任意两行交换或任意两列交换,它仍然是正交表。b、将某一列中的数字号码相互对换,它仍然是正交表。、正交表的使用步骤:a、找出“合适”的正交表。“合适”指:()正交表水平数必须和因素水平表中水平数一致。()正交表列数不少于因素的个数(所考虑的一个交互作用作为一个因素)。说明:若要进行(方差)分析时,一般要求
17、正交表列数必须大于因素的个数,以便使正交表留出空列;此空列是(方差)分析中的试验指标以及误差平方和所在列。b、表头设计因素放在表的哪一列。()若不考虑交互作用,可以任意放。()若考虑交互作用,先安排有交互作用的主因素的所在列,再由交互作用表决定交互作用所在列没有交互作用的主因素的安排,以尽量避免主因素与交互作用“混杂”为原则。c、确定表中各列的水平号码的具体水平内容。d、用正交表安排试验(与交互作用无关)。三、基本计算1.建立数据文件 定义试验指标变量和因素变量。2选择统计方法 按AnalyzeGeneral Linear ModelUnivariate顺序选择菜单或菜单项。3结果说明 解释输
18、出结果的统计意义。例7.3.1 某农药厂生产一种农药,收率不很理想,而且收率不稳定,想通过试验寻找合适的生产条件,达到稳产高产的目的。根据以往的经验,选择如下表中的四个水平因素。因素水平12反应温度(C)A6080反应时间(小时)B2.53.5配比 C1.1:11.2:1真空度(毫米汞柱)500600 其中要考虑因素A与B的交互作用,其余的交互作用甚微,不予考虑。并使用正交表 安排试验,试验结果见表7.3.1最后一列。问因素A、B、C、D以及交互作用A*B对高产(即收率)是否有显著影响?78(2)L因素试验号12345678A1(60)1112(80)222B1(2.5)12(3.5)21122A*B11222211C1(1.1:1)2(1.2:1)121212D1(500)2(600)212112收率()8188838986917883