1、3-1统计学导论统计学导论6-2第六章第六章 假设检验与方差分析假设检验与方差分析n第一节第一节 假设检验的基本原理假设检验的基本原理 n第二节第二节 总体均值的假设检验总体均值的假设检验 n第三节第三节 总体比例的假设检验总体比例的假设检验 n第四节第四节 单因子方差分析单因子方差分析n第五节第五节 双因子方差分析双因子方差分析n第六节第六节 Excel在假设检验与方差分析在假设检验与方差分析 中的应用中的应用6-3第一节第一节 假设检验的基本原理假设检验的基本原理n一、什么是假设检验一、什么是假设检验n二、原假设与备择假设二、原假设与备择假设n三、检验统计量三、检验统计量n四、显著性水平、
2、四、显著性水平、P-值与临界值值与临界值n五、双侧检验和单侧检验五、双侧检验和单侧检验n六、假设检验的两类错误六、假设检验的两类错误n七、关于假设检验结论的理解七、关于假设检验结论的理解6-4一、什么是假设检验一、什么是假设检验n【例【例6-1】假定咖啡的分袋包装生产线的装袋】假定咖啡的分袋包装生产线的装袋重量服从正态分布重量服从正态分布N(,2)。生产线按每袋)。生产线按每袋净重净重150克的技术标准控制操作。现从生产线克的技术标准控制操作。现从生产线抽取简单随机样本抽取简单随机样本n=100袋,测得其平均重量袋,测得其平均重量为为 =149.8克,样本标准差克,样本标准差s=0.872克。
3、问该克。问该生产线的装袋净重的期望值是否为生产线的装袋净重的期望值是否为150克(即克(即问生产线是否处于控制状态)问生产线是否处于控制状态)?x6-5n 所谓假设检验,就是事先对总体的参数所谓假设检验,就是事先对总体的参数或总体分布形式做出一个假设,然后利用抽或总体分布形式做出一个假设,然后利用抽取的样本信息来判断这个假设(原假设)是取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又否存在显著的系统性差异,所以假设检验又被称为显著性检验。被称为显著性检验。6-6 一个完整的假设检验过程,包括
4、以下几个步一个完整的假设检验过程,包括以下几个步骤:骤:n(1)提出假设;)提出假设;n(2)构造适当的检验统计量,并根据样本计)构造适当的检验统计量,并根据样本计 算统计量的具体数值;算统计量的具体数值;n(3)规定显著性水平,建立检验规则;)规定显著性水平,建立检验规则;n(4)做出判断。)做出判断。6-7二、原假设与备择假设二、原假设与备择假设n原假设原假设一般用一般用H0表示,通常是设定总体参数等于某值,表示,通常是设定总体参数等于某值,或服从某个分布函数等或服从某个分布函数等n备择假设备择假设是与原假设互相排斥的假设,原假设与备择是与原假设互相排斥的假设,原假设与备择假设不可能同时成
5、立。假设不可能同时成立。n所谓假设检验问题实质上就是要判断所谓假设检验问题实质上就是要判断H0是否正确,若是否正确,若拒绝原假设拒绝原假设H0,则意味着接受备择假设,则意味着接受备择假设H1。n如在例如在例6-1中,我们可以提出两个假设:假设平均袋中,我们可以提出两个假设:假设平均袋装咖啡重量与所要控制的标准没有显著差异,记装咖啡重量与所要控制的标准没有显著差异,记为为 ;n假设平均袋装咖啡重量与所要控制的标准有显著差异,假设平均袋装咖啡重量与所要控制的标准有显著差异,记为记为 。150:0H150:1H6-8三、检验统计量三、检验统计量n所谓检验统计量,就是根据所抽取的样本计所谓检验统计量,
6、就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。算的用于检验原假设是否成立的随机变量。n检验统计量中应当含有所要检验的总体参数,检验统计量中应当含有所要检验的总体参数,以便在以便在“总体参数等于某数值总体参数等于某数值”的假定下研的假定下研究样本统计量的观测结果。究样本统计量的观测结果。n检验统计量还应该在检验统计量还应该在“H0成立成立”的前提下有的前提下有已知的分布,从而便于计算出现某种特定的已知的分布,从而便于计算出现某种特定的观测结果的概率。观测结果的概率。6-96-106-11四、显著性水平、四、显著性水平、P-值与临界值值与临界值n1、判断的依据:、判断的依据:n小概率
7、原理小概率原理:小概率事件在单独一次的:小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。试验中基本上不会发生,可以不予考虑。n2、判断的逻辑:、判断的逻辑:n如果在原假设正确的前提下,检验统计如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定那么可以认为原假设不可信,从而否定它,转而接受备择假设。它,转而接受备择假设。6-12n什么是小概率?这要根据实际问题而定。什么是小概率?这要根据实际问题而定。n假设检验中,通常取假设检验中,通常取=0.01,=0.05,最大到最大到=0.10。n又称为显著
8、性水平。又称为显著性水平。n3、判断规则:、判断规则:n一是一是P-值规则;值规则;n二是临界值规则。二是临界值规则。6-13n1)P-值规则值规则 所谓所谓P-值,实际上是检验统计量超值,实际上是检验统计量超过过(大于或小于大于或小于)具体样本观测值的概率。具体样本观测值的概率。单侧检验单侧检验n若若p-值值 ,不拒绝不拒绝 H0n若若p-值值 /2/2,不拒绝不拒绝 H0n若若p-值值 /2/2,拒绝拒绝 H06-14n【例【例6-3】假定,根据例】假定,根据例6-2的结果,计算该问题的的结果,计算该问题的P-值,并做出判断。值,并做出判断。解:查标准正态概率表,解:查标准正态概率表,当当
9、z=2.29时,时,(0.9774+0.9786)/2=0.9780,尾部面积为尾部面积为(10.9780)/2=0.011,由对称性可知,当由对称性可知,当z=2.29时,左侧面积为时,左侧面积为0.011。0.011/2=0.025 0.011这个数字意味着,假若我们反复抽取这个数字意味着,假若我们反复抽取n=100的样本,在的样本,在100个样本中仅有可能出现一个使检验统个样本中仅有可能出现一个使检验统计量等于或小于计量等于或小于2.29的样本。该事件发生的概率小的样本。该事件发生的概率小于给定的显著性水平,所以,可以判断于给定的显著性水平,所以,可以判断=150的假定的假定是错误的,也
10、就是说,根据观测的样本,有理由表是错误的,也就是说,根据观测的样本,有理由表明总体均值与明总体均值与150克的差异是显著存在的。克的差异是显著存在的。6-15n(二)临界值规则(二)临界值规则 假设检验中,根据所提出的显著性水平标准假设检验中,根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假
11、设;内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。证据不足。6-16n注意:注意:n1)P-值规则和临界值规则是等价的。在值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。做检验的时候,只用其中一个规则即可。n2)P-值规则较之临界值规则具有更明显值规则较之临界值规则具有更明显的优点。第一,它更加简捷;第二,在的优点。第一,它更加简捷;第二,在P-值规则的检验结论中,对于犯第一类值规则的检验结论中,对于犯第一类错误的概率的表述更加精确。错
12、误的概率的表述更加精确。n推荐使用推荐使用P-值规则。值规则。6-17n【例【例6-4】假定,根据例】假定,根据例6-2的结果,用临界的结果,用临界值规则做出判断。值规则做出判断。解:查表得到,临界值解:查表得到,临界值z0.025=1.96。由于。由于 z=2.29 1.96,即,检验统计量的观测值落,即,检验统计量的观测值落在临界值所划定的左侧(即落在拒绝域),在临界值所划定的左侧(即落在拒绝域),因而拒绝因而拒绝150克的原假设。克的原假设。上面的检验结果意味着,由样本数据得到上面的检验结果意味着,由样本数据得到的观测值的差异提醒我们:装袋生产线的生的观测值的差异提醒我们:装袋生产线的生
13、产过程已经偏离了控制状态,正在向装袋重产过程已经偏离了控制状态,正在向装袋重量低于技术标准的状态倾斜。量低于技术标准的状态倾斜。6-18五、双侧检验和单侧检验五、双侧检验和单侧检验 图图6-1 双侧、单侧检验的拒绝域分配双侧、单侧检验的拒绝域分配/21 /2Z/2 Z/2 Z 0 0 Z(a)双侧检验(b)左侧检验(c)右侧检验 6-19 表表6-1 拒绝域的单、双侧与备择假设之间的对应关系拒绝域的单、双侧与备择假设之间的对应关系拒绝域位置P-值检验的显著性水平判断标准原假设备择假设双侧/2H0:0H1:0左单侧H0:0H1:06-20六、假设检验的两类错误六、假设检验的两类错误6-216-2
14、26-236-24n例;某工厂准备购买一批较便宜的原材料,要例;某工厂准备购买一批较便宜的原材料,要是这批原材料的次品率大到是这批原材料的次品率大到5%以上,就拒绝以上,就拒绝购买。购买。n当假设检验后拒绝购买,就会犯第一类错误,当假设检验后拒绝购买,就会犯第一类错误,失去购买便宜原材料,而出高价购买,增加产失去购买便宜原材料,而出高价购买,增加产品成本;品成本;n当假设检验后接受购买,就会犯第二类错误,当假设检验后接受购买,就会犯第二类错误,n不合格原材料使产品的次品率上升。不合格原材料使产品的次品率上升。n怎么办?工厂决策者有必要搞清楚哪一类错误怎么办?工厂决策者有必要搞清楚哪一类错误造成
15、的损失小,以减少成本。造成的损失小,以减少成本。6-25七、关于假设检验结论的理解七、关于假设检验结论的理解n在假设检验中,当原假设被拒绝在假设检验中,当原假设被拒绝时,我们能够以较大的把握肯定时,我们能够以较大的把握肯定备择假设的成立。而当原假设未备择假设的成立。而当原假设未被拒绝时,我们并不能认为原假被拒绝时,我们并不能认为原假设确实成立。设确实成立。6-26第二节第二节 总体均值的假设检验总体均值的假设检验n一、单个总体均值的检验一、单个总体均值的检验n二、双总体均值是否相等的检验二、双总体均值是否相等的检验6-27一、单个总体均值的检验一、单个总体均值的检验6-286-296-306-
16、316-326-336-34n例:某车间生产一种机器零件,已知其例:某车间生产一种机器零件,已知其直径平均长度为直径平均长度为32.05,方差为方差为1.21。现进。现进行工艺改革,如果质量不下降,可以进行工艺改革,如果质量不下降,可以进行全面改革,如果质量下降则暂不改革。行全面改革,如果质量下降则暂不改革。现随机抽取现随机抽取6个零件,测得其直径为:个零件,测得其直径为:32.56,29.66,31.64,30.00,31.87,31.03。试以。试以95%的显著水平检验该改革的显著水平检验该改革是否可以实行?是否可以实行?6-35n解:解:13.31676.186nxx假设为:假设为:临界
17、值:临界值:接受域:接受域:否定域:否定域:Z1.96Z1.96或或Z-1.96ZHH645.1%,95105.0Z964.161475780nxZ为什么是为什么是单侧检验?单侧检验?结论:否定原假设,说明设备更新后,月产量有所提结论:否定原假设,说明设备更新后,月产量有所提高。高。6-40n例:已知某种汽油用二某种型号的汽车,例:已知某种汽油用二某种型号的汽车,每公升油可行驶每公升油可行驶18公里。现研制出一种公里。现研制出一种添加剂以后,每公升汽油行驶的里程是添加剂以后,每公升汽油行驶的里程是否有变化?现随机抽取否有变化?现随机抽取25辆汽车作试验,辆汽车作试验,结果平均行驶里程为结果平均
18、行驶里程为18.5公里,方差为公里,方差为2.2。试作出检验。试作出检验。6-41n解:解:n结论:接受原假设,有结论:接受原假设,有95%把握预言加入添加把握预言加入添加剂后每公升汽油行驶的里程无显著变化。剂后每公升汽油行驶的里程无显著变化。18:18:10HH711.1)24(%,95105.0t6892.1296.05.0252.2185.180nsxt双侧6-42n例:已知某种柴油发动机,使用柴油每例:已知某种柴油发动机,使用柴油每升运转时间服从正态分布。现测试装配升运转时间服从正态分布。现测试装配好的好的6台,它们运转时间分别为台,它们运转时间分别为28,27,31,29,30,27
19、(分钟)。按设计要求(分钟)。按设计要求应在应在30分钟以上。据测试结果,在分钟以上。据测试结果,在95%的显著水平时,能否说明这种发动机是的显著水平时,能否说明这种发动机是否符合设计要求?否符合设计要求?6-43n解:解:n 接受域:接受域:30:30:10HH02.2)5(%,95105.0t,02.2633.153334.131)(67.2861722nxxsnxx单侧单侧6-44n检验统计量的值:检验统计量的值:n结论:接受原假设,即认为装配的这种发动机结论:接受原假设,即认为装配的这种发动机符合设计要求。符合设计要求。995.16667.033.16633.13067.280nsxt
20、6-45二、双总体均值是否相等的检验二、双总体均值是否相等的检验6-46然后,从总体然后,从总体A A和和B B中各选一个可能样本配中各选一个可能样本配成对,计算每一对样本平均数之差成对,计算每一对样本平均数之差两个样本平均数之差的抽样分布两个样本平均数之差的抽样分布就是就是指来自两个总体成对样本平均数之关的分指来自两个总体成对样本平均数之关的分布。布。2 2)性质:)性质:总体总体A A:样本:样本:总体总体B B:样本:样本:则:则:21xx 211,222,22,xn11,xn222121212121nnxxxx为什么是取加号?6-47或任意常数可以为其中0:,:,:,:21121021
21、1210211210HHHHHH假设检验形式:假设检验形式:6-48n(1)两个总体是正态分布,且方差已知,则)两个总体是正态分布,且方差已知,则检验统计量为:检验统计量为:2221212121)()(nnxxZ6-49n(2)两个总体是正态分布,且方差未知但相等,)两个总体是正态分布,且方差未知但相等,若为小样本(即若为小样本(即 ),则检验统计量为:),则检验统计量为:2)1()1()2()11()()(212222112212122121nnsnsnsnnTnnsxxt3021 nn6-50n3)两个总体是正态分布,且方差未知但相)两个总体是正态分布,且方差未知但相等,若为大样本(即等,
22、若为大样本(即 ),则检),则检验统计量为:验统计量为:3021 nn)()()(2221212121nsnsxxZ6-51例:某农业研究所试验磷肥和氮肥能否提高小麦产例:某农业研究所试验磷肥和氮肥能否提高小麦产量,为此做了两种试验:量,为此做了两种试验:(1 1)选八块试验田不施磷肥和氮肥;)选八块试验田不施磷肥和氮肥;(2 2)选取十块试验田在播种前施磷肥,播种后分)选取十块试验田在播种前施磷肥,播种后分三次加施氮肥,而其它条件相同。三次加施氮肥,而其它条件相同。成熟后,分别测量了它们的亩产,数据如下:成熟后,分别测量了它们的亩产,数据如下:试验试验1 252,204,234,246,22
23、2,210,212,244;1 252,204,234,246,222,210,212,244;试验试验2 2 172,158,186,214,224,228,196,190,202,170172,158,186,214,224,228,196,190,202,170试以试以95%95%的显著水平检验施肥与不施肥的平均产量的显著水平检验施肥与不施肥的平均产量有没有差异有没有差异?6-52n解:设两个总体服从正态分布,且方差未知但解:设两个总体服从正态分布,且方差未知但相等。相等。n试验试验1的数据计算如下:的数据计算如下:6.340723841)()(228818242211nxxskgnxx
24、试验试验2 2:551949601)()(1941019402222nxxskgnxx6-53n提出假设:提出假设:n临界值:临界值:n接受域:(接受域:(-2.12,2.12)n统计检验量的值为:统计检验量的值为:0:,0:211210HH12.2)16()2(%,951025.0212tnnt6-54346.3225.045934101812108551)110(6.340)18(194228112)1()1()11()()(212122221121212121nnnnsnsnxxnnsxxt结论:结论:t t值落在拒绝域,故拒绝值落在拒绝域,故拒绝H0H0接受接受H1H1。即说明适当施肥
25、对小麦增产有显著即说明适当施肥对小麦增产有显著的作用。的作用。6-55n例:假定有人作一次调查,评判甲、乙两例:假定有人作一次调查,评判甲、乙两个城市的工人单位时间工资是否相同。资个城市的工人单位时间工资是否相同。资料如下:料如下:n城市城市 样本平均样本平均 样本样本 样本样本n 小时的收入小时的收入(元元)标准差标准差 容量容量n 甲甲 6.95 0.40 200n 乙乙 7.10 0.60 175n试在试在95%的显著水平下检验两个城市工人的显著水平下检验两个城市工人单位时间平均工资是否有差别单位时间平均工资是否有差别?6-56n解:假设解:假设n检验统计量的值为:检验统计量的值为:0:
26、,0:211210HH830.2053.015.017560.020040.0010.795.6)()(222221212121nsnsxxZ6-57n临界值:临界值:n结论:结论:Z值落在否定域中,故拒绝值落在否定域中,故拒绝H0,接受,接受H1,说明两个城市工人单位时间工资之间明显的差说明两个城市工人单位时间工资之间明显的差异。异。96.1%,9512Z6-58n例:某工厂为了比较两种装配方法的效率,分别组织了两例:某工厂为了比较两种装配方法的效率,分别组织了两组员工,每组组员工,每组9人,一组采用新的装配方法,另外一组采用人,一组采用新的装配方法,另外一组采用旧的装配方法。假设两组员工设
27、备的装配时间均服从正态旧的装配方法。假设两组员工设备的装配时间均服从正态分布,两总体的方差相等但未知。现有分布,两总体的方差相等但未知。现有18个员工的设备装个员工的设备装配时间见表配时间见表6-2,根据这些数据,是否有理由认为新的装配,根据这些数据,是否有理由认为新的装配方法更节约时间?(显著性水平方法更节约时间?(显著性水平0.05)表表6-2 两组员工设备的装配时间两组员工设备的装配时间 单位:小时单位:小时 新方法(x2)353129253440273231旧方法(x1)3237353841443531346-596-606-616-62第三节第三节 总体比例的假设检验总体比例的假设检
28、验n一、单个总体比例的假设检验一、单个总体比例的假设检验n二、两个总体的比例是否相等的检验二、两个总体的比例是否相等的检验6-63一、单个总体比例的假设检验一、单个总体比例的假设检验6-646-65 n【例【例6-7】一项调查结果声称,某市小学生每】一项调查结果声称,某市小学生每月零花钱达到月零花钱达到200元的比例为元的比例为40%,某科研机,某科研机构为了检验这个调查是否可靠,随机抽选了构为了检验这个调查是否可靠,随机抽选了100名小学生,发现有名小学生,发现有47人每月零花钱达到人每月零花钱达到200元,调查结果能否证实早先调查元,调查结果能否证实早先调查40%的看的看法?(法?()05
29、.06-666-67n例:某工厂领导认为超过例:某工厂领导认为超过35%35%的工人满意的工人满意该厂的工作环境。为了证实该结论,有关该厂的工作环境。为了证实该结论,有关部门作了一次调查,随机抽取了部门作了一次调查,随机抽取了150150名工名工人,其中有人,其中有6969人对工作环境满意。试以人对工作环境满意。试以95%95%的显著水平检验的显著水平检验 的假设。的假设。%35:0PH6-68n解:假设:解:假设:n临界值:临界值:n接受域:接受域:n检验统计量的值:检验统计量的值:%35:%,35:10PHPH64.1%,951Z64.1,83.20389.011.0150)35.01(3
30、5.035.046.0)1(46.0150691nPPPpZnnp6-69n结论:结论:Z值落在拒绝域内,故拒绝原假设,接值落在拒绝域内,故拒绝原假设,接受备择假设,说明该厂工人对工作环境的满意受备择假设,说明该厂工人对工作环境的满意程度确实超过了程度确实超过了35%。例:某公司推出一种男女均宜的饮料,例:某公司推出一种男女均宜的饮料,认为这种饮料的消费者性别比例各为认为这种饮料的消费者性别比例各为50%50%。对消费者抽样调查结果表明:。对消费者抽样调查结果表明:100100名接受调查的消费者中,男性饮用名接受调查的消费者中,男性饮用者者5555人,女性有人,女性有4545人。当人。当 时,
31、问该饮料消费者的性别比例相等时,问该饮料消费者的性别比例相等的看法是否成立?的看法是否成立?%56-70解:解:5.0:,5.0:10PHPH96195102502.%,.ZZ接受域:(-1.96,1.96)P=0.5,则:结论:Z值落在拒绝域内,故拒绝原假设,接受备择假设,说明该饮料消费者的性别比例相等的看法是成立的。(当然用女性资料也可得出相同结论)110050150505501).(.)(nPPPpZ6-71二、两个总体的比例是否相等的检验二、两个总体的比例是否相等的检验 6-726-73第四节第四节 单因子方差分析单因子方差分析n一、问题的提出一、问题的提出n二、方差分析的检验统计量二
32、、方差分析的检验统计量n三、关于方差分析的两点说明三、关于方差分析的两点说明One-Factor ANOVA6-74一、问题的提出一、问题的提出n【例【例6-8】已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。】已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用组初始条件完全
33、相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表四种不同的饲料配方进行喂养。所得到的增重数据如表6-3。表表6-3 四种不同饲料配方下小鸡的增重情况四种不同饲料配方下小鸡的增重情况饲料配方饲料配方 i小鸡序号小鸡序号 j38周后小鸡个体增重周后小鸡个体增重yij(克克)123456配方13704204504901730配方24903804003905004102570配方33303404003804701920配方441048040042038041025001600162016501680135082087206-75n对于类似本例的问题,一般
34、地,把随机变量对于类似本例的问题,一般地,把随机变量分组的数目记作分组的数目记作m,我们可建立下列假设:,我们可建立下列假设:不全相等,mmHH,:2112106-76方差分析方差分析Analysis of Variance(ANOVA)因素也称为因素也称为处理处理,每,每一处理因素至少有两个一处理因素至少有两个水平水平(level)(也称(也称“处理组处理组”)。)。一个一个因素因素(水平水平间独立)间独立)单因素方差分析单因素方差分析 两个两个因素因素(水平水平间独立或相关)间独立或相关)双因素方差分析双因素方差分析 一个个体多个测量值一个个体多个测量值可可重复测量资料的方差分析重复测量资
35、料的方差分析 ANOVA与回归分析相结合与回归分析相结合协方差分析协方差分析 目的:目的:用这类资料的样本信息来推断各处理组间用这类资料的样本信息来推断各处理组间多个总多个总体均数体均数的差别有无统计学意义。的差别有无统计学意义。6-77 ANOVA ANOVA 由英国统由英国统计学家计学家R.A.FisherR.A.Fisher首首创,为纪念创,为纪念FisherFisher,以以F F命名,故方差分析命名,故方差分析又称又称 F F 检验检验 (F F testtest)。用于推断)。用于推断多多个总体均数个总体均数有无差异有无差异 6-78组间变异组间变异总变异总变异组内变异组内变异二、
36、方差分析的检验统计量二、方差分析的检验统计量所有测量值之间所有测量值之间总的变异程度总的变异程度各组均数与总均数各组均数与总均数的离均差平方和的离均差平方和用各组内各测量用各组内各测量值值Yij与其所在与其所在组的均数差值的组的均数差值的平方和来表示平方和来表示6-796-806-81(mean square,MS)6-8210,10215,1215,52122121122/22/12121121)(222)(FFFf6-836-84【例例6-9】利用表6-3中的数据进行单因子方差分析(显著水平为=0.05)。6-856-866-876-88 表表6-4 方差分析表方差分析表F变异来源离差平方
37、和自由度均方差值P-值临界值组间7112.1432370.7141.012320.4115733.196774组内39811.67172341.863总计46923.812036-89n(一)方差分析中变量的类型(一)方差分析中变量的类型 方差分析中的因变量是数量型变量。自变量可方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。当自变量以是品质型变量,也可以是数量型变量。当自变量是数量型变量的时候,也要对其作统计分组设计,是数量型变量的时候,也要对其作统计分组设计,也就是将它按品质型变量来处理。也就是将它按品质型变量来处理。(二)总体的正态性和同方差(二)总体的正态性
38、和同方差n 方差分析适用于多个正态总体方差分析适用于多个正态总体Yi(i=1,2,m)均值的比较,且要求它们具有相同的方差。不)均值的比较,且要求它们具有相同的方差。不过在实际应用中,即使对于正态性和同方差性都存过在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。用的近似信息的技术。三、关于方差分析的两点说明三、关于方差分析的两点说明6-90第五节第五节 双因子方差分析双因子方差分析n一、问题的提出一、问题的提出n二、有交互作用的双因子方差分析二、有交互作用的双因子方差分析6-91一、问题的提出
39、一、问题的提出n 方差分析中的方差分析中的“因子因子”,也称因素。它,也称因素。它是一个独立的变量(自变量)。在上一节的是一个独立的变量(自变量)。在上一节的例子中,我们要分析饲料是否为影响增重产例子中,我们要分析饲料是否为影响增重产生差异的原因,所以饲料是因子。该例中所生差异的原因,所以饲料是因子。该例中所考察的因子只有考察的因子只有“饲料饲料”一个,而其他因子一个,而其他因子如鸡的品种,饲养条件等保持不变,我们称如鸡的品种,饲养条件等保持不变,我们称这种方差分析为单因子方差分析。如果要同这种方差分析为单因子方差分析。如果要同时考察饲料和鸡的品种两个因子对小鸡的增时考察饲料和鸡的品种两个因子
40、对小鸡的增重是否有影响,则称之为双因子方差分析。重是否有影响,则称之为双因子方差分析。6-926-936-94n 在这里要注意,不能把在这里要注意,不能把A的的r个处理和个处理和B的的c个处个处理看成理看成“随机样本随机样本”。现在的。现在的rc个处理是个处理是rc个总体,个总体,即即Ai和和Bj的每一种搭配形成的组格都是一个总体的每一种搭配形成的组格都是一个总体(随机变量(随机变量Yij)。对一个组格总体的)。对一个组格总体的nij个观测个观测yij1,yij2,yij 才是随机样本。才是随机样本。n 我们把我们把Ai与与Bj的搭配所形成的组格总体即随机的搭配所形成的组格总体即随机变量变量Y
41、ij的期望值记作的期望值记作 ,于是可以写出与表,于是可以写出与表6-5(样本)相应的总体期望值表如表(样本)相应的总体期望值表如表6-6。ijnij6-956-966-976-986-996-100二、有交互作用的双因子方差分析二、有交互作用的双因子方差分析 样本数据的方差分析恒等式。样本数据的方差分析恒等式。SST=SSA+SSB+SSAB+SSE(6.24)式中式中,SST是总离差平方和,是总离差平方和,SSA 是是A因子处理间的离差平方和,因子处理间的离差平方和,SSB 是是B因子处理间的离差平方和,因子处理间的离差平方和,SSAB 是是AB交互作用处理间的离差平方和,交互作用处理间的
42、离差平方和,SSE 是组格内离差平方和。是组格内离差平方和。6-1016-1026-1036-1046-1056-1066-1076-1086-1096-110第六节第六节 Excel在假设检验与方差分析中的应用在假设检验与方差分析中的应用n一、假设检验一、假设检验n二、方差分析二、方差分析6-111一、假设检验一、假设检验 【例【例6-11】使用例】使用例6-1的数据进行假设检验(显著性水的数据进行假设检验(显著性水平平0.05,双侧检验)。,双侧检验)。解:操作步骤如下。解:操作步骤如下。n1.构造工作表,见图构造工作表,见图6-2。图中方框内为计算所得数。图中方框内为计算所得数据,方框外
43、为原始输入数据。注意,如果给出了具据,方框外为原始输入数据。注意,如果给出了具体的样本中每袋咖啡的重量,则样本均值、标准差、体的样本中每袋咖啡的重量,则样本均值、标准差、样本容量分别可以用样本容量分别可以用AVERAGE函数、函数、STDEV函数函数和和COUNT函数进行计算。函数进行计算。n2.计算检验统计量计算检验统计量Z(由于样本容量较大,所以使用(由于样本容量较大,所以使用Z统计量)。在统计量)。在B6单元格输入公式单元格输入公式“=(B1-B2)/(B3/SQRT(B4)”。n3.计算临界值。在计算临界值。在B7中输入公式中输入公式“=ABS(NORMSINV(B5/2)”,由于是双
44、侧检验,由于是双侧检验,因此因此NORMSINV函数的参数必须是函数的参数必须是 。/26-112n4.计算计算p-值。在值。在B8中输入中输入公式公式“=NORMSDIST(B6)”。n5.根据以上的计算结果,根据以上的计算结果,使用临界值规则或使用临界值规则或p-值规值规则进行判断,检验统计量则进行判断,检验统计量的观测值落在拒绝域,因的观测值落在拒绝域,因而拒绝而拒绝=150克的原假设。克的原假设。图图6-26-113n【例【例6-12】利用】利用Excel求解例求解例6-6的问题。的问题。6-1146-115图图6-36-116图图6-46-1176-118二、方差分析二、方差分析n【
45、例【例6-13】用】用Excel实现例实现例6-8的计算过程。的计算过程。6-119n2.调出调出方差分析:单因素方差分析方差分析:单因素方差分析对话框,按图对话框,按图6-6所示填写。所示填写。图图6-66-1206-1216-122【例例6-15】用Excel实现例6-10的计算过程1.输入数据,如图6-7所示。其中,B2:B4单元格存放的是在“A1”与“B1”因素水平共同作用下,进行3次试验所得的结果;D5:D7单元格存放的是在“A3”与“B2”因素水平共同作用下,进行3次试验所得的结果,其余类推。图图6-76-123n2.调出调出方差分析:可重复双因素分析方差分析:可重复双因素分析对话
46、框,其填对话框,其填写如图写如图6-8所示。该分析工具对话框与单因素方差分所示。该分析工具对话框与单因素方差分析对话框基本相同,只是多了一个析对话框基本相同,只是多了一个每一样本的行数每一样本的行数编辑框,其中输入包含在每个样本中的行数。本例编辑框,其中输入包含在每个样本中的行数。本例中,在每种不同因素水平组合下,分别进行了中,在每种不同因素水平组合下,分别进行了3次试次试验,因此验,因此每一样本的行数每一样本的行数为为“3”。每个样本必须包。每个样本必须包含同样的行数。另外,在该分析工具对话框中去掉含同样的行数。另外,在该分析工具对话框中去掉了了标志位于第一行标志位于第一行复选框,但要注意输入区域必复选框,但要注意输入区域必须包括因素水平标志(须包括因素水平标志(“A1”、“B2”等)所在的单等)所在的单元格区域,也即,输入区域为元格区域,也即,输入区域为“$A$1:$E$10”,而,而不是只包括数据的单元格区域不是只包括数据的单元格区域“$B$2:$E$10”。6-1243.单击确定按钮,得到方差分析表。图图6-86-125 本章小结本章小结6-126