1、统计推断(statistical inference)假设检验假设检验参数估计参数估计第一节第一节第二节第二节第三节第三节第四节第四节第五节第五节假设检验的原理与方法假设检验的原理与方法样本平均数的假设检验样本平均数的假设检验样本频率的假设检验样本频率的假设检验参数的区间估计与点估计参数的区间估计与点估计方差的同质性检验方差的同质性检验一 概念 : 假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的
2、那种假设的推断。第一节 假设检验 概率很小的事件在一次抽样试验中实际是几乎不可能发生的。 =0.05/0.01 如果假设一些条件,并在假设的条件下能够准确地算如果假设一些条件,并在假设的条件下能够准确地算出事件出现的概率出事件出现的概率 为很小,则在假设条件下的为很小,则在假设条件下的n次独次独立重复试验中,事件立重复试验中,事件A将按预定的概率发生,而在一次试将按预定的概率发生,而在一次试验中则几乎不可能发生。验中则几乎不可能发生。平均数的检验平均数的检验频率的检验频率的检验方差的检验方差的检验秩和检验秩和检验符号检验符号检验游程检验游程检验秩相关检验秩相关检验大家好大家好8统计假设测验的基
3、本思想统计假设测验的基本思想 设某地区的当地小麦品种一般667m2产300kg,即当地品种这个总体的平均数为0=300(kg),并从多年种植结果获得其方差2=(75)2kg。若从这一总体中随机抽取n个个体构成样本,则样本观察值可表示为: yi= 0 +i (i=1,2,n)现有某新品种通过25个小区的试验,计算其样本平均产量为每667m2为330kg。新品种的样本观察值可表示为: xi= +i (i=1,2,n)式中为新品种的总体平均数。新品种与地方品种的差异(品种效应)用表示,则 0 大家好大家好9代入上式得:xi= 0 + + i (i=1,2,n)对xi求平均数,并将式子稍作变形得:xi
4、 0 = +0 x为表型效应, 在本例中,303003300 xi为处理效应,为误差效应。大家好大家好10由于处理效应 0 无法计算,统计推断只能从第(2)种可能性出发,即假设处理效应不存在,试验表型效应全为试验误差。(1)处理效应与误差效应处理效应与误差效应;(2)全为试验误差全为试验误差。xi 0 = +从式可知表型效应的构成有二种可能性 然后再计算该假设出现的概率,最后依概率的大小判断假设是否成立,从而推断处理效应是否存在(反证法)。这就是统计假设测验的基本思想。二二 、假设检验的步骤、假设检验的步骤 治疗前治疗前 0 126 2 240 N ( 126,240 )治疗后治疗后 n 6
5、x 136 未知未知 那么那么 0 ? 即克矽平对治疗矽肺是否有效?即克矽平对治疗矽肺是否有效?例例:设矽肺病患者的血红蛋白含量具平均数:设矽肺病患者的血红蛋白含量具平均数 0 0126(mg/L)126(mg/L), 2 2 240240 (mg/L)(mg/L)2 2的正态分布。现用克矽平对的正态分布。现用克矽平对6 6位矽肺病患者进行位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)x =136(mg/L)。1 1 、提出假设、提出假设例例:克矽平治疗矽肺病是否能提高血红蛋白含量?:克矽平治疗矽肺病是否能提高血红蛋白含量?
6、平均数的假设检验平均数的假设检验检验治疗后的总体平均数检验治疗后的总体平均数 是否还是治疗前的是否还是治疗前的126(mg/L)126(mg/L)?x-x- 0 0136-126136-12610(mg/L)10(mg/L)这一差数这一差数是由于治疗造成的,还是抽样误差所致。是由于治疗造成的,还是抽样误差所致。本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。二者来自同一总体,接受零假设则表示克矽平没有疗效。而相对立的备择假设表示拒绝而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数
7、,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。和治疗前的平均数来自不同总体,即克矽平有疗效。H0:=0 =126(mg/L)HA:0 0 2 2 、 确定显著水平确定显著水平0.05显著水平*极显著水平*能否定能否定H0的的人为人为规定的规定的概率概率标准称为显著水平,记作标准称为显著水平,记作 。 统计学中,一般认为概率小于统计学中,一般认为概率小于0.05或或0.01的事件为的事件为小概率事件小概率事件,所以在小概率原理基础上建立的假设检验所以在小概率原理基础上建立的假设检验也常取也常取 =0.05和和 =0.01两个显著水平两个显著水平 。P1.964、作出推断结
8、论:是否接受假设PP0.05所以接受H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。 0.950.0250.025u 1.96u 2.58P( u ) 0.05P( u ) 0.01差异达显著水平差异达显著水平差异达极显著水平差异达极显著水平P( -1.96 x x +1.96 x) =0.950.025临界值:临界值: + u x0.95 0 -1.96 x +1.96 x0.025否定区否定区接受区u + 1.96 x三三 、双尾检验与单尾检验、双尾检验与单尾检验 0P( -2.58 x x0在已知不可能大于0时,则备择假设为HA:00.950
9、.950.050.051.64-1.64H0 : 0 HA : 0假设:否定区H0 : 0 HA : 1.96否定否定H0,接受,接受HA;认为新育苗方法一月龄体长与常规方法有显著差异。认为新育苗方法一月龄体长与常规方法有显著差异。P 30时,可用样本方差s2来代替 总体方差2 ,仍用u检验法总体总体(0)样本样本(n30)x s22xsxu例:例:生产某种纺织品,要求棉花纤维长度平均为生产某种纺织品,要求棉花纤维长度平均为30mm以上,以上,现有一棉花品种,以现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为进行抽查,测得其纤维平均长度为30.2mm,标准差为,标准差为2.5mm,问
10、该棉花品种的纤维长度是否符合纺织品的生产要求?问该棉花品种的纤维长度是否符合纺织品的生产要求?()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知, n=400 30,可用,可用s2代替代替2进行进行u检验;检验;()棉花纤维只有()棉花纤维只有30mm才符合纺织品的生产要求,因才符合纺织品的生产要求,因 此进行单尾检验。此进行单尾检验。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0: 0=30(cm),即该棉花品种纤维长度达不到纺织品生产的要求。即该棉花品种纤维长度达不到纺织品生产的要求。 HA:0选取显著水平选取显著水平0.05
11、125. 04005 . 2nssx6 .1125.00 .302 .30 xsxuu 0.053、总体方差2未知,且n30时,可用样本方差s2来代替 总体方差2 ,采用df=n-1的t检验法总体总体(0)样本样本(n30)x s22tsxx例:例:某鱼塘水中的含氧量,多年平均为某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设,该鱼塘设10个点采集水样,测定含氧量为:个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。试检验该次抽样测定的水中含
12、氧量与多年平均值有无显著差别。()这是一个样本平均数的假设检验,因总体()这是一个样本平均数的假设检验,因总体2未知未知, n=10 或或0.05421. 4nxx二、两个样本平均数二、两个样本平均数 的假设检验的假设检验适用范围适用范围:检验两个样本平均数检验两个样本平均数x 和和x 所所属的总体平均数属的总体平均数样本样本1X1样本样本2X2总体总体11 总体总体221、提出假设、提出假设无效假设无效假设H0: 1=2 ,两个平均数的差,两个平均数的差值值 是随是随机误差所引起的;机误差所引起的;21xx 备择假设备择假设HA: 1=2 ,两个平均数的差值,两个平均数的差值 除随除随机误差
13、外,机误差外, 还包含其真实的差异,即由效应差异引还包含其真实的差异,即由效应差异引起的;起的;21xx 2、确定显著水平:、确定显著水平:0.05或或0.013、检验统计量、检验统计量(1)样本平均数差数的平均数样本平均数差数的平均数 = 总体平均数的差数总体平均数的差数.212121xxxx两个样本平均数的差数两个样本平均数的差数21xx (2)样本平均数差数的方差样本平均数差数的方差 = 两样本平均数方差之和两样本平均数方差之和.2222212122121xxxxnn22212121nnxx样本平均数差数的标准误样本平均数差数的标准误222121221nnxx)11(212221nnxx
14、nxx2221221nxx2222112=22= n1=n2=n 12=22= n1=n2=n ) 1 , 0(N当当1 12 2 和和2 22 2已知已知21)()(2121xxxxu2121xxxxuH0:1=2=时时 ) 1 , 0(N当当1 12 2 和和2 22 2未知,两样本都为大样本时未知,两样本都为大样本时21)()(2121xxsxxu2121xxsxxuH0: 1=2=时时 22212121nsnssxx)2(21nnt当当1 12 2 和和2 22 2未知,两样本都为小样本时未知,两样本都为小样本时21)()(2121xxsxxt2121xxsxxtH0: 1=2=时时
15、22212121nsnssxx4、作出推断,并解释之、作出推断,并解释之uu tt 或或uu tt 或或 如果两个样本的各个变量是从各自总体中随机如果两个样本的各个变量是从各自总体中随机抽取的,两个样本之间的变量没有任何关联,即两抽取的,两个样本之间的变量没有任何关联,即两个抽样样本彼此独立,则不论两样本的容量是否相个抽样样本彼此独立,则不论两样本的容量是否相同,所得数据皆为同,所得数据皆为成组数据成组数据。两组数据以组平均数。两组数据以组平均数作为相互比较的标准,来检验其差异的显著性。作为相互比较的标准,来检验其差异的显著性。 根据两样本所属的总体方差是否已知和样本大根据两样本所属的总体方差
16、是否已知和样本大小不同而采用不同的检验方法。小不同而采用不同的检验方法。1、两个总体方差12 和22已知,或12 和22未知,但两个样本都是大样本,即n130且n230时,用u检验法。例例:某杂交黑麦从播种到开花的天数的标准差为:某杂交黑麦从播种到开花的天数的标准差为6.9dA法:调查法:调查400株,平均天数为株,平均天数为69.5dB法:调查法:调查200株,平均天数为株,平均天数为70.3d()这是两个样本(成组数据)平均数比较的假设检()这是两个样本(成组数据)平均数比较的假设检验,验,1 12 2=2 22 2=(6.9d)=(6.9d)2 2, ,样本为大样本,用样本为大样本,用u
17、 u检验。检验。()因事先不知()因事先不知A、B两方法得到的天数孰高孰低,用两方法得到的天数孰高孰低,用双尾检验。双尾检验。试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0:1 2,即认为两种方法所得天数相同。,即认为两种方法所得天数相同。HA: 1 2选取显著水平选取显著水平0.05 在在0.05显著水平上,接受显著水平上,接受H0,否定,否定HA;认为两种方法所得黑麦从播种到开花天数没有显著认为两种方法所得黑麦从播种到开花天数没有显著差别。差别。598.01
18、12121nnxx338.1598.03.705.692121 xxxxuu 0.05例例:为了比较:为了比较“42-67XRRIM603”和和“42-67XPB86”两个两个橡胶品种的割胶产量,两品种分别随机抽样橡胶品种的割胶产量,两品种分别随机抽样55株和株和107株进株进行割胶,平均产量分别为行割胶,平均产量分别为95.4ml/株和株和77.6ml株,割胶产量株,割胶产量的方差分别为的方差分别为936.36(ml/株)株)2和和800.89(ml/株)株) 2()这是两个样本(成组数据)平均数比较的假设检()这是两个样本(成组数据)平均数比较的假设检验,验,1 12 2和和2 22 2未
19、知未知, , n130且且n230 ,用,用u u检验。检验。()因事先不知两品种产量孰高孰低,用双尾检验。()因事先不知两品种产量孰高孰低,用双尾检验。试检验两个橡胶品种在割胶产量上是否有显著差别。试检验两个橡胶品种在割胶产量上是否有显著差别。()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0:1 2,即认为两品种割胶产量没有显著差别。,即认为两品种割胶产量没有显著差别。HA: 1 2选取显著水平选取显著水平0.01 在在0.01显著水平上,否定显著水平上,否定H0,接受,接受HA;两个橡胶品种的割胶产量存在极显著的差别,两个橡胶品种的割胶产量存在极显著的差别,“42-67
20、XRRIM603” 割胶产量极显著高于割胶产量极显著高于“42-67XPB86”。951.422212121nsnssxx595.3951.46.774.95)(2121 xxsxxuu 2.58,P 0.012、两个总体方差12 和22未知,且两个样本都是小样本,即n130且n20.05916. 12121xxsxxtdf=(ndf=(n1 1-1)+(n-1)+(n2 2-1)=17-1)=172) 2) 1 12 22 22 2,n n1 1 n n2 2,采用近似地,采用近似地t t检验,即检验,即 Aspin-Welch Aspin-Welch检验法。检验法。22212121nsns
21、sxx1)1 (112212nRnRdf222121121222211nsnsnssssRxxx2121xxdfsxxt(3 3)1 12 22 22 2,n n1 1=n=n2 2=n=n ) 1() 1() 1() 1(212221212nnnsnsseSe22 221221nsnsseexx21)()(2121xxsxxtdf=n-1df=n-1平均数差数的标准误平均数差数的标准误nssexx2221当当n1=n2=n时时22212121nsnssxx成对(配对)比较法:将独立获得的若干份实验材成对(配对)比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同料各分
22、成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。效应,这种安排称为配对实验设计。 成对数据,由于同一配对内两个供试单位的试验成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。具有较高的精确度。21xxd21212
23、1)(xxnxnxnxxdnd样本差数的平均数等于样本平均数的差数样本差数的平均数等于样本平均数的差数1)(22221)(nndddndds) 1()() 1()(2222nnnddnnddnssddddsdtdsdt 样本差数的方差样本差数的方差样本差数平均数样本差数平均数的标准误的标准误t 值值EAEA试检验两组饲料对试验动物肝中试检验两组饲料对试验动物肝中VA含量的作用有无显著差异。含量的作用有无显著差异。()假设()假设(2)水平)水平(3)检验)检验H0:d0 HA: d 00.01 5 .812ndd857.2983921)(222nnddds13.1932nssdd207.4ds
24、dt(4)推断)推断在在0.01显著水平上,否定显著水平上,否定H0,接受,接受HA;两组饲料对动物肝中两组饲料对动物肝中VA含量作用有极显著差异,正含量作用有极显著差异,正常饲料组的动物肝中的常饲料组的动物肝中的VA含量极显著高于含量极显著高于VE缺乏组。缺乏组。t 0.01(7) = 3.499 t t 0.01(7) 7181 ndf8n 6500d 73700002d发芽发芽不发芽不发芽存活存活死亡死亡结实结实不结实不结实红花红花白花白花合格合格不合格不合格当当 np 或或 nq5由二项式由二项式 (p+q)n 展开式直接检验展开式直接检验xnxxnqpCxP)(概率函数概率函数 Cn
25、xpxqn-x P(x) P(0) C50p0q5 0.00001 P(1) C51p1q4 0.00045 P(2) C52p2q3 0.0081 P(3) C53p3q2 0.0729 P(4) C54p4q1 0.32805 P(5) C55p5q0 0.59049孵化小鸡的概率表孵化小鸡的概率表(p= 0.90 q=0.10)P(0)或P(1)或P(2) 0.05,差异不显著。当当 np 和和 nq 30正态分布正态分布当当 5np 或或 nq 30,不需连续性矫正,则,不需连续性矫正,则u值为:值为:npqnppnnpqppppup/在在二项分布二项分布中,事件中,事件A发生的频率发
26、生的频率 x/n称为二项称为二项成数,即百分数或成数,即百分数或频率频率。则。则频率的平均数频率的平均数和和标准标准误误分别为:(见分别为:(见P33)pppcnnppnnppnppu5.05.05.0)(2、当、当 5np 或或 nq30时,趋近正态,需要进行连续性矫时,趋近正态,需要进行连续性矫正,正,n30,u检验,检验,uc值为:值为:如果如果np时取时取“”; 30 ,无需连续矫正,用,无需连续矫正,用u检验;检验;()假设()假设(2)水平)水平(3)检验)检验(4)推断)推断H0:p=0.85即用种衣剂浸种后的发芽率仍为即用种衣剂浸种后的发芽率仍为0.85; HA:p0.85选取
27、显著水平选取显著水平0.05 89. 0500445nxpu 1.96,P 30,不需连续性矫正,用,不需连续性矫正,用u检验:检验:212121)()(ppsppppu在在H0: p1 = p2下,下,2121ppsppu212121215 . 05 . 0)()(ppcsnnppppu2、当、当 5 np 或或 nq 30 ,用用u检验:检验:在在H0: p1 = p2下,下,2121215 . 05 . 0ppcsnnppu212121215 . 05 . 0)()(ppcsnnppppt2、当、当 5 np 或或 nq 30,需进行连续性矫正,需进行连续性矫正, 如果如果n 30 ,无
28、需连续矫正,用,无需连续矫正,用u检验;检验;()假设()假设(2)水平)水平(3)检验)检验H0: p1=p2即两块麦田锈病发病率没有显著差异。即两块麦田锈病发病率没有显著差异。 HA: p1 p2选取显著水平选取显著水平0.01 905. 0378342111nxp790. 0396313222nxp846.03963783133422121nnxxp154.01pq026. 0)11(2121nnqpspp在在0.01显著水平上,否定显著水平上,否定H0,接受,接受HA;认为两块麦田锈病发病率有极显著差异,即地认为两块麦田锈病发病率有极显著差异,即地势对小麦锈病的发生有极显著影响作用,低
29、洼势对小麦锈病的发生有极显著影响作用,低洼地小麦锈病的发病率极显著高于高坡地。地小麦锈病的发病率极显著高于高坡地。(4)推断)推断u2.58,P0.01423. 42121 ppsppu第四节:参数的区间估计与点估计第四节:参数的区间估计与点估计一、参数区间估计与点估计的原理一、参数区间估计与点估计的原理三、两个总体平均数差数的区间估计与点估计三、两个总体平均数差数的区间估计与点估计二、总体平均数的区间估计与点估计二、总体平均数的区间估计与点估计四、总体频率、两个总体频率差数的区间估计与点估计四、总体频率、两个总体频率差数的区间估计与点估计参数的区间估计与点估计是建立在一定理论基础参数的区间估
30、计与点估计是建立在一定理论基础上的一种方法。上的一种方法。由中心极限定理和大数定律,只要抽样为大样本,由中心极限定理和大数定律,只要抽样为大样本,不论其总体是否为正态分布,其样本平均数都近似不论其总体是否为正态分布,其样本平均数都近似服从正态分布服从正态分布N(N(,2 2/n)/n)。 00.950.95(接受区)(接受区)0.0250.025临界值临界值接受区接受区 0-1.96 x 0+1.96 xxu95. 0)96. 196. 1(xxxP05. 0)96. 1()96. 1(xxxPxP99. 0)58. 258. 2(xxxP01. 0)58. 2()58. 2(xxxPxP95
31、. 0)96. 196. 1(xxxP99. 0)58. 258. 2(xxxP95. 0)96. 196. 1(xxxP95. 0)96. 196. 1(xxxxP95. 0)96. 196. 1(xxxxP95. 0)96. 196. 1(xxxxP99. 0)58. 258. 2(xxxxP95. 0)96. 196. 1(xxxxP1)(xxuxuxP99. 0)58. 258. 2(xxxxPu:正态分布下置信度:正态分布下置信度P=1- 时的时的u临界值临界值1- :置信水平:置信水平1)(xxuxuxP知道知道 x ,但不知道,但不知道1- 置信区间、置信距置信区间、置信距),(
32、xxuxux),(21xxuxLuxL用样本平均数用样本平均数 x 对总体平均数对总体平均数的置信度为的置信度为P=1-的区间估计。的区间估计。xuxL用样本平均数用样本平均数 x 对总体平均数对总体平均数的置信度为的置信度为P=1-的点估计。的点估计。参数的区间估计也可用于假设检验。参数的区间估计也可用于假设检验。对参数所进行的假设如果落在该区间之外,就说明对参数所进行的假设如果落在该区间之外,就说明这个假设与真实情况有本质的不同,因而就否定零这个假设与真实情况有本质的不同,因而就否定零假设,接受备择假设。假设,接受备择假设。置信区间是在一定置信度置信区间是在一定置信度P=1-P=1-下总体
33、参数的所在下总体参数的所在范围,故对参数所进行的假设如果落在该区间内,范围,故对参数所进行的假设如果落在该区间内,就说明这个假设与真实情况没有不同,因而就可以就说明这个假设与真实情况没有不同,因而就可以接受零假设。接受零假设。无论区间估计还是点估计,都与概率显著水无论区间估计还是点估计,都与概率显著水平平的大小联系在一起。的大小联系在一起。越小,则相应的置信区间就越大,也就是越小,则相应的置信区间就越大,也就是说用样本平均数对总体平均数估计的可靠程说用样本平均数对总体平均数估计的可靠程度越高,但这时估计的精度就降低了。度越高,但这时估计的精度就降低了。在实际应用中,应合理选取概率显著水平在实际
34、应用中,应合理选取概率显著水平的大小,不能认为的大小,不能认为取值越小越好。取值越小越好。二、总体平均数二、总体平均数的区间估计和点的区间估计和点估计估计 当为大样本时,不论总体方差当为大样本时,不论总体方差2为已为已知或未知,可以利用样本平均数知或未知,可以利用样本平均数 x 和总体和总体方差方差2作出置信度为作出置信度为P1-的总体平均数的总体平均数的区间估计为:的区间估计为:),(21xxuxLuxLxuxL1xuxL2其置信区间的下限其置信区间的下限L1和上限和上限L2为为总体平均数的点估计总体平均数的点估计L为为xuxL 当样本为小样本且总体方差当样本为小样本且总体方差2未知时,未知
35、时, 2需由样本方差需由样本方差s2来估计,于是置信度为来估计,于是置信度为P1-的总体平均数的总体平均数的置信区间可估计的置信区间可估计为为),(xxstxstx其置信区间的下限其置信区间的下限L1和上限和上限L2为:为:),(21xxstxLstxL总体平均数的点估计总体平均数的点估计L为:为: xstxLt为正态分布下置信度为正态分布下置信度P1 时的时的t临界值临界值 例例4.14测得某批测得某批25个小麦样本的平均蛋白质含个小麦样本的平均蛋白质含量量14.5,已知,已知2.50,试进行,试进行95置置信度下的蛋白质含量的区间估计和点估计。信度下的蛋白质含量的区间估计和点估计。 分析:
36、本例分析:本例为已知为已知, ,置信度置信度P P1- 1- =0.95=0.95,u u0.050.05=1.96=1.96。(%)52.1350. 096. 15 .141xuxL(%)48.1550. 096. 15 .142xuxL98. 05 .1450. 096. 15 .14xuxL蛋白质含量的点估计为:蛋白质含量的点估计为:说明小麦蛋白质含量有说明小麦蛋白质含量有95的把握落的把握落在在13.5215.48的区间里。的区间里。三、两个总体平均数差数三、两个总体平均数差数 1 1-2 2的区间估计与点估计的区间估计与点估计当两个总体方差当两个总体方差1 12 2和和2 22 2为
37、已知,或总体方差为已知,或总体方差12和和22未知但为大样本时,在置信度为未知但为大样本时,在置信度为P1- 下,下,两个总体平均数差数两个总体平均数差数1 1- -2 2的区间估计为:的区间估计为:2121)( ,2121xxxxuxxuxx2121xxuxxL两个总体平均数差数两个总体平均数差数 1 1-2 2的点估计为的点估计为其置信区间的下限其置信区间的下限1和上限和上限L2为:为:2121)(,212211xxxxuxxLuxxL当两个样本为小样本,总体方差当两个样本为小样本,总体方差12和和22未知,当两总体方差相等,即未知,当两总体方差相等,即12 22 2时,可由两样本方差时,
38、可由两样本方差s12和和s22估计总估计总体方差体方差12和和22,在置信度为在置信度为P1- 下,下,两总体平均数差数两总体平均数差数 1 1-2 2的区间估计为:的区间估计为:2121)( ,2121xxxxstxxstxx两个总体平均数差数两个总体平均数差数 1 1-2 2的点估计为:的点估计为:2121xxstxxL其置信区间的下限其置信区间的下限1和上限和上限L2为:为:2121)(,212211xxxxstxxLstxxL当两个样本为小样本,总体方差当两个样本为小样本,总体方差12和和22未未知,且两总体方差不相等,即知,且两总体方差不相等,即12 22时,可时,可由两样本方差由两
39、样本方差s12和和s22对总体方差对总体方差12和和22的估的估计而算出的计而算出的t值,已不是自由度值,已不是自由度dfn1+n2-2的的t分布,而是近似的服从自由度分布,而是近似的服从自由度df 的的t分布,在分布,在置信度为置信度为P1-下,两总体平均数差数下,两总体平均数差数 1 1-2 2的的区间估计为:区间估计为:2121)(21)(21)( ,xxdfxxdfstxxstxx其置信区间的下限其置信区间的下限1和上限和上限L2为:为:2121)(212)(211)(,xxdfxxdfstxxLstxxL两个总体平均数差数两个总体平均数差数1-2的点估计为:的点估计为:21,21xx
40、dfstxxL上面三式中,上面三式中,t,df 为置信度为为置信度为P=1- 时自由度为时自由度为df 的的t临界值。临界值。 当两样本为成对资料时,在置信度为当两样本为成对资料时,在置信度为P1- 时,两总体平均数差数时,两总体平均数差数1-2的置信区间的置信区间可估计为:可估计为:其置信区间的下限其置信区间的下限1和上限和上限L2为:为:两个总体平均数差数两个总体平均数差数1-2的点估计为:的点估计为:四、总体频率四、总体频率p、两总体频率差、两总体频率差数数p1-p2的区间估计和点估计的区间估计和点估计在置信度在置信度1- 下,对一下,对一个总体频率个总体频率P的区间估计为:的区间估计为
41、:ppupup,总体频率总体频率p的点估计的点估计L为:为:pupL其置信区间的下限其置信区间的下限1和上限和上限L2为:为:ppupLupL21,当样本容量较小或者当样本容量较小或者np、nq小于小于30时,时,对总体频率对总体频率p进行的区间估计和点估计,需进行的区间估计和点估计,需要做连续性校正,其校正公式为:要做连续性校正,其校正公式为:nupLnupLpp5 . 0,5 . 021总体频率总体频率p的点估计为:的点估计为:nupLp5 . 0在进行两个总体频率在进行两个总体频率p1-p2的区间的区间估计和点估计时,一般应明确两个频估计和点估计时,一般应明确两个频率有显著差异才有意义。
42、率有显著差异才有意义。在置信度为在置信度为P1-下,两总体下,两总体频率差数频率差数p1-p2的区间估计为的区间估计为) ( ,)(21212121ppppuppupp其置信区间的下限其置信区间的下限1和上限和上限L2为:为:) (,) (2121211211ppppuppLuppL两总体频率差数两总体频率差数p1-p2的点估计的点估计L为:为:2121) (ppuppL第五节方差的同质性检验所谓方差的同质性,就是指各个总体的所谓方差的同质性,就是指各个总体的方差是相同的。方差是相同的。方差的同质性检验就是要从各样本的方方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同差来推断其总体
43、方差是否相同 两个样本方差的同质性检验两个样本方差的同质性检验假设两个样本容量分别为假设两个样本容量分别为n1和和n2,方差分别,方差分别为为s12和和s22,总体方差分别为,总体方差分别为12和和22,当检,当检验验12和和22是否同质时,可用检验法。是否同质时,可用检验法。当两样本总体均服从正态分布,且两样本当两样本总体均服从正态分布,且两样本的抽样是随机的和独立的,其值等于两的抽样是随机的和独立的,其值等于两样本方差样本方差s12和和s22之比。之比。且否从且否从df1n1-1,df2n2-1的的F分布。当分布。当FF时,否定时,否定0: 1222,即,即认为两样本的方差是不同质的。认为两样本的方差是不同质的。Bye Bye
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。