1、 总体均数的估计与假设检验总体均数的估计与假设检验 统计推断统计推断参数参数估计估计假设假设检验检验授课教师:授课教师:马海燕马海燕 一、一、均数的抽样误差与标准误均数的抽样误差与标准误(standard error)1、均数的抽样误差、均数的抽样误差 n1=20,x1 n2=20,x2 n3=20,x3 .x1 x2 x3 x100 .n100=20,x100 (均数的抽样误差)(均数的抽样误差)均数的抽样误差与标准误差均数的抽样误差与标准误差样本均数间的变异程度样本均数间的变异程度 2、标准误的概念、标准误的概念 即样本均数的标准差即样本均数的标准差,是说明是说明均数抽样误差大小的指标均数
2、抽样误差大小的指标。标准误愈小标准误愈小,表示抽样误差愈表示抽样误差愈小小,样本统计量对总体参数的估样本统计量对总体参数的估计愈可靠,用计愈可靠,用 x,或,或s x 表示表示。2、标准误的计算、标准误的计算 x=n s sx=(估计值估计值)n 3、标准误的应用、标准误的应用 表示样本均数的散布情形表示样本均数的散布情形,表示抽样误表示抽样误差的大小,差的大小,用以说明样本均数的可靠性用以说明样本均数的可靠性;XSX总体均数的估计总体均数的估计 一、一、t分布分布 1、t分布的概念分布的概念 对正态变量对正态变量 X采用采用u=(X-)/x变换变换,将将N(,x2)变换为标准正态分布变换为标
3、准正态分布,即即U分分布布,而实际中而实际中 x往往用往往用sx来估计来估计,这时对正这时对正态变量态变量 X采用的不是采用的不是U变换而是变换而是t变换变换,即即 t=(X-)/sx 其结果也不是其结果也不是U分布而是分布而是t分布。分布。X-N(,)X-N(,X)固定固定n抽样抽样 x-U=x-U=xU-N(O,1)0标准正态分布示意图标准正态分布示意图x=1-4 -3 -2 -1 0 1 2 3 4=1=5=(u分布)t分布示意图分布示意图t=(X-)/sx 2、t分布的特征分布的特征 与标准正态分布相比有以下特征与标准正态分布相比有以下特征:a.二者都是单峰分布二者都是单峰分布,以以0
4、为中心为中心,左右对称左右对称;b.t分布的峰部较矮而尾部翘得较高分布的峰部较矮而尾部翘得较高,说明远说明远侧的侧的t值的个数相对较多值的个数相对较多,即尾部面积即尾部面积(概率概率P)较较大。大。自由度自由度 越小这种情况越明显越小这种情况越明显,逐渐增大时逐渐增大时,t分布逐渐逼近标准正态分布分布逐渐逼近标准正态分布;当当=时时,t分布就完全成为标准正态分布了分布就完全成为标准正态分布了,=n-1。3、t界值界值 t界值表界值表,横标目为自由度横标目为自由度,纵标目为纵标目为概率概率P,表中数字表示自由度为表中数字表示自由度为,P为为(检检验水准验水准)时时,t的界值的界值,常记为常记为t
5、,。理论上。理论上 单侧单侧:P(t -t,)=,或或P(t t,)=双侧双侧:P(t -t,)+P(t t,)=;P(-t,t t,)=1-t t分布曲线下面积(附表分布曲线下面积(附表2 2)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.8212.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t
6、 t0.0250.025,单侧单侧t t0.050.05,1.641.64095%95%1.96-1.96t0.O5,n-1-t0.O5,n-12.5%2.5%t分布与分布与u分布的面积示意图分布的面积示意图 二、估计总体均数的估计二、估计总体均数的估计(一)可信区间的概念一)可信区间的概念 总体均数的估计总体均数的估计包括点值估计和区间估计包括点值估计和区间估计 点值估计:点值估计:X 区间估计区间估计(interval estimation):可能包含总体均可能包含总体均数在内的一个范围数在内的一个范围,其包含总体均数可能性的大其包含总体均数可能性的大小小,以百分数表示以百分数表示,习惯上
7、使用习惯上使用95%与与99%可信区可信区间(间(confidence interval,CI)。a.区间估计的涵义区间估计的涵义:有有1-可能包含可能包含总体均数在内的一个范围总体均数在内的一个范围,习惯上使用习惯上使用95%与与99%可信区间(可信区间(confidence interval,CI)。1-:可信度(:可信度(confidence level)95%CI意思是从总体中作随机抽样意思是从总体中作随机抽样,每个样本可以算得一个可信区间每个样本可以算得一个可信区间,如如95%可信区间可信区间,意味着做意味着做100个可信区个可信区间间,平均有平均有95个可信区间包括总体均个可信区间
8、包括总体均数数(估计正确估计正确),只有只有5个可信区间不包个可信区间不包括总体均数括总体均数(估计错误估计错误)。可信区间的两个要素:准确度精密度反映在可信度的大小反映在区间的长度(二)区间估计的方法(二)区间估计的方法:X t,sx X+t,sx;95%CI(X-t0.05,sx,X+t0.05,sx)已知,已知,X-U,x X+U,x;未知,但未知,但n足够大足够大 X-U,sx 0.05 (来自同一总体)(来自同一总体)?假设检验回答假设检验回答 环境条件影响环境条件影响 P0.05 (来自不同总体)(来自不同总体)两均数或两率不两均数或两率不等等 原理:反证法思想原理:反证法思想 假
9、设:假设:=0,由于抽样误差造成的可能,由于抽样误差造成的可能性有多大?性有多大?若若=0 成立,可计算相应成立,可计算相应t或或u值,若值,若X与与 0 相差较远,相差较远,t或或u值就大,值就大,P值小,值小,当当P ,按所取按所取检验水准,不拒绝检验水准,不拒绝H0。t检验检验马海燕马海燕 t检验条件检验条件:样本含量小时样本含量小时(1)正态分布资料)正态分布资料(2)方差齐)方差齐(两样本比较两样本比较)(一)单样本(一)单样本t检验检验(one sample/group t-test)根据大量调查,已知健康成年男子脉搏均数为根据大量调查,已知健康成年男子脉搏均数为72次次/分分,某
10、医生在山区随机抽查某医生在山区随机抽查25名健康成年名健康成年男子男子,求得其脉搏均数为求得其脉搏均数为74.2次次/分分,标准差为标准差为6.0次次/分分,能否据此认为山区成年男子的脉搏数与能否据此认为山区成年男子的脉搏数与一般成年男子脉搏数有所不同一般成年男子脉搏数有所不同?72次次/分分 74.2次次/分分,需考虑两种可能需考虑两种可能 1、由于抽样误差所致、由于抽样误差所致 2、两者来自不同总体、两者来自不同总体 1、建立假设并确定检验水准、建立假设并确定检验水准 H0:=0,即假设山区与一般成年男子脉搏数相等;,即假设山区与一般成年男子脉搏数相等;H1:0,即假设山区与一般成年男子脉
11、搏数不等。,即假设山区与一般成年男子脉搏数不等。=0.05 2、计算统计量、计算统计量 x-0 x-0 74.2-72 t=1.833 s x s/n 6.0/25 =25-1=24,t0.05,24=2.064 t0.05 按按=0.05水准,不拒绝水准,不拒绝H0,还不能认为还不能认为假设山区与一般成年假设山区与一般成年男子脉搏数不等。男子脉搏数不等。(二)配对(二)配对t检验检验(paired/matched t-test for dependent samples)配对资料的配对资料的t检验检验:即差值均数与总体均数即差值均数与总体均数0比比较的较的t检验。检验。配对资料配对资料:1、
12、对同对的两个受试对象分别给予两种处理、对同对的两个受试对象分别给予两种处理;2、对同一受试对象分别给予两种处理、对同一受试对象分别给予两种处理;3、同一受试对象处理前后的比较。、同一受试对象处理前后的比较。H0:d=0,t=d/sd,=对数对数-1 配对资料的配对资料的t检验检验 例例.以大鼠以大鼠16只只,配成配成8对对(每对大白鼠同性别、每对大白鼠同性别、同窝别、体重相近者同窝别、体重相近者),分别喂以含水解蛋白与分别喂以含水解蛋白与酪蛋白的饲料酪蛋白的饲料,四周后测定其体重增加情况四周后测定其体重增加情况,问问两种饲料对大白鼠体重之增加有无不同影响两种饲料对大白鼠体重之增加有无不同影响?
13、大白鼠在四周内所增体重大白鼠在四周内所增体重(g)对别对别 酪蛋白组酪蛋白组水解蛋白组水解蛋白组差值差值d 1 82 15 67 2 66 28 38 3 74 29 45 4 78 28 50 5 82 24 58 6 76 38 38 7 73 21 52 8 90 37 53合计合计 401 H0:d=0 H1:d0 =50.13/3.48=14.4 t0.05,7=2.365,t0.001,7=5.408 P S2 本例本例F=42.3072/0.9047=46.76 本例本例F=46.76F.05(30,5),P0.05,故在故在=0.05水准处拒水准处拒绝绝H0,接受,接受H1。两
14、方差的差别显著。两方差的差别显著。1、总体方差相等、总体方差相等 例如,某克山病区测得例如,某克山病区测得11名急性克山病名急性克山病患者与患者与13名健康人的血磷值(名健康人的血磷值(mmol/L),试问该地急性克山病患者与健康人的血试问该地急性克山病患者与健康人的血磷值是否不同?磷值是否不同?11名急性克山病人与名急性克山病人与13名健康人血磷值名健康人血磷值(mmol/L)急性克山病患者急性克山病患者 克山病区健康人克山病区健康人 编号编号 x1 x12 编号编号 x2 x22 1 0.84 0.7056 1 0.54 0.2916 2 1.05 1.1025 2 0.64 0.4069
15、 3 1.20 1.4400 3 0.64 0.4096 4 1.20 1.4400 4 0.75 0.5625 5 1.39 1.9321 5 0.76 0.5776 6 1.53 2.3409 6 0.81 0.6561 7 1.67 2.7889 7 1.16 1.3456 8 1.80 3.2400 8 1.20 1.4400 9 1.87 3.4969 9 1.34 1.7956 10 2.07 4.2849 10 1.35 1.8225 11 2.11 4.4521 11 1.48 2.1904 12 1.56 2.4336 13 1.87 3.4969合计合计 16.73 27.
16、2239 14.10 17.4316 H0:1=2,克山病患者与健康人血磷值总体均数相同克山病患者与健康人血磷值总体均数相同 H1:1=2,克山病患者与健康人血磷值总体均数不同克山病患者与健康人血磷值总体均数不同 =0.05 =n1+n2-2 2121xxsxxt2121222211112)1()1(21nnnnsnsnsxx x1=1.521(mmol/L)x2=1.085(mmol/L)s(x1-x2)=0.1729 1.521-1.085 t=2.522 0.1729 =(11+13)-2=22,t0.02,22=2.508,t0.01,22=2.819 t0.02,22 t t0.01
17、,22,0.01p 2,该地该地17岁男青年坐高高于女青年坐高岁男青年坐高高于女青年坐高 =0.05(单侧)(单侧)n1=44,s1=3.52;n2=76,s2=2.33 (44-1)(3.52)2+(76-1)(2.33)2 sc2=7.97 (44-1)+(76-1)sx1-x2=7.97(1/44+1/76)=0.535 t=(83.1-80.2)/0.535=5.42,=44+76-2=118 Pt0.01,18 P100),),(X1-X2)(X1-X2)u=sx12+sx22 (s12/n1)+(s22/n2)单样本单样本u检验检验 某医院对某医院对4050岁年龄组的男、女不同性别
18、的健康人群岁年龄组的男、女不同性别的健康人群测定了测定了 脂蛋白,结果见表,试问不同性别健康人群的脂蛋白,结果见表,试问不同性别健康人群的 脂蛋白有无差别?脂蛋白有无差别?不同性别的健康人群不同性别的健康人群 脂蛋白脂蛋白 性别性别 人群人群 均值均值 标准差标准差 男男 193 3.97 1.04 女女 128 3.58 0.90 n1100 n2100 可用可用U检验检验 H0:1=2,不同性别健康人群不同性别健康人群 脂蛋白无差别脂蛋白无差别 H1:1 2,不同性别健康人群不同性别健康人群 脂蛋白有差别脂蛋白有差别 =0.05 (X1-X2)(X1-X2)u=3.57 sx12+sx22
19、 (s12/n1)+(s22/n2)u 0.05=1.96,u 0.01=2.58 u=3.572.58,P2.58,P0.01,按按=0.05水准水准,拒绝拒绝H0,可认,可认为为5-6月山区男童身高与该地男童身高均数不同月山区男童身高与该地男童身高均数不同。型错误与型错误与型错误型错误 拒绝了实际上成立的拒绝了实际上成立的H0,即样本原本来自,即样本原本来自=0的总体,由于抽样的偶然性得到了较大的的总体,由于抽样的偶然性得到了较大的t值,因值,因tt0.05(v)按按=0.05检验水准拒绝了检验水准拒绝了H0,而接受了,而接受了H1(0),这类错误为第一类错误(或),这类错误为第一类错误(
20、或I型错误,型错误,type I error),理论上犯第一类错误的概率为),理论上犯第一类错误的概率为不拒绝实际上不成立的不拒绝实际上不成立的H0,即样本原本来自,即样本原本来自0的总体,的总体,H0:=0实际上是不成立的,但实际上是不成立的,但由于抽样的偶然性,得到了较小的由于抽样的偶然性,得到了较小的t值,因值,因tt0.05(v),按按=0.05检验水准不拒绝检验水准不拒绝H0,这类错误,这类错误称为第二类错误(或称为第二类错误(或型错误,型错误,type error),犯第二类错误的概率为),犯第二类错误的概率为,值的大小很难值的大小很难确切地估计,但知道在样本含量不变的前提下确切地
21、估计,但知道在样本含量不变的前提下,越小,越小,越大;反之,越大;反之,越大,越大,越小。同时越小。同时减少减少和和的唯一方法是增加样本含量。的唯一方法是增加样本含量。减少(增加)减少(增加)I型错误型错误,将会增,将会增加(减少)加(减少)II型错误型错误增大增大n 同时降低同时降低 与与 与与 间的关系间的关系 假设检验的注意事项假设检验的注意事项 1、要有严密的抽样研究设计、要有严密的抽样研究设计;(1)样本的代表性)样本的代表性随机抽样随机抽样(2)样本的可比性)样本的可比性影响研究结果的其他因素应尽影响研究结果的其他因素应尽可能相同。可能相同。2、选用的假设检验方法应符合其应用条件、
22、选用的假设检验方法应符合其应用条件;(1)t检验;(检验;(2)u检验检验 例如例如,若总例数相同,若总例数相同,则配对资料的则配对资料的t检验与成组资料检验与成组资料的的t检验相比检验相比 A.成组成组t检验的效率高些检验的效率高些 B.配对配对t检验的效率高些检验的效率高些 C.两者效率相等两者效率相等 D.两者效率相差不大两者效率相差不大 E.两者效率两者效率不可比不可比 3、正确理解差别有无显著性的涵义正确理解差别有无显著性的涵义;当当P 0.05时时,习惯上也称习惯上也称“差别有显著性差别有显著性”,但不,但不应误解为应误解为“有显著性差别有显著性差别”。前者是统计术语,表示。前者是
23、统计术语,表示“差别是有统计学意义的差别是有统计学意义的”,后者是一般性用语,表,后者是一般性用语,表示示“差别是很大的差别是很大的”。例如例如,两样本均数比较作,两样本均数比较作t检验检验,差别有显著性时差别有显著性时,P值值越小越小,说明说明 A.两样本均数差别越大两样本均数差别越大 B.两总体均数差别越大两总体均数差别越大 C.越有理由认为两总体均数不同越有理由认为两总体均数不同 D.越有理由认为两越有理由认为两样本均数不同样本均数不同 E.第一类错误越大第一类错误越大 4、单侧和双侧检验、单侧和双侧检验 5、结论不能绝对化,假设检验是根据概率下结论。、结论不能绝对化,假设检验是根据概率
24、下结论。可信区间与假设检验的区别和联系可信区间与假设检验的区别和联系 1、可信区间可回答假设检验的问题、可信区间可回答假设检验的问题 2、可信区间比假设检验可提供更多信息、可信区间比假设检验可提供更多信息定量资料的统计分析定量资料的统计分析整理资料整理资料频数表频数表统计描述统计描述统计推断统计推断集中趋势集中趋势离散趋势离散趋势平均数平均数变异指标变异指标估计分布类型估计分布类型参数估计参数估计假设检验假设检验统计分析统计分析点点值值估估计计区区间间估估计计t检验检验u检验检验正态分布正态分布方差齐方差齐大样本大样本正态分布正态分布偏态分布偏态分布变量变换变量变换(x-lgx)非正态非正态其他检验其他检验 思考题:1、假设检验的意义是什么?2、t检验中的注意事项有哪些?3、请你查阅有关文献,理解统计分析的基本内容有哪些?