1、第四章第四章 抽样误差与假设检验抽样误差与假设检验 医学统计学医学统计学 参数估计与假设检验参数估计与假设检验样本样本抽取部分观察单位抽取部分观察单位 统计推断统计推断统计推断统计推断 Statistical InferenceStatistical Inference如:样本均数如:样本均数 样本标准差样本标准差S 样本率样本率 P如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率X内容:内容:1. 参数估计参数估计(estimation of parameters) 包括:点估计与包括:点估计与区间估计区间估计2. 假设检验假设检验(test of hypothesis) 第一节
2、第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、均数的抽样误差一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数会存在一定的误差,如样本均数 往往不等于总体均往往不等于总体均数数 ,这种由抽样造成的样本均数与总体均数的差异称,这种由抽样造成的样本均数与总体均数的差异称为抽样误差为抽样误差。对于抽样研究,抽样误差不可避免。对于抽样研究,抽样误差不可避免。X 二、抽样误差的分布二、抽样误差的分布 理论上可以证明:若从
3、正态总体理论上可以证明:若从正态总体 中,反复中,反复多次随机抽取样本含量固定为多次随机抽取样本含量固定为n 的样本,那么这些样的样本,那么这些样本均数本均数 也服从正态分布,即也服从正态分布,即 的总体均数仍为的总体均数仍为 ,样本均数的标准差为样本均数的标准差为 。2N( ,) XX/n抽样分布抽样分布 抽样分布示意图抽样分布示意图抽样试验抽样试验 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.502 2)中,每次随机)中,每次随机抽取样本含量抽取样本含量n n5 5,并计算其均数与标准差;重复,并计算其均数与标准差;重复抽取抽取10001000次,获得次,获得100
4、01000份样本;计算份样本;计算10001000份样本的份样本的均数与标准差,并对均数与标准差,并对10001000份样本的均数作直方图。份样本的均数作直方图。 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含量、样本含量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。抽样试验(抽样试验(n=5n=5)抽样试验(抽样试验(n=10n=10)抽样试验(抽样试验(n=30n=30)10001000份样本抽样计算结果份样本抽样计算结果总体的总体的均数均数总体标总体标准差准差 均数的均数的均数均数均数标准差均数标准差n n=5=55.005.000.500.504
5、.994.990.22120.22120.22360.2236n n=10=105.005.000.500.505.005.000.15800.15800.15810.1581n n=30=305.005.000.500.505.005.000.09200.09200.09130.0913nnS3 3个抽样实验结果图示个抽样实验结果图示0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544
6、.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数2212. 0; 5XSn0920. 0;30XSn1580. 0;10XSn抽样实验小结抽样实验小结 均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。 均数的标准差均数的标准差即即标准误标准误 与总体标准差与总体标准差 相差一个常数的倍数,即相差一个常数的倍数,即 样本样本均数的标准误(均数的标准误(Standard Error)Standar
7、d Error)= =样本标准差样本标准差/ / 从正态总体从正态总体N N( ( , , 2 2) )中抽取样本,获得均数中抽取样本,获得均数的分布仍近似呈的分布仍近似呈正态分布正态分布N( , 2/n) 。nS样本含量nX/X 中心极限定理中心极限定理: : 当样本含量很大的情况下,无论原始测量变量服从什当样本含量很大的情况下,无论原始测量变量服从什么分布,么分布, 的抽样分布的抽样分布均均近似正态。近似正态。 X抽样分布抽样分布 抽样分布示意图抽样分布示意图 三、标准误(三、标准误(Standard ErrorStandard Error) 样本均数的标准差称为标准误。样本均数的标准差称
8、为标准误。样本均数的变样本均数的变异越小说明估计越精确,异越小说明估计越精确,因此可以用标准误表示抽因此可以用标准误表示抽样误差的大小:样误差的大小: 实际中总体标准差实际中总体标准差 往往未知,故只能求得样往往未知,故只能求得样本均数标准误的估计值本均数标准误的估计值 : nXXSnSSX 例例1 在某地随机抽查成年男子在某地随机抽查成年男子140人,计算得红细胞人,计算得红细胞均数均数4.771012/L,标准差标准差0.38 1012/L ,试计算均数,试计算均数的标准误。的标准误。 标准误是抽样分布的重要特征之一,可用于衡量标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重
9、要的是可以用于参数的区间估抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。计和对不同组之间的参数进行比较。120.380.032( 10 /L)140XSSn第二节第二节 总体均数的估计总体均数的估计 pSX、 一一. 点点估估计与计与区间估计区间估计参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:有一定有一定可信度可信度(Confidence level),),同时考虑抽样误差同时考虑抽样误差、可信度与可信区间可信度与可信区间1 区间的区间的可信度可信度(如(如9595或或9999)是重复抽样)是
10、重复抽样(如(如10001000次)时,样本(如次)时,样本(如n n=5=5)区间包含总)区间包含总体参数体参数( ( ) )的百分数。常用的百分数。常用100(1-100(1-)%)%或或(1-(1-) )表示,表示, 值一般取值一般取0.050.05或或0.010.01。区间估计:区间估计:指按预先给定的概率,计算出一个区指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的间,使它能够包含未知的总体均数。事先给定的概率概率 称为可信度,通常取称为可信度,通常取95.01可信度实验可信度实验 二、可信区间的计算二、可信区间的计算 (一)(一) 已知已知nXu/95.
11、096. 1/96. 1nXP95. 096. 196. 1nXnXP)96.1 ,96.1(XXXX),(2/2/XXuXuX一般情况一般情况其中其中 为标准正态分布的双侧界值。为标准正态分布的双侧界值。 2/u 可信区间:可信区间:v 5v 1v ( )f t标准正态分布(二)(二) 未知未知 通常未知,这时可以用其估计量通常未知,这时可以用其估计量S 代替,但代替,但 已不再服从标准正态分布,而是服已不再服从标准正态分布,而是服从从t 分布。分布。)/()(nSX同自由度的同自由度的 t 分布图分布图 可信区间的计算可信区间的计算: : 计算可信区间的原理与前完全相同,仅仅是两侧计算可信
12、区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即概率的界值有些差别。即1)/()(2/)(2/tnSXtP). .()(2/)(2/XXStXStX,可信区间:可信区间: 需要注意:在小样本情况下,应用这一公式的条件是需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如原始变量服从正态分布。在大样本情况下(如n100),100),也可以用也可以用 替换替换 近似计算。近似计算。2/u2/t 例例2 2 某医生测得某医生测得2525名动脉粥样硬化患者血浆纤维蛋名动脉粥样硬化患者血浆纤维蛋白原含量的均数为白原含量的均数为3.32 3.32 g/Lg/L,标
13、准差为标准差为0.57 0.57 g/Lg/L,试计试计算该种病人血浆纤维蛋白原含量总体均数的算该种病人血浆纤维蛋白原含量总体均数的95%95%可信区可信区间。间。下限:下限:上限:上限:(g/L) 09. 325/57. 0064. 232. 3.)(2/XStX(g/L) 56. 325/57. 0064. 232. 3.)(2/XStX 例例3 3 试计算例试计算例1 1中该地成年男子红细胞总体均数的中该地成年男子红细胞总体均数的95%95%可信区间。可信区间。 本例属于大样本,可采用正态近似的方法计算可信本例属于大样本,可采用正态近似的方法计算可信区间。因为区间。因为 ,则,则95%9
14、5%可信区间为可信区间为:14038.077.4n,)L/10(71. 4140/38. 096. 177. 4.122/XSuX)L/10(83. 4140/38. 096. 177. 4.122/XSuX下限:下限:上限:上限: 三、模拟实验三、模拟实验 模拟抽样成年男子红细胞数。设定模拟抽样成年男子红细胞数。设定: : 产生产生100100个随机样本,分别计算其个随机样本,分别计算其95%95%的可信区间,结果的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数包含总体参数 ,只有,只有6 6个可信区间没有包含总体个
15、可信区间没有包含总体参数(用星号标记)。参数(用星号标记)。14039.075.4n,754.模拟抽样成年男子红细胞数模拟抽样成年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 )14039.075.4(n,*可信区间的解释可信区间的解释 9595可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100100次抽样,次抽样,每个样本可算得一个可信区间,得每个样本可算得一个可信区间,得100100个可信区间,平均有个可信区间,平均有9595个可信区间包括个可信区间包括( (估计正确估计正确) ),只有,只有5 5个可信区间不包个可信区间不包括括( (估计错
16、误估计错误) )。 9595可信区间可信区间 9999可信区间可信区间 公式公式 区间范围区间范围 窄窄 宽宽 估计错误的概率估计错误的概率 大(大(0.050.05) 小(小(0.010.01)XXStXStX ,2/01. 0,2/01. 0, XXStXStX,2/05.0,2/05.0, 区区别别点点 总总体体均均数数可可信信区区间间 参参考考值值范范围围 含含 义义 按按预预先先给给定定的的概概率率,确确定定的的未未知知参参数数 的的可可能能范范围围。实实际际上上一一次次抽抽样样算算得得的的可可信信区区间间要要么么包包含含了了总总体体均均数数,要要么么不不包包含含。 但但可可以以说说
17、:当当 =0.05 时时,95%CI估估计计正正确确的的概概率率为为0.95,估估计计错错误误的的概概率率小小于于或或等等于于 0.05,即即有有 95%的的可可能能性性包包含含了了总总体体均均数数。 “正正常常人人”的的解解剖剖,生生理理,生生化化某某项项指指标标的的波波动动范范围围。 总总体体均均数数的的波波动动范范围围 个个体体值值的的波波动动范范围围 计计算算 公公式式 未未知知: ,XXtS * 已已知知或或 未未知知但但n60: XXu或或XXu S* 正正态态分分布布:Xu S * 偏偏态态分分布布:PXP100 X 用用途途 总总体体均均数数的的区区间间估估计计 绝绝大大多多数
18、数(如如 95%)观观察察对对象象某某项项指指标标的的分分布布范范围围 * ,t 也也可可用用/2,t(对对应应于于双双尾尾概概率率时时) *,u 也也可可用用/2,u(对对应应于于双双尾尾概概率率时时) 一、率的标准误一、率的标准误 由于抽样引起的样本率之间及样本率与总体率之由于抽样引起的样本率之间及样本率与总体率之间的误差,称为率的抽样误差。这个误差的大小间的误差,称为率的抽样误差。这个误差的大小我们用率的标准误来描述,用我们用率的标准误来描述,用p p表示。表示。 率的标准误越小,则率的抽样误差就越小率的标准误越小,则率的抽样误差就越小。第三节第三节 总体率的估计总体率的估计 np)1
19、(率的标准误率的标准误 由于在实际中,总体率由于在实际中,总体率往往未知,我们常用样往往未知,我们常用样本率本率 P P 来近似代替总体率来近似代替总体率,则上述公式变为:,则上述公式变为: 式中式中S Sp p 称为样本率的标准误,称为样本率的标准误,P P 为样本率,为样本率,n n为样为样本例数。本例数。 ()1pPPSn-=实例计算实例计算 为了解某药的疗效,对为了解某药的疗效,对100100名患者治疗的结名患者治疗的结果进行调查,结果为果进行调查,结果为8080人有效,有效率为人有效,有效率为80%80%。则样本率的抽样误差为:。则样本率的抽样误差为: %404. 0100)80.
20、01(80. 0)1(nPPpS二、总二、总体率的估计体率的估计 点估计点估计 区间估计区间估计 1 1、大样本:正态近似法、大样本:正态近似法 2 2、小样本:查表法、小样本:查表法 Pp=(,)ppPu SPu Saa-+例例 在观测一种药物对某种非传染性疾病的治疗效果时,在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者用该药治疗了此种非传染性疾病患者100100人,发现人,发现5555人人有效,试据此估计该药物治疗有效率的有效,试据此估计该药物治疗有效率的95%95%可信区间。可信区间。(1)0 .5 5 (10 .5 5 )0 .0 4 9 71 0 0p
21、ppSn 小小 结结 1.1.总体参数值在现实中通常不能获得总体参数值在现实中通常不能获得, ,而是通过随机样本来进行估计。而是通过随机样本来进行估计。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这由于个体存在差异,因此通过样本推论总体时会存在一定的误差,这种由抽样造成的样本均数与总体均数的差异称为抽样误差种由抽样造成的样本均数与总体均数的差异称为抽样误差。抽样误差抽样误差的大小可以用标准误进行衡量。的大小可以用标准误进行衡量。 2. 2.参数估计有点估计和区间估计两种方式。点估计参数估计有点估计和区间估计两种方式。点估计的重要表达方式是的重要表达方式是平均值;平均值;区间估计是指按预先给定的概率,计算出一个区间,使它能区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。区间够包含未知的总体均数。区间越窄说明估计的准确度越高。越窄说明估计的准确度越高。