1、2022年10月13日星期四医学统计学抽样误差均医学统计学抽样误差均数估计数估计主要内容主要内容n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n 2 分布分布nF分布分布 n参数估计参数估计1.抽样误差抽样误差 Sampling error n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计了解抽样误差的重要性了解抽样误差的重要性总体同质、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险抽样误差抽样误差nsampling error,sampling variabilityn 由抽样引起的样本统计量与总体参数
2、间的由抽样引起的样本统计量与总体参数间的差别。差别。n 原因:个体变异抽样原因:个体变异抽样n 表现:表现:样本统计量与总体参数间的差别样本统计量与总体参数间的差别不同样本统计量间的差别不同样本统计量间的差别n 抽样误差是不可避免的!抽样误差是不可避免的!n 抽样误差是有规律的!抽样误差是有规律的!n假设一个已知总体,从该总体中抽样,对每假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量个样本计算样本统计量(均数、方差等均数、方差等),观察,观察样本统计量的分布规律样本统计量的分布规律抽样分布规律。抽样分布规律。q正态分布总体正态分布总体q偏三角分布总体偏三角分布总体q均匀分布总体均匀
3、分布总体q指数分布总体指数分布总体q双峰分布总体双峰分布总体均数的模拟试验均数的模拟试验均数的模拟试验均数的模拟试验n考察考察:q样本均数的均数样本均数的均数与与总体均数总体均数有何关系?有何关系?q样本均数的标准差样本均数的标准差与与总体标准差总体标准差有何关系?有何关系?q样本均数的分布样本均数的分布形状如何?形状如何?q不同的样本含量对上述性质的影响如何?不同的样本含量对上述性质的影响如何?q 昆明治疗羊角风昆明治疗羊角风http:/ 昆明军海癫痫病医院昆明军海癫痫病医院http:/ 昆明治疗羊角风昆明治疗羊角风http:/ 昆明癫痫病专科医院昆明癫痫病专科医院http:/ =5.19
4、S=0.42 =5.04 S=0.44红细胞计数 =5.03 S=0.52Fractionx2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.90.1.2.3图图 正态分布正态分布N(5.00,0.502)总体分布总体分布表表4、1 N(5.00,0.502)总总体体中中11个个随随机机样样本本的的数数据据(n=10)结论结论 1n各样本均数未必等于总体均数;各样本均数未必等于总体均数;n样本均数间存在差异;样本均数间存在差异;由抽样实验所得的由抽样实验所得的100个样本作出其均数个样本作出其均数 分分布
5、直方图如图布直方图如图4.1。曲线是对抽样得到的。曲线是对抽样得到的100个个 数据拟合的分布曲线。数据拟合的分布曲线。Fraction2.5 2.8 3.1 3.4 3.7 4 4.3 4.6 4.9 5.2 5.5 5.8 6.1 6.4 6.7 7 7.3 7.6 7.90.1.2.3.4.5.6.7.8.91图图 从正态分布从正态分布N(5.00,0.502)总体中抽样)总体中抽样样本均数的分布样本均数的分布 图图 从正态分布从正态分布N(5.00,0.502)总体中抽样)总体中抽样样本均数的分布样本均数的分布 Fraction4.14.44.755.35.65.90.1.2.3.4.
6、5结论结论2n 的分布很有规律,围绕着的分布很有规律,围绕着,中间多,两,中间多,两边少,左右基本对称边少,左右基本对称;n样本均数的变异范围较之原变量的变异范围样本均数的变异范围较之原变量的变异范围大大缩小;大大缩小;2.中心极限定理中心极限定理 central limit theorem n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计中心极限定理中心极限定理(central limit theorem)(一)(一)从均数为从均数为、标准差为标准差为 的正态总体中,的正态总体中,独立随机抽取例数为独立随机抽取例数为n n的样本,样本均数的样本,样本均数
7、 的分布服从正态分布;的分布服从正态分布;样本均数样本均数的均数为的均数为 ;样本均数样本均数的标准差为的标准差为 。中心极限定理中心极限定理 (二)(二)从非正态从非正态(nonnormal)分布总体分布总体(均数为均数为,方差为方差为)中随机抽样中随机抽样(每个样本的含量为每个样本的含量为n),可,可得无限多个样本,每个样本计算样本均数,则得无限多个样本,每个样本计算样本均数,则只要样本含量足够大只要样本含量足够大(n50),样本均数也近似服样本均数也近似服从正态分布。从正态分布。样本均数样本均数的均数为的均数为 ;样本均数样本均数的标准差为的标准差为 。3.标准误标准误 standard
8、 error n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计标准误标准误(standard error)n样本统计量的标准差称为标准误。样本统计量的标准差称为标准误。样本均数的标准样本均数的标准差差称为均数的标准误。称为均数的标准误。n均数的标准误表示均数的标准误表示样本均数的变异度样本均数的变异度。n当总体标准差未知时,用样本方差代替,当总体标准差未知时,用样本方差代替,n前者称为理论标准误,后者称为样本标准误。前者称为理论标准误,后者称为样本标准误。与样本含量的关系与样本含量的关系nn 越大,越大,均数的均数均数的均数就越接近总体均数;就越接近总体均
9、数;nn 越大,变异越小,分布越窄;越大,变异越小,分布越窄;n对称分布接近正态分布的速度,大于非对称对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含分布。分布越偏,接近正态分布所需样本含量就越大。量就越大。与标准差的关系与标准差的关系1、意义上、意义上n标准差描述个体值之间的变异,即观察值间的离散程度;标准差描述个体值之间的变异,即观察值间的离散程度;n而标准误是描述统计量的抽样误差,即样本统计量和总体而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;参数的接近程度;2、用途上、用途上n标准差常用于表现观察值的波动范围;标准差常用于表现观察值的波动
10、范围;n标准误常表示抽样误差的大小,估计总体参数可信区间。标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量、与样本含量n标准差是随着样本含量的增多,逐渐趋于稳定。标准差是随着样本含量的增多,逐渐趋于稳定。n标准误是随着样本含量的增多,逐渐减少。标准误是随着样本含量的增多,逐渐减少。区别区别与标准差的关系与标准差的关系n首先,标准差和标准误都是变异指标,说明个体首先,标准差和标准误都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用之间的变异用标准差,说明统计量之间的变异用标准误。标准误。n其次,当样本含量不变时,标准差大,标准误亦其次,当样本含量不变时,标准差大,标
11、准误亦越大,均数的标准误与标准差成正比。越大,均数的标准误与标准差成正比。联系联系4.t分布分布 t-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计正态分布的标准化变化正态分布的标准化变化n若若 X N(,),则则 。n因因 ,则则 。从正态分布总体中1000次抽样的 u 值的分布(n=4)Fractionu-4-3-2-1012340.05.1.15.2均数为 0.007559标准差为 1.006294 t 分布的概念分布的概念n实际工作中,总体方差未知。所以,用样本实际工作中,总体方差未知。所以,用样本方差代替总体方差,方差
12、代替总体方差,n此时此时 的分布如何?的分布如何?从正态分布总体中1000次抽样的 值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为 0.05696标准差为 1.55827 t 分布的概念分布的概念n用样本方差代替总体方差,此时用样本方差代替总体方差,此时不服从正态分布不服从正态分布。n1908年,年,W.S.Gosset(1876-1937)以笔名以笔名Student发表了著名的发表了著名的t分布,证明了:分布,证明了:n设从正态分布设从正态分布N(,2)中随机抽取含量为中随机抽取含量为n的样本,的样本,样本均数和标准差分别为样本均数
13、和标准差分别为 和和s,设:,设:则则t值服从自由度为值服从自由度为n-1的的t分布分布(t-distribution)。t 分布的概念分布的概念记为:记为:图图 自由度分别为自由度分别为1、5、时的时的t分布分布t分布图分布图形形 f(t)=(标准正态曲线标准正态曲线)=5=10.10.2-4-3-2-1012340.3t分布的特征分布的特征nt分布是一簇曲线,当分布是一簇曲线,当不同时,曲线形状不同;不同时,曲线形状不同;n单峰分布,以单峰分布,以0为中心,左右对称;为中心,左右对称;n当当逼近逼近时,时,t分布逼近分布逼近u分布分布,故标准正态分布故标准正态分布是是t分布的特例分布的特例
14、;nt分布曲线下面积是有规律的。分布曲线下面积是有规律的。请看演示请看演示t 分布分布t界值表界值表n表上阴影部分,表示表上阴影部分,表示t,以外的尾部面积占总面积百分数,即以外的尾部面积占总面积百分数,即概率概率P。n表中数据表示表中数据表示 与与 确定时相应的确定时相应的t界值(界值(critical value),常记为),常记为t,。-t0t抽样抽样总体总体样本样本t1t2t3t4tn-3tn-2tn-1tn统计量统计量分布分布t分布表明,从正态分布总体中随机抽取的样本,由分布表明,从正态分布总体中随机抽取的样本,由样本计算的样本计算的t值接近值接近0的可能性较大,远离的可能性较大,远
15、离0的可能性的可能性较小。较小。n例如,当例如,当=10,单尾概率,单尾概率=0.05时,查表时,查表得单尾得单尾t0.05,10=1.812,则:,则:nP(t-1.812)=0.05n或或P(t1.812)=0.05表明:表明:按按t分布的规律,从正态分布总体中抽取样本含分布的规律,从正态分布总体中抽取样本含量为量为n=11的样本,则由该样本计算的的样本,则由该样本计算的t值大于等于值大于等于1.812的的概率为概率为0.05,或者小于等于,或者小于等于-1.812的概率亦为的概率亦为0.05。-1.812 00.050.051.812例如,当例如,当=10,双尾概率,双尾概率=0.05时
16、,查表得时,查表得双尾双尾t0.05,102.228,则:,则:P(t-2.228)+P(t2.228)0.05或:或:P(-2.228t2.228)=1-0.05=0.95。表明:表明:按按t分布的规律,从正态分布总体中抽取样本含分布的规律,从正态分布总体中抽取样本含量为量为n=11的样本,则由该样本计算的的样本,则由该样本计算的t值大于等于值大于等于2.228的概率为的概率为0.025,小于等于,小于等于-2.228的概率亦为的概率亦为0.025。-2.228 00.0250.0252.228n单尾:单尾:P(t-t,)=,或,或P(tt,)=n双尾:双尾:P(t-t/2,)+P(tt/2
17、,)=,即即P(-t/2,t t/2,)=1-t0tt分布曲线下面积规律分布曲线下面积规律5.2分布分布 chi-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计 2 分布分布 n设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:n2值服从自由度为n-1的2分布(2-distribution)=4=3=520246810120.00.10.20.30.40.5f(2)=1=2=6 2 分布 请看演示请看演示 2 2 分布分布2分布的特征 n(1)2分布为一簇单峰正偏态分布曲线;随的逐渐加大,分布趋于
18、对称。n(2)自由度为的2分布,其均数为,方差为2。n(3)自由度为的2分布实际上是个标准正态分布变量之平方和。2=u12+u22+uv2 3.840.050.0250.0251.96-1.962分布与正态分布的关系n(4)每一自由度下的2分布曲线都有其自身分布规律。自由度为自由度为1的的 2分布界值分布界值0.00.10.20.30.40.53.840.05n2分布是方差的抽样分布。n2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。n即2值接近其均数n-1的可能性大,远离n-1的可能性小。2分布的特征 n自由度10时,20.025
19、,1020.48,20.975,103.25。n从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。nP(23.25)+P(220.48)0.05 2分布的特征 n2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差 6.F分布分布 F-distribution n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计F分布分布 n设从两个方差相等的正态分布设从两个方差相等的正态分布N(1,2)和和N(2,2)总体中随机抽取含量分别为总体中随机抽取含量分别为n1和和n2的的样本,样
20、本均数和标准差分别为样本,样本均数和标准差分别为 、s1和和 和和s2。设:设:n则则F值服从自由度为值服从自由度为(n1-1,n2-1)的的F分布分布(F-distribution)。F分布的特征 n(1)F分布为一簇单峰正偏态分布曲线,与两个自由分布为一簇单峰正偏态分布曲线,与两个自由度有关。度有关。n(2)若若F服从自由度为服从自由度为(1,2)的的F分布,则其倒数分布,则其倒数1/F服服从自由度为从自由度为(2,1)的的F分布。分布。n(3)自由度为自由度为(1,2)的的F分布,其均数为分布,其均数为 2/(2-2),与,与第一自由度无关。第一自由度无关。n(4)第一自由度第一自由度
21、11时,时,F分布实际上是分布实际上是t分布之平方;分布之平方;第二自由度第二自由度 2时,时,F分布实际上等于分布实际上等于 2分布。分布。请看演示请看演示F分布分布n(5)每一对自由度下的每一对自由度下的F分布曲线下的面积分分布曲线下的面积分布规律。布规律。PFF分布的特征分布的特征 nF分布表明,从两个方差相等的正态分布总体分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为中随机抽取含量分别为n1和和n2的样本,计算所的样本,计算所得得F值,应接近值,应接近v2/(v2-2)。nF(0.05;20,20)=2.12表示,从方差相等的正态分布表示,从方差相等的正态分布总体中随机抽取
22、总体中随机抽取n1=n2=21的样本,则由两样的样本,则由两样本计算的本计算的F值大于等于值大于等于2.12的可能性为的可能性为0.025,而小于而小于1/2.12=0.4717的可能性亦为的可能性亦为0.025。F分布的特征 F分布的特征 样本统计量的抽样分布样本统计量的抽样分布任何一个样本统计量均有其分布规律。任何一个样本统计量均有其分布规律。从正态分布总体中抽样:从正态分布总体中抽样:n均数的抽样分布为正态分布;均数的抽样分布为正态分布;n样本方差的分布服从样本方差的分布服从 2分布;分布;n样本方差之比服从样本方差之比服从F分布;分布;nt 值服从值服从 t 分布;分布;n7.参数估计
23、参数估计 Parameter estimation n抽样误差抽样误差n中心极限定理中心极限定理n标准误标准误n分布分布n参数估计参数估计1)统计推断的思路统计推断的思路总体总体个体、个体变异个体、个体变异总体参数总体参数未知未知样本样本代表性、抽样误差代表性、抽样误差随机随机抽样抽样样本统计量样本统计量已知已知统计统计 推断推断风风 险险2)统计推断统计推断(statistical inference)n总体参数的估计总体参数的估计(parameter estimation)n假设检验假设检验(hypothesis test)3)参数的估计参数的估计n点估计点估计(point estimat
24、ion)n区间估计区间估计(interval estimation)按一定的概率或可信度按一定的概率或可信度(1-)用一个区间估计总体参用一个区间估计总体参数所在范围。这个范围称作可信度为数所在范围。这个范围称作可信度为1-的可信区间的可信区间(confidence interval,CI),又称置信区间。,又称置信区间。【例【例4.1】随机抽取】随机抽取12名口腔癌患者,检测其发名口腔癌患者,检测其发锌含量,得锌含量,得 =253.05 g/g =27.18 g/g 求发锌含量总体均数求发锌含量总体均数95的可信区间。的可信区间。4)例题:例题:发锌含量t 值的分布值的分布n理论基础:理论基
25、础:t值的抽样分布值的抽样分布-2.201 0 2.201v110.0250.025区间估计:区间估计:可信区间可信区间(confidence interval):n区间区间193.23321.87(g/g)包含了总体均数,包含了总体均数,其可信度其可信度(confidence level)为为95%。n结论:口腔癌患者发锌含量总体均数为结论:口腔癌患者发锌含量总体均数为193.23321.87(g/g)(可信度为可信度为95%)。n或:口腔癌患者发锌含量总体均数的或:口腔癌患者发锌含量总体均数的95可可信区间为:信区间为:193.23321.87(g/g)。5)均数的均数的(1-)100%可
26、信区间可信区间构建方构建方法法-t,v 0 t,v 1-/2/25)均数的均数的(1-)100%可信区间可信区间构建方构建方法法5)均数的均数的(1-)100%可信区间可信区间构建方构建方法法n均数的均数的(1-)100%的可信区间:的可信区间:n可信限可信限(confidence limit):样本含量较大时,样本含量较大时,u 值的分布值的分布:0-u u /2/21-样本含量较大时,均数样本含量较大时,均数(1-)100%的可信区间:的可信区间:此时,均数的此时,均数的(1-(1-)100%)100%的可信区间:的可信区间:6)均数之差的均数之差的(1-)100%可信区可信区间间例例4.
27、3 转铁蛋白含量(转铁蛋白含量(page41)n正常人:正常人:n1=12,n病人:病人:n2=15,问题:两组平均相差多少?问题:两组平均相差多少?问题:正常组 病人组 2?均 数:235.21ug/dl标准差:14.39ug/dl 1?均 数:271.89ug/dl标准差:10.28ug/dl 1-2?与均数之差有关的抽样分布与均数之差有关的抽样分布 “均数之差均数之差”与与“均数之差的标准误均数之差的标准误”之比,之比,服从自由度服从自由度 =n1+n2-2的的 t 分布。分布。样本含量较大时,服从标准正态分布。样本含量较大时,服从标准正态分布。合并方差与均数之差的标准误合并方差与均数之
28、差的标准误n合并方差合并方差(方差的加权平均方差的加权平均)n均数之差的标准误均数之差的标准误根据可得1-2的可信区间:计算:则合并方差为:自由度为自由度为=n1+n2-2=12+15-2=25、0.05的的t界值为:界值为:t0.05,25=2.060,则两组均数之差的,则两组均数之差的95可信区间为:可信区间为:(271.89235.21)2.060 4.95=26.48 46.88结论结论:n病毒性肝炎患者的血清转铁蛋白含量较正常病毒性肝炎患者的血清转铁蛋白含量较正常人平均低人平均低36.68(g/dl),其,其95可信区间为可信区间为26.4846.88(g/dl)。可信区间可信区间n
29、均数均数n率率n事件数事件数n方差方差7)可信区间的两个要素可信区间的两个要素n可信度可信度(1-),可靠性可靠性q一般取一般取90%,95%。q可人为控制。可人为控制。n精确性精确性q是指区间的大小是指区间的大小(或长短或长短)n兼顾可靠性、精确性兼顾可靠性、精确性影响可信区间大小的因素影响可信区间大小的因素n可信度q可信度越大,区间越宽可信度越大,区间越宽n个体变异q变异越大,区间越宽变异越大,区间越宽n样本含量q样本含量越大,区间越窄样本含量越大,区间越窄8)正确理解可信区间:正确理解可信区间:n可信度为可信度为95%的的CI的涵义:的涵义:q每每100个样本,按同样方法计算个样本,按同
30、样方法计算95%的的CI,平均有平均有95%的的CI包含了总体参数。包含了总体参数。n这里的这里的95%,指的是方法本身!而不是某个,指的是方法本身!而不是某个区间!区间!n在可信区间被估计之前,概率是存在的;在可信区间被估计之前,概率是存在的;在可信区间被估计之后,就没有概率了。在可信区间被估计之后,就没有概率了。-2 -1 0 1 2 按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。置信区间演示置信区间演示 为了对置信区间概念有更好的理解,为了对置信区间概念有更好的理解,并对样本容量、置信水平对置信区间的并对样本容量、置信水平对置信区间的影响建立直观印象,请看演
31、示:影响建立直观印象,请看演示:下列说法正确吗?下列说法正确吗?算得某算得某95%的可信区间,则:的可信区间,则:总体参数有总体参数有95%的可能落在该区间。的可能落在该区间。有有95%的总体参数在该区间内。的总体参数在该区间内。该区间包含该区间包含95%的总体参数。的总体参数。该区间有该区间有95%的可能包含总体参数。的可能包含总体参数。该区间包含总体参数,可信度为该区间包含总体参数,可信度为95%。n例如,临床上观察120例使用某生物制剂的患者,其皮疹发生率2/120=1.67%,则该生物制剂的皮疹发生率的95可信上限为:即该生物制剂的皮疹发生率最大为5.2%。9)单侧可信区间单侧可信区间10)注意区别:注意区别:标准差标准差标准误标准误个体变异个体变异 抽样误差抽样误差参考值范围参考值范围 可信区间可信区间变量分布变量分布 抽样分布抽样分布11)可信区间与容许区间的区别可信区间与容许区间的区别(1)可信区间可信区间 用于估计用于估计总体参数总体参数,总体,总体参数只有一个;参数只有一个;容许区间容许区间 用于估计用于估计变量值的分布范变量值的分布范围围,变量值可能很多甚至无限,变量值可能很多甚至无限,95容许区间容许区间的涵义是指有的涵义是指有95的变量值在该范围内。的变量值在该范围内。