第6章参数估计基础(NXPowerLite)课件.ppt

上传人(卖家):晟晟文业 文档编号:5067451 上传时间:2023-02-07 格式:PPT 页数:43 大小:236.50KB
下载 相关 举报
第6章参数估计基础(NXPowerLite)课件.ppt_第1页
第1页 / 共43页
第6章参数估计基础(NXPowerLite)课件.ppt_第2页
第2页 / 共43页
第6章参数估计基础(NXPowerLite)课件.ppt_第3页
第3页 / 共43页
第6章参数估计基础(NXPowerLite)课件.ppt_第4页
第4页 / 共43页
第6章参数估计基础(NXPowerLite)课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、2023-2-71中山大学医学统计与流行病学系中山大学医学统计与流行病学系张晋昕张晋昕2008.09.23 第一节第一节 抽样分布与抽样误差抽样分布与抽样误差 抽样研究的目的就是要抽样研究的目的就是要 统计推断包括两方面的内容:统计推断包括两方面的内容:参数估计参数估计和和假设检验假设检验抽样误差抽样误差:样本统计量与总体参数之差;抽样误差也:样本统计量与总体参数之差;抽样误差也表现为样本统计量之间的不同。表现为样本统计量之间的不同。1.系统误差系统误差:由于受试对象、研究者、仪器设备、研:由于受试对象、研究者、仪器设备、研究方法、非实验因素影响等究方法、非实验因素影响等造成,有一定造成,有一

2、定倾向性或规律性的误差。可以避免。倾向性或规律性的误差。可以避免。2.随机误差随机误差:由于多种无法控制的:由于多种无法控制的引起,对引起,对同一样品多次测量数据的不一致。无倾向性,不可避同一样品多次测量数据的不一致。无倾向性,不可避免。免。3.抽样误差抽样误差:产生的根本原因是:产生的根本原因是、产生的直、产生的直接原因是接原因是 一、样本均数的抽样分布与抽样误差一、样本均数的抽样分布与抽样误差 均数的抽样误差:均数的抽样误差:由由个体变异个体变异产生的、由于产生的、由于抽样抽样而造成的样而造成的样本均数与样本均数及样本均数与总体均数之间本均数与样本均数及样本均数与总体均数之间的差异称为均数

3、的抽样误差。的差异称为均数的抽样误差。抽样实验:抽样实验:(a)v样本均数的分布特点:样本均数的分布特点:1.1.各样本均数未必等于总体均数;各样本均数未必等于总体均数;2.2.样本均数之间存在差异;样本均数之间存在差异;3.3.样本均数的分布很有规律,围绕着总样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也体均数,中间多,两边少,左右基本对称,也服从正态分布。服从正态分布。2023-2-77标准误的概念标准误的概念 用于表示均数抽样误差的指标叫样本用于表示均数抽样误差的指标叫样本均数的标准差,根据其实际意义,常称作均数的标准差,根据其实际意义,常称作样本均数的标准误(

4、样本均数的标准误(standard error)。2023-2-78实验实验5-2 图图5-1(a)是一个正偏峰的分布,用电)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为脑从中随机抽取样本含量分别为5,10,30和和50的样本各的样本各1000次,计算样本均数并绘制次,计算样本均数并绘制4个个直方图。直方图。PERCENT030 x MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.9

5、4.04.14.24.34.44.54.64.74.84.95.0(a)原始数据原始数据2023-2-79n=5PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0 n=10PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.

6、41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0 n=30PERCENT030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0 n=50PERCENT

7、030mm MIDPOINT0.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.62.72.82.93.03.13.23.33.43.53.63.73.83.94.04.14.24.34.44.54.64.74.84.95.0 (b)n=5(c)n=10 (d)n=30 (e)n=50其他总体其他总体 1)从正态总体)从正态总体N(,2)中,随机抽取例数为中,随机抽取例数为n的多个的多个样本,样本均数样本,样本均数 服从正态分布;即使是从偏态总体服从正态分布;即使是从偏态总体中随机抽样,

8、当中随机抽样,当n足够大时足够大时(如如n30),也近似正态也近似正态分布。分布。数理统计推理和中心极限定理表明:数理统计推理和中心极限定理表明:2)从均数为)从均数为,标准差为,标准差为的正态或偏态总体中抽取的正态或偏态总体中抽取例数为例数为n的样本,样本均数的标准差即标准误为的样本,样本均数的标准差即标准误为 。XnX/XX 身高组段身高组段 频数频数 组中值组中值 fiXi fiXi2 152.6 1 152.9 153.2 4 153.5 153.8 4 154.1 154.4 22 154.7 155.0 25 155.3 155.6 21 155.9 156.2 17 156.5

9、156.8 3 157.1 157.4 2 157.7 158.0 1 158.3 合计合计 100 表表5-2(b)100个样本均数的频数表与标准误的计算表个样本均数的频数表与标准误的计算表22/1iiiiiXif Xf Xfsf 标准误的大小与标准误的大小与的大小成正比,与的大小成正比,与n的平方根成反的平方根成反比,而比,而为定值,说明可以通过增加样本例数来减少标为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。准误,以降低抽样误差。未知,用样本标准差未知,用样本标准差S来估计来估计总体标准差总体标准差。用用 来表示均数抽样误差的大小。来表示均数抽样误差的大小。nX/nSSX

10、/XS(标准误的理论值)(标准误的理论值)(标准误的估计值)(标准误的估计值)例例5-1 2000年某研究所随机调查某地健康成年某研究所随机调查某地健康成年男子年男子27人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L,标,标准差为准差为15g/L。试估计该样本均数的抽样误差。试估计该样本均数的抽样误差。LgnSSX/89.227/15/二二、样本频率的抽样分布与抽样误差、样本频率的抽样分布与抽样误差 从同一总体中随机抽出观察单位相等的多个样本,从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差样本率与总体率及各样本率之间都存在差异,这种差异

11、是由于抽样引起的,称为异是由于抽样引起的,称为。表示频率的抽样误差大小的指标叫表示频率的抽样误差大小的指标叫:总体率,:总体率,n:样本例数。:样本例数。当当未知时,未知时,p (为样本含量足够大,且(为样本含量足够大,且p和和1-p不太小)不太小)公式为公式为::率的标准误的估计值,:率的标准误的估计值,p:样本率。:样本率。据数理统计的原理,率的标准误用据数理统计的原理,率的标准误用 表示表示 PnP1nppSP1PS 例例5-2 某市随机调查了某市随机调查了50岁以上的中老年妇女岁以上的中老年妇女776人,其中患有骨质疏松症者人,其中患有骨质疏松症者322人,患病率为人,患病率为41.5

12、%,试计算该样本频率的抽样误差。,试计算该样本频率的抽样误差。10.415 1 0.4150.01771.77%776PPPSn2023-2-717一、一、t 分布的概念分布的概念 在统计应用中,可以把任何一个均数为在统计应用中,可以把任何一个均数为,标准差为标准差为的正态分布的正态分布N(,2)转变为转变为=0,=1的的标准正态分布,即将正态变量值标准正态分布,即将正态变量值X用用 来代替。来代替。由于由于 服从正态分布,故服从正态分布,故服从标准正态分布服从标准正态分布N(0,1)。XZXXXZXSXt 实际资料的分析中,由于实际资料的分析中,由于 往往未往往未知,故标准化转换演变为:知,

13、故标准化转换演变为:/XXXSSn转换值服从服从=n-1的的t分布,即:分布,即:t 分布曲线特点:分布曲线特点:1)t 分布曲线是单峰分布,它以分布曲线是单峰分布,它以0为中心,左为中心,左右对称。右对称。2)t 分布的形状与样本例数分布的形状与样本例数n有关。自由度越有关。自由度越小,则小,则 越大,越大,t 值越分散,曲线的峰部越矮,尾部值越分散,曲线的峰部越矮,尾部则偏高。则偏高。3)当当 n时,则时,则S逼近逼近,t 分布逼近标准分布逼近标准正态分布。正态分布。t 分布不是一条曲线,而是一簇曲线。分布不是一条曲线,而是一簇曲线。二、二、t 分布的图形和分布的图形和 t 分布表分布表X

14、S=(=(标准正态分布标准正态分布)=5=1012345-1-2-3-4-5f(t)0.10.20.3与单侧概率相对应的与单侧概率相对应的t值用值用 表示,与双侧概率相对表示,与双侧概率相对应的应的t值用值用 表示。表示。,t,2/t 由于由于t t分布是以分布是以0 0为中心的对称分布,表中只列出为中心的对称分布,表中只列出了正值,故查表时,不管了正值,故查表时,不管t t值正负只用绝对值表示。值正负只用绝对值表示。一、参数估计的概念一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。是用样本指

15、标(统计量)来估计总体指标(参数)。参数估计参数估计点估计点估计(point estimation)区间估计区间估计(interval estimation),即认为即认为20002000年该地所有健康成年男性血红年该地所有健康成年男性血红蛋白量的总体均数为蛋白量的总体均数为125125g/L。1.点估计点估计:用样本统计量直接作为总体参数的估计值用样本统计量直接作为总体参数的估计值。例如例如 于于2000年测得某地年测得某地2727例健康成年男性血红蛋白例健康成年男性血红蛋白量的样本均数为量的样本均数为125125g/L,试估计其总体均数。,试估计其总体均数。X同理,例同理,例5-25-2中

16、中776776名名5050岁以上的中老年妇女骨质疏松症的样本岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有患病率作为总体患病率的点值估计值,即认为该市所有5050岁以岁以上的中老年妇女骨质疏松症的总体患病率约为上的中老年妇女骨质疏松症的总体患病率约为41.5%41.5%。2.区间估计区间估计:按预先给定的置信水平:按预先给定的置信水平(1)估计总体估计总体参数的可能位置参数的可能位置,该范围就称为该范围就称为。预先给定的概率预先给定的概率(1)称为称为,常取,常取95%或或99%。如无特别说明,一般取双侧。如无特别说明,一般取双侧95%。可信区间由两个数值即

17、可信区间由两个数值即下限下限上限上限构构成。成。2023-2-727二、总体均数二、总体均数置信区间的计算置信区间的计算通式:通式:(双侧)(双侧)由由z z分布,分布,标准标准正态曲线下有正态曲线下有95%95%的的z z值在值在1.961.96之间之间。96.1X96.1X 95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:XzX2/XX96.1X96.1X XX96.1X,96.1X XX58.2X,58.2X 通式:通式:(双侧)(双侧)由由t t分布可知,自由度越大,分布可知,自由度越大,t t分布越逼近标准正态分布越逼近标准正态分布,此时分布,此时t t曲

18、线下曲线下约约有有95%95%的的t t值在值在1.96之间,即95%的双侧置信区间:99%的双侧置信区间:96.1sX96.1X X2/SZX XXS96.1XS96.1X XXS96.1X,S96.1X XXS96.1X,S96.1X 例例5-4 5-4 某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男大学生岁健康男大学生的身高,其均数为的身高,其均数为172.2cm172.2cm,标准差为,标准差为4.5cm,4.5cm,,试估,试估计该地计该地1919岁健康男大学生的身高的岁健康男大学生的身高的95%95%置信区间。置信区间。XSzX2/9612050.Z/

19、.1.173,3.171905.496.12.172S96.1XX 该市该市1919岁健康男大学生的身高的岁健康男大学生的身高的95%95%置信区间置信区间(171.3,173.1)cm(171.3,173.1)cm,此时此时 某自由度的某自由度的t t曲线下曲线下约约有有95%95%的的t t值在值在t0.05/2()之间,通式:95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间的双侧置信区间:2/05.0X2/05.02/05.02/05.0tsXtttt XstX,2/t t/2,/2,是按自由度是按自由度=n-1=n-1,由附表,由附表2 2查得的查得的t t值值。X2/05.

20、0X2/05.0StXStX X2/05.0X2/05.0StX,StX X2/05.0X2/05.0StX,StX 例例5-3 5-3 已知某地已知某地2727例健康成年男性血红蛋白量的均数例健康成年男性血红蛋白量的均数为为 ,标准差,标准差S S=15g/L=15g/L,试问该地试问该地健康成年男健康成年男性血红蛋白量的性血红蛋白量的95%95%和和99%99%置信区间。置信区间。本例本例n n=27=27,S S=15=15 94.130,06.11938.2056.21252715tX262/05.0 LgX/12595%CI:02.133,98.11638.2779.21252715

21、tX262/01.0 99%CI:2023-2-733思思 考考 每一个求出的置信区间,都有每一个求出的置信区间,都有95%的可能性涵盖总体均数。的可能性涵盖总体均数。2023-2-7342023-2-735 置信区间的两个要素置信区间的两个要素 1.准确度准确度:反映置信度:反映置信度1-的大小。的大小。2.精度精度:反映区间的宽度。:反映区间的宽度。在一定置信度下,增加样本例数,会减小在一定置信度下,增加样本例数,会减小 t,和和 ,可减小区间宽度,提高精度。,可减小区间宽度,提高精度。XS:95%的参考值范围是指同质总体内包括的参考值范围是指同质总体内包括95%个体值的估计个体值的估计范

22、围。范围。若总体为正态分布,常按 计算。95%的可信区间是指按的可信区间是指按95%的置信度估计的总体参数的所的置信度估计的总体参数的所在范围。若为大样本,按在范围。若为大样本,按 计算。计算。:置信区间用标准误,参考值范围用标准差。置信区间用标准误,参考值范围用标准差。三、均数置信区间与参考值范围的区别三、均数置信区间与参考值范围的区别SX96.1XSX96.1思考!思考!标准差与标准误的区别标准差与标准误的区别:标准差是描述样本中个体值间的变异程度的:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误指标,标准差越小,表示变量值围绕均数的波动越小。

23、标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。数围绕总体均数的波动越小。:标准差常用于表示变量值对均数波动的:标准差常用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误常用于表示样本统计量(样围,计算变异系数等;标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波本均数,样本率)对总体参数(总体均数,总体率)的波动情况,可估计参数的可信区间,进行假设检验。动情况,可估计参数

24、的可信区间,进行假设检验。思考!思考!二者均为变异指标,如果把总体中各样本均二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。两者均可与均数结合运用,但描述的内容各不相同。:当样本含量足够大时,标准:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大而减小,甚至趋差趋向稳定。而标准误随例数的增大而减小,甚至趋向于向于0。若样本含量趋向于总例数,则标准误接近于。若样本含量

25、趋向于总例数,则标准误接近于0。总体概率的置信区间与样本含量总体概率的置信区间与样本含量n,阳性频率,阳性频率p的的大小有关,可根据大小有关,可根据n和和p的大小选择以下两种方法。的大小选择以下两种方法。当样本含量足够大,且当样本含量足够大,且p和和1-p不太小,则样本率不太小,则样本率的分布近似正态分布。的分布近似正态分布。公式为:公式为:p为样本率,为样本率,为率的标准误的估计值,为率的标准误的估计值,22,pppZSpZSpS 四、总体概率的置信区间四、总体概率的置信区间 例例5-7 用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者94例,例,检出率为检出率为78.3%。

26、估计该仪器乳腺癌总体检出率的。估计该仪器乳腺癌总体检出率的95%置信区间。置信区间。分析:本例样本例数较大,且样本率分析:本例样本例数较大,且样本率p不太小,可用正不太小,可用正态近似法:态近似法:pSzp2/20.05/210.783 1 0.7830.783 1.961200.709,0.857ppppzSpzn2.查表法查表法 当n较小,如n50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。例例5-5 5-5 某医院对某医院对3939名前列腺癌患者实施开放手术名前列腺癌患者实施开放手术治疗,术后有合并症者治疗,术后有合并症者2 2人,试估计该手术合并症发人,试估计该手术合并症发生概率的生概率的95%95%置信区间。置信区间。例例5-6 5-6 某医生用某药物治疗某医生用某药物治疗3131例脑血管梗塞患例脑血管梗塞患者,其中者,其中2525例患者治疗有效,试求该药物治疗脑血例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的管梗塞有效概率的95%95%置信区间。置信区间。:此表仅列出:此表仅列出Xn/2 Xn/2 的的95%95%置信区间。置信区间。2023-2-743THANKS!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第6章参数估计基础(NXPowerLite)课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|