1、样本样本总体总体统计推断统计推断随机抽样随机抽样参数?参数?统计量统计量参数估计参数估计假设检验假设检验第四章第四章 参数估计参数估计教学目的与要求教学目的与要求 v掌握:掌握:1、抽样分布与抽样误差、抽样分布与抽样误差2、t分布的概念和特征分布的概念和特征3、点估计、点估计4、总体均数的区间估计、总体均数的区间估计5、总体率的区间估计、总体率的区间估计v了解:了解:1、总体方差的置信区间、总体方差的置信区间教学内容提要教学内容提要 v重点讲解:重点讲解:抽样分布与抽样误差抽样分布与抽样误差t分布分布总体均数的区间估计总体均数的区间估计总体率的区间估计总体率的区间估计v介绍:介绍:总体方差的置
2、信区间总体方差的置信区间 v几个概念:几个概念:v计量资料:测定每个观察单位某项指标量的大小计量资料:测定每个观察单位某项指标量的大小得到的数据(资料)。得到的数据(资料)。v总体:研究对象(某项变量值)的全体。总体:研究对象(某项变量值)的全体。v样本:总体中随机抽取的一部分研究对象的某项样本:总体中随机抽取的一部分研究对象的某项变量值。变量值。v统计量:从样本计算出来的统计指标。统计量:从样本计算出来的统计指标。v参数:总体的统计指标叫参数。参数:总体的统计指标叫参数。v抽样误差抽样误差:由于抽样引起的样本统计量与总体参由于抽样引起的样本统计量与总体参数之间的差异(举例,抽样误差的产生及含
3、义)。数之间的差异(举例,抽样误差的产生及含义)。统计推断统计推断:用样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计: 运用统计学原理,用从样本计算出来运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。的统计指标量,对总体统计指标量进行估计。假设检验假设检验:又称显著性检验,是指由样本间存在又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做的差别对样本所代表的总体间是否存在着差别做出判断。出判断。抽样研究与抽样误差抽样研究与抽样误差 抽样研究的目的是要用样本信息推断总体特征,称统计抽样研究的目的是要用样本信息
4、推断总体特征,称统计推断。推断。1 1、抽样研究抽样研究:从总体中随机抽取一定数量的观察单位组成样从总体中随机抽取一定数量的观察单位组成样本,对其进行研究,以此来推断总体的情况。本,对其进行研究,以此来推断总体的情况。如从某地如从某地8岁的男孩中,随机抽取岁的男孩中,随机抽取200人,分别测量其身高,人,分别测量其身高,计算样本均数,用来估计该地计算样本均数,用来估计该地8岁男孩身高的总体均数就属岁男孩身高的总体均数就属于抽样研究。于抽样研究。2、 均数的抽样误差均数的抽样误差(sampling error) :是指由抽样造成的是指由抽样造成的样本均数与总体均数之差样本均数与总体均数之差 。
5、如要了解某地成年男子红细胞数的总体均如要了解某地成年男子红细胞数的总体均数,抽得一个数,抽得一个144人的样本,求出样本均数人的样本,求出样本均数 =5.381012/L,估计该地成年男子红细胞数,估计该地成年男子红细胞数的总体均数的总体均数,由于存在抽样误差,由于存在抽样误差 , -称均数的抽样误差。称均数的抽样误差。xxx均数的抽样误差均数的抽样误差一、一、抽样误差与抽样误差与标准误标准误的概念的概念反映了样本均数的离散程度反映了样本均数的离散程度, ,衡量衡量样本统计量样本统计量抽抽样误差样误差大小大小的统计指标。的统计指标。 从同一总体中每次随机抽取样本含量相等(都为从同一总体中每次随
6、机抽取样本含量相等(都为n)的样的样本,每一个样本计算样本均数,由于本,每一个样本计算样本均数,由于抽样误差抽样误差的存在,这的存在,这些样本均数有大有小,其分布是以总体均数为中心的正态些样本均数有大有小,其分布是以总体均数为中心的正态分布分布.样本均数的标准差称为样本均数的标准差称为均数的均数的标准误。标准误。 第一节第一节 抽样分布与抽样误差抽样分布与抽样误差标准误标准误标准误标准误标准误标准误 标准误标准误 =/ s = s / xxnn标准差与均数标准误的区别与联系标准差与均数标准误的区别与联系 标准差(标准差(s)均数的标准误均数的标准误意意 义义描述描述个体值个体值围绕样本均围绕样
7、本均数的数的离散程度离散程度描述从同一总体中随机抽描述从同一总体中随机抽出样本含量相同的多个出样本含量相同的多个样样本均数本均数围绕总体均数的围绕总体均数的离离散程度散程度与样本含与样本含量的关系量的关系s随着随着n的增多逐渐趋于的增多逐渐趋于稳定,当稳定,当n200时,基时,基本稳定。本稳定。随着随着n的增多逐渐减小,的增多逐渐减小,当当n趋于总体时,则标准趋于总体时,则标准误趋近于误趋近于0。估计范围估计范围 正常值范围的估计正常值范围的估计总体均数置信区间的估计总体均数置信区间的估计两者联系两者联系当样本含量不变时,标准差愈大,标准误也愈大,当样本含量不变时,标准差愈大,标准误也愈大,如
8、均数的标准误愈标准差成正比。如均数的标准误愈标准差成正比。二、样本率的抽样分布与抽样误差二、样本率的抽样分布与抽样误差 v样本率与样本率之间,样本率与总体概率之间会样本率与样本率之间,样本率与总体概率之间会产生差异,称为产生差异,称为率的抽样误差率的抽样误差。v表示率的抽样误差的指标称为表示率的抽样误差的指标称为率的标准误率的标准误。v 计算公式:计算公式: p = (4-2)若总体率若总体率未知时:未知时: sp = (4-3) n/ )1 (npp/ )1 ( v举例举例 某地为了解钩虫病的感染情况,随机抽取某地为了解钩虫病的感染情况,随机抽取150人,其中人,其中10人感染,请计算感染率
9、的抽人感染,请计算感染率的抽样误差样误差(标准误标准误)npp/ )1 ( 第二节第二节 t 值与值与 t 分布分布 一、一、t t值值1,nvSXnSXtXt值为样本均数与总体均数相差多值为样本均数与总体均数相差多少个标准误少个标准误Student t分布分布自由度:自由度:n-1Xu随机变量随机变量X XN N(,)标准正态分布标准正态分布N(0,1)z变换zX均数均数 标准正态分布标准正态分布N(0,1)nXuz),(N/n二、二、t t 分布分布1,nvSXnSXtX1.定义定义从同一总体中抽取许多大小从同一总体中抽取许多大小相同的样本,可得到许多相同的样本,可得到许多及及s,代入式,
10、就可以得到,代入式,就可以得到许多的许多的t值,将这些值,将这些t值绘成值绘成直方图,当样本无限多时,直方图,当样本无限多时,就绘成一条光滑的曲线,这就绘成一条光滑的曲线,这就是就是t分布曲线。这种分布曲线。这种t值的值的分布称分布称t分布。分布。x2t 分布的特征分布的特征(1)t分布是以分布是以0为中心,左右对称的单峰分布。为中心,左右对称的单峰分布。 (2)形似标准正态分布,与自由度有关。)形似标准正态分布,与自由度有关。(3)t分布是一簇曲线。分布是一簇曲线。 z N(0,1)nxxx/t 分布(与分布(与z分布比较的特点)分布比较的特点)t 分布分布示意图示意图 3. t 界值界值表
11、表(附表(附表7 P190) 横坐标:自由度,横坐标:自由度, 纵坐标:概率纵坐标:概率 p, 即曲线下阴影部分的面积,即曲线下阴影部分的面积, p的的 意思是从正态总体作随机抽样,得到样本意思是从正态总体作随机抽样,得到样本 t值落在该区间的概率值落在该区间的概率; 表中的数字:相应的表中的数字:相应的 |t | 界值。界值。4t 分布的规律分布的规律 t 界值有单侧和双侧两种情界值有单侧和双侧两种情况:自由度为况:自由度为df时,表示方法时,表示方法:t 分布的双侧分布的双侧界值记为界值记为t/2, df,P (| t |t/2,df)= ;t 分布的单侧分布的单侧界值记为界值记为 t,d
12、f,P ( t t,df)= , P ( t t,df)= 。4. t 分布的规律分布的规律:(1) 自由度(自由度()一定时,)一定时,p 与与 t 成反比成反比;自由度自由度df8时时单侧界值单侧界值t0.05,81.860 双侧界值双侧界值t0.05/2,82.306单侧界值单侧界值t0.01,82.896 双侧界值双侧界值t0.01/2,83.3554. t 分布的规律分布的规律:(2) 概率(概率(p) 一定时,一定时, 与与 t 成反比成反比;自由度自由度df8时时t0.05,81.860t0.05/2,82.306自由度自由度df10时时t0.05,101.812t0.05/2,
13、102.228第三节第三节 总体均数与总体概率的估计总体均数与总体概率的估计 统计统计推断推断 点值估计点值估计参数估计参数估计 假设检验假设检验 总体均数的估计总体均数的估计 区间估计区间估计 参数估计就是用样本指标(即统计量)参数估计就是用样本指标(即统计量)来估计总体指标(即参数)来估计总体指标(即参数) 统计推断的任务就是用样本信息推论统计推断的任务就是用样本信息推论总体特征。总体特征。一、一、点值估计点值估计由样本观察值算出总体参数的一个估计值由样本观察值算出总体参数的一个估计值(为统计量)称为该参数的一个点值估计(为统计量)称为该参数的一个点值估计(point estimation
14、)。)。 如随机抽查如随机抽查140例成年男子,测得红细胞的均值为例成年男子,测得红细胞的均值为4.791012/L, 以此值作为某地成年男子的总体均数的估计值以此值作为某地成年男子的总体均数的估计值, 叫叫“点值估点值估计计”。 优点优点:点值估计比较方便、简单。点值估计比较方便、简单。缺点缺点:由于存在抽样误差,不同的样本可能得到不同的估计由于存在抽样误差,不同的样本可能得到不同的估计值,所以其准确度较低。值,所以其准确度较低。 总体均数的点值估计:总体均数的点值估计:以某一样本均数以某一样本均数来作总体均数的估计来作总体均数的估计 x二、二、区间估计区间估计 在一定概率在一定概率(1-)
15、下下,利用样本统计量,利用样本统计量和标准误和标准误确定出参数可能存在的范围确定出参数可能存在的范围,称为区间估计。称为区间估计。v总体均数的可信区间:根据样本均数,按一定的总体均数的可信区间:根据样本均数,按一定的可信度计算出总体均数很可能在的一个数值范围。可信度计算出总体均数很可能在的一个数值范围。v所给出的范围称为该参数的(所给出的范围称为该参数的(1-)置信区间或可置信区间或可信区间(信区间(confidence interval,简记为简记为CI)。)。v这个范围包含参数值的可靠程度为这个范围包含参数值的可靠程度为(1-),),称为称为可信度或置信度可信度或置信度(confidenc
16、e degree)或或可信概率可信概率。(1)z 分布法分布法已知已知 未知,但未知,但n足够大足够大,n50 ( z /2s , z /2 s ) 即(即( z /2s )xxxxxx1. 总体均数的估计总体均数的估计z 分布法分布法t 分布分布(1)z分布分布 法法应用条件应用条件:例题例题意义:与正常值范围进行比较意义:与正常值范围进行比较已知已知,或或未知但未知但样本量较大并可计算出样本量较大并可计算出 x 及及 Sx调查某市调查某市400名成人名成人,得到脉搏均数为得到脉搏均数为72次次/分,分,标准差为标准差为6.4次次/分分,求求95%和和99%可信区间可信区间. 换句话说,做出
17、该市成人脉搏均数为换句话说,做出该市成人脉搏均数为71.4次次/分分 - 72.6次次/分的结论,说对的概率是分的结论,说对的概率是95%,说错的概率,说错的概率是是5%;做出该市成人脉搏均数为;做出该市成人脉搏均数为71.2次次/分分 - 72.8次次/分的结论,说对的概率是分的结论,说对的概率是99%,说错的概率是,说错的概率是1%。意义:意义:虽然不能知道某市全体成人脉搏均数的确切虽然不能知道某市全体成人脉搏均数的确切数值,但有数值,但有95%的把握说该市全体成人脉搏均数的把握说该市全体成人脉搏均数在在71.4次次/分分 - 72.6次次/分之间,有分之间,有99%的把握说该的把握说该市
18、全体成人脉搏均数在市全体成人脉搏均数在 71.2次次/分分 - 72.8次次/分之间。分之间。某校全体女大学生身高均数的某校全体女大学生身高均数的95%可信区间为可信区间为(163.0 , 164.5) cm的的意义:意义: 虽然不能知道某校全体女大学生身高均数的虽然不能知道某校全体女大学生身高均数的确切数值,但有确切数值,但有95%的把握说校全体女大学生身的把握说校全体女大学生身高均数在高均数在163.0 - 164.5cm之间。之间。换句话说,做出换句话说,做出校全体女大学生身高均数为校全体女大学生身高均数为163.0 - 164.5cm的的结论,说对的概率是结论,说对的概率是95%,说错
19、的概率是,说错的概率是5%;某校全体女大学生身高均数的某校全体女大学生身高均数的99%可信区间为可信区间为(162.7 , 164.7) cm的意义:的意义: 置信区间的意义置信区间的意义 95%95%置信区间置信区间 : 考虑总体参数的置信区间取决于所抽取的考虑总体参数的置信区间取决于所抽取的样本,在同样条件下,进行许多重复的抽样,样本,在同样条件下,进行许多重复的抽样,每抽取一个样本可得到待估计参数的一个置信每抽取一个样本可得到待估计参数的一个置信区间,在这些区间中,有的包含待估计的参数,区间,在这些区间中,有的包含待估计的参数,有的不包含,平均说来每有的不包含,平均说来每100个中有个中
20、有95个正确,个正确,有有5 5犯错误的风险犯错误的风险。 总体均数可信区间的计算总体均数可信区间的计算(2)t 分布法分布法公式公式应用条件应用条件未知,未知,样本量较小,样本量较小, 可计算可计算出出 x 及及s x ( t /2,vS , t /2,v S ) 即即 ( t /2,vS )xxxxxx2总体率的置信区间总体率的置信区间 v直接查表法直接查表法 小样本时可用直接查表计算总体小样本时可用直接查表计算总体 率的置信区间率的置信区间v【例例4-9】 用某种中医疗法治疗青少年近视用某种中医疗法治疗青少年近视13例,其中例,其中8人近期有效,求该法近期有效率的人近期有效,求该法近期有
21、效率的95%置信区间。置信区间。v解解:13例中的近期有效人数服从二项分布。例中的近期有效人数服从二项分布。v由由m8,nm5,1 0.95,查统计用表,查统计用表11,得,得p10.316,p20.861,故近期有效总体率,故近期有效总体率p的的95%置信区间为置信区间为(0.316,0.861)。直接查表法直接查表法正态近似法正态近似法2总体率的置信区间总体率的置信区间v 正态近似法正态近似法 当当n足够大,并且足够大,并且np和和n(1p)5时,时,p的抽样分布近似正态分布,可的抽样分布近似正态分布,可按照式按照式4-9计算总体率的置信区间计算总体率的置信区间v(p1.96 ,p1.96
22、 )npp/ )1 ( npp/ )1 ( 【例例4-10】 用某种中医疗法治疗青少年近视用某种中医疗法治疗青少年近视100例,其中例,其中80人近期有效,求该法近期有效率的人近期有效,求该法近期有效率的95%置信区间。置信区间。3.3.置信区间的两要素置信区间的两要素 一是一是准确度准确度:反映在(:反映在(1-)的大小,即区间包含总体参数的的大小,即区间包含总体参数的可能性(概率)的大小,准确度越接近可能性(概率)的大小,准确度越接近1越好,例如,越好,例如,99%CI比比95%CI犯错误的风险小。犯错误的风险小。二是二是精密度精密度:反映在区间的长度,区间的长度愈小愈精密。:反映在区间的
23、长度,区间的长度愈小愈精密。 4. 置信区间和可信限置信区间和可信限v可信限(可信限(confidence limit,简记为简记为CL)为两个点值;为两个点值;v置信区间是以上、下可信限为界的一个范围。置信区间是以上、下可信限为界的一个范围。【习题【习题】 1.1.已知医圣张仲景使用桂枝的处方中,用桂已知医圣张仲景使用桂枝的处方中,用桂枝的量服从正态分布,标准差枝的量服从正态分布,标准差=3g ,查伤寒查伤寒论中使用桂枝的处方论中使用桂枝的处方39张,算得桂枝用量的样张,算得桂枝用量的样本均数为本均数为 =8.14g ,试求医圣张仲景使用桂枝试求医圣张仲景使用桂枝时,桂枝用量总体均数时,桂枝用量总体均数的的95%置信区间。置信区间。 x 2.2.从同一批号的逍遥丸中随机抽检从同一批号的逍遥丸中随机抽检5丸,测丸,测得其崩解时间(月)为得其崩解时间(月)为21,18,20,16,15。已知药丸崩解时间服从正态分布,求该批药丸已知药丸崩解时间服从正态分布,求该批药丸崩解时间总体均数的崩解时间总体均数的95%置信区间。置信区间。