1、4 参数估计,引子 : 1. 医学科学研究的特点 医学统计学的任务,风 险,问题:已知某市健康儿童共125万人,想知道其平均血糖水平是多少?,求(参数)的问题,Population:125万人,13,方法二: 随机抽样 (50人),A= 4.66mmol/L (样本统计量),风 险,怎么样由 估计?,利用了一个规律,“抽样分布”的规律,4.1 抽样分布与标准误 4.2 t 分布 . 4.3 总体参数的估计 .,4.1 抽样分布与标准误,【实验一】假定某年某地13岁所有女学生的身高服从XN (155.4 , 5.32)的正态分布,从中抽取一个样本含量为30的样本,比较样本均数和总体均数的差异。,
2、 , 156.6,样本均数 :,156.7,158.1,155.6,表6.1 从正态总体 N (155.4, 5.32) 抽样得到的100个样本均数的分布频数表(n=30),样本均数的分布特征:,图6.1,图6.1 某年某地女学生身高样本均数分布的频数表,以样本均数作为随机变量,有以下特点: 各样本均数未必等于总体均数。 样本均数之间存在差异。 样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。,抽样误差(sampling error):由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别,称为。 原因:个
3、体变异 特征:A. 不可避免性 B. 可控性,原总体变量的分布,样本均数的抽样分布,标准误 (standard error of mean,SME或SE)概念:,样本均数的标准差简称标准误(standard error,SE)是描述均数的抽样误差大小的指标。 数理统计研究表明,标准误 即抽样误差的大小具有一定的规律性,,样本均数,标准误 (standard error,SE)计算:,标准误的理论值,标准误的理论值的估计值,前提: 无限总体 完全随机抽样,(1)标准误(standard error)是描述均数的抽样误差大小的指标,可用来衡量样本均数的可靠性;标准误越小,说明抽样误差越小,样本均数
4、代表总体均数就越可靠。 (2)用于参数估计。 (3)用于假设检验。,标准误的意义:,小结:若随机变量X服从XN ( , s2) 的正态分布,则以之随机抽样计算的样本均数所构成的分布也呈正态分布。,1. 样本均数的总体均数仍等于原来的总体均数。 2. 样本均数的标准差 叫做标准误 (standard error of mean, SEM),记作 ,是描述均数的抽样误 差大小的指标。,中心极限定理,【实验二】:非正态分布样本均数的抽样分布 图6-2是一个正偏态分布,用电脑从中随机抽取样本含量分别为5、10、30、50的样本各1000次,计算样本均数,绘制直方图,并观察其样本均数的分布。,n = 5
5、,n = 10,n = 30,n = 50,当样本容量足够大时(n 30) ,样本均数的抽样分布逐渐趋于正态分布,偏态分布总体,从偏态总体中抽样,当n足够大时(n大于30),其均数也近似于正态分布。,样本均数的总体均数仍等于原来的总体均数。 样本均数的标准差 仍叫做标准误,记作 。,中心极限定理,计算公式仍是:,举例:大规模普查得某地健康成年男子血红蛋白总体均数为 =135g/L,=20.5g/L。若在其中进行随机抽样,样本量n=100,样本均数 =130g/L,S=23.4g/L,求其理论标准误和样本均数的估计标准误。,2. 样本均数的估计标准误:,1.理论标准误:,解:,均数;标准差 N(
6、,2 ),正态分布与抽样分布的区别与联系,原总体变量的分布,样本均数的抽样分布,标准差与标准误的区别与联系,4.2 t 分布,均数;标准差 N(,2 ),均数;标准误 N(, ),总体分布,抽样分布,原变量,任意正态分布曲线 XN(,2),标准正态分布曲线 XN(0,1),u 变换,对于正态变量X,标准正态分布,对样本均数的正态分布进行标准化t 分布,若对抽样分布 进行标准化变换,有,实际工作中, 是未知的,所以常需以 代替。,W.S.Gosett 研究它的分布规律,提出它不服从标准正态分布的规律,而服从=n-1的t 分布,后人用其笔名student命名,称之为students t-distr
7、ibution,简称 t 分布。,t 分布:,Z分布,t 分布,故:,【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t 转换,将t 值绘成直方图: 。,n =3时的t分布,n=50时的t分布,所以,不同的自由度(=n-1)即有不同的 t 分布,【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t 转换,将t 值绘成直方图: 。,n =3时的t分布,n=50时的t分布,所以,不同的自由度
8、(=n-1)即有不同的 t 分布,不同自由度的t 分布的曲线,t 分布图形的特征:,1. t分布的密度曲线呈单峰,曲线在t =0处最高,并以t=0为中心左右对称;t值可是正数,也可是负数。 2. 与标准正态分布相比,曲线最高处较矮,两尾部较高。 3. t分布的概率密度曲线是一簇曲线,它只有一个参数 自由度;一但确定,其曲线形状即也确定。 越小,则t值越分散,曲线越低平,尾部越高; 随着的逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,t分布的极限分布是Z分布。 4. t分布的概率密度曲线下面积有一定规律性,可通过查“t分布界值表”得到。,t 分布图形的特征:,t 分布曲线下的整个面积为1; t
9、 分布曲线下从a 到b 的面积为t 值分布在此范围内的百分比,即t 值落在此范围内的概率p。,t 分布曲线下的面积分布规律:,自由度为 的t 分布曲线,t 界值表:以自由度 为横标目,概率P 为纵标目,表中数字表示当和 P确定时,对应的是正侧或双侧的t 临界值表,记作t(,)或t(/2,) 。,包括,单侧概率的t 临界值,记作t(,),双侧概率的t 临界值,记作t(/2,),附 表 2 t 界 值 表,例1,求当=9,单尾概率=0.05时的 t界值,表明:按t分布的规律,从正态分布总体中抽取样本含量n=10的样本,则由该样本计算的t 值大于等于1.833的概率为0.05,或小于等于-1.833
10、的概率亦为0.05。,查表得单尾 t0.05,9=1.833,则: P(t -1.833)=0.05 或:P(t 1.833)=0.05,自由度为9 的t 分布,例1,求当=9,双尾概率=0.05时的 t界值,表明:按t分布的规律,从正态分布总体中抽取样本含量n=10的样本,则由该样本计算的t值大于等于2.262的概率为0.025,小于等于-2.262的概率亦为0.025。,查表得单尾 t0.05,9=2.262,则: P(t-2.228)+P(t2.228)0.05 或: P(-2.228t2.228)=1-0.05=0.95。,自由度为9 的t 分布,4.3 总体参数的估计,例5.1:测得
11、某地11名20岁男大学生 身高=172.25cm,S=3.31cm,对该地20岁男大学生身高均数进行估计。,(一)基本概念,参数估计(Parameter estimation) :用样本信息估计总体参数。,包括,点值估计( Point estimation ):不考虑抽样误差,直接用样本统计量 来作为总体参数 的估计值。 区间估计(Interval estimation):考虑抽样误差,按一定的概率或可信度(1-)用一个区 间来估计总体参数的所在范围。,这个区间范围叫总体参数的1-的可信区间 (confidence interval, CI )或置信区间。 一般取值0.05或0.01, 所以1
12、-为0.95或0.99,若确定1-=0.95,则根据 t 分布的特征,t 有95%可能性在 -t0.05/2 到 t0.05/2 间,故:,注明:可信程度95%,求95%的可信区间:,自由度为 的t 分布:,-t界值,t界值,举例:测得某地11名20岁男大学生 身高=172.25cm,S=3.31cm,估计该地20岁男大学生身高均数的95%的可信区间。,答:,即:该地20岁男大学生身高均数的95%可信区间为170.03cm174.47cm,1.明确条件,2.用t分布法求可信区间,n =11, =172.73cm,S=4.19cm,双侧t0.05=2.228,【实验】: 从前面某年某地所有女学生
13、所构成的正态总体N (155.4 , 5.32),抽到100份随机样本,计算每份样本的95%可信区间。,1-可信度的含义:,表6.1 从正态总体 N (155.4, 5.32) 抽到的100份随机样本的可信区间(n=30),1-5%可信度实际含义: 从总体中进行随机抽样,共作100次抽样,每个样本可算得一个可信区间,得100个可信区间:平均有95个可信区间包括 (估计正确),只有5个可信区间不包括(估计错误)。,(1 - ) % 概率包含了; % 的概率未包含,可信区间概念:总体均数的1-可信区间指一个范围,指该范围包含在内的可能性为1-,不包含在内的可能性为;常用1-为95%和99%,又称置
14、信区间。 可信限的概念:指可信区间的下限和上限,即两个端点值。可信区间是指以上、下可信限为界的一个范围,但不包含上下限两个值,故用( )表示,其为开区间。,下可信限,上可信限,正态总体均数的区间估计方法:,t 分布法,总体方差2未知,样本n 较小时(n30)时:,依据于t分布,可信区间,t =,正态分布法,1.总体方差2已知:呈标准正态u 分布 2.总体方差2未知,但样本n 较大(n30)时: 接近于标准正态u 分布。,可信区间,依据于u 分布,正态分布法:,小 结,从同一总体中,随机抽取相同含量的样本,由重复抽取的每一份样本均可计算一个样本统计量,样本统计量的分布即为抽样分布。,2. 来自正
15、态分布总体的样本均数仍服从正态分布;即使从偏峰分布总体抽样,只要n够大,样本均数的分布与近似于正态分布。,其样本均数的均数为原变量的均数; 其样本均数的标准差叫标准误,为,3.从同一总体中,随机抽取相同含量的若干份样本,各样本统计量之间以及样本统计量与参数之间存在差异,属于抽样误差,反映抽样误差大小的指标叫标准误。,若原变量的总体标准差是,则均数的标准误是 样本估计值是 。 若原变量的总体概率是,则频率的标准误是 样本估计值是 。,由于总体中个体变异的客观存在,抽样误差是不可避免的,但可随样本含量的增大而减小。,4.当X服从均数为的正态分布时,统计量 服从自由度为= n-1的t分布。 t 分布
16、只有一个参数; 较小时,分布曲线扁平,尾部较高;当趋于时, t 分布趋附向于标准正态分布。,5. 参数估计有点估计和区间估计两种,区间估计是按事先给定的置信度(1-),估计可能包含未知总体参数的一个范围,该范围称为总体参数的(1-)置信区间。,6. 总体均数的区间估计有正态分布法和 t 分布法两种方法。,另外,注意可信区间与医学参考值范围的不同,案例分析,某研究者于某年在某市随机调查了200例正常成人血铅含量(g/100g),整理成频数表形式,试估计该市正常成人血铅含量的参考值范围及正常成人平均血铅含量的置信区间。由于血铅值高于某上限值才被看作异常,故作者将该数据代入:,1.本资料属于正偏态资
17、料,用正态分布法估计参考值不合适; 2.应采用中位数或百分为数来描述平均水平; 3.并用百分位数法估计正常成年人95参考值范围上单测,求P95? 4.本例用公式 估计95的置信区间单测是合适的,因为样本量足够大,可用正态近似法估计总体均数的置信区间。,参考答案:,目的:置信区间求法,练习:SPSS操作 实验:4-1、4-2、4-3,SPSS软件实习,【最佳选择题】,A. t分布图是一簇曲线 B. t分布图是单峰分布 C. 当时,tZ D. t分布图以0为中心,左右对称 E. 相同时, 越大,P越大,1.关于以0为中心的t分布,错误的是( ),2.某指标的均数为 ,标准差为S,由公 式 计算出来
18、的区间称为( )。,A. 99%参考值范围 B. 95%参考值范围 C. 99%置信区间 D. 95%置信区间 E. 90%置信区间,3. 在已知均数为, 标准差为的正态总体中随机抽样, ( ) 的概率为5%。,A: B: C: D: E:,A. CV B. S C. D. R E. 四分位数间距,4. ( )小,表示用该样本均数估计总体均数的可靠性(或精密度)大。,【计算题】,1.随机抽取某地25名成年男性的红细胞数均数为5.001012/L,标准差为0.601012/L,试估计其抽样误差和总体均数的95%置信区间。 2.调查某地蛲虫感染情况,随机抽样调查了250人,感染人数为100。试估计该地蛲虫感染率的95%置信区间。,【简答题】,什么是参数的点估计和区间估计? 它们各有哪些优点? 标准误 与标准差有什么区与联系? 对总体均数进行区间估计时, 区间的大小取决于什么? 置信区间的含义是什么?,