1、,2020/4/6,1,医学统计学 人民卫生出版社,第五章 总体均数的区间估计 和假设检验,2020/4/6,2,学习目标 掌握:均数抽样误差和标准误的概念、计算公式和应用;t分布的概念、特征和与z分布的区别与联系;总体均数可信区间的概念和计算公式;假设检验的步骤及注意问题。 熟悉:标准差与标准误的区别与联系。 了解:统计学中两种类型错误的概念。,2020/4/6,3,第一节 均数的抽样误差与标准误 一、标准误的意义及其计算 1. 均数的抽样误差 医学研究中常常从总体中随机抽取样本进行研究,目的是由样本的信息去推断总体。通常情况下样本均数 不可能与总体均数正好相等,这种由个体变异产生的,随机抽
2、样引起的样本统计量与总体参数间的差异称为抽样误差(sampling error) 。,2020/4/6,4,2. 均数标准误 中心极限定理:样本量n足够大(一般n100)的情况下,无论原始变量是什么分布, 样本均数的分布近似正态分布。 样本均数的标准差称为标准误。标准误愈大,说明用样本均数代表总体均数的可靠性小。反之,用样本均数代表总体均数的可靠性大。,5,标准误的计算:,2020/4/6,6,二、均数标准误的应用 1.反映抽样误差的大小,衡量样本均数的可靠性。均数标准误越小,说明样本均数间的离散程度越小,用样本均数估计总体均数越可靠;反之,均数标准误越大,说明样本均数间的离散程度越大,用样本
3、均数估计总体均数的可靠性越小。 2.进行总体均数的区间估计。 3.用于均数的假设检验。,2020/4/6,7,第二节 t分布 一、t分布的概念 对正态变量X采用z变换,z(X)/,则一般的正态分布N (,2)即变换为标准正态分布N (0,1)。样本均数 服从正态分布,同样可作正态变量的z变换,即: z( )/,2020/4/6,8,第二节 t分布 一、t分布的概念 实际工作中由于理论的标准误往往未知,而用样本的标准误作为 的估计值,此时就不是z变换而是t变换了,即 t( )/ t分布于1908年由英国统计学家W.S.Gosset以 “student”笔名发表,故又称student t 分布(S
4、tudents t-distribution)。,2020/4/6,9,第二节 t分布 二、t分布曲线的特征 1.以0为中心,左右对称的单峰分布; 2.t分布曲线是一簇曲线,其形态与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近z分布(标准正态分布),当趋近于时,t分布即为z分布。,2020/4/6,10,t 分布示意图,2020/4/6,11,第三节 总体均数的区间估计 参数估计(parameter estimation)是指用样本统计量估计总体参数,是统计推断的一个重要内容。估计总体均数的方法有两种,即点值估计(point estimation )
5、和区间估计(interval estimation)。,2020/4/6,12,第三节 总体均数的估计 一、点值估计 用相应样本统计量直接作为其总体参数的估计值。 其方法简单,但未考虑抽样误差的影响,无法评价参数估计的准确度,并不常用。,2020/4/6,13,第三节 总体均数的区间估计 二、区间估计 按一定的概率(1- )估计总体均数所在的范围,得到的范围称可信区间(confidence internal), 亦称置信区间。(1- )称为可信度,常取 为95%和99%。 总体均数1- (如95)可信区间的含义是:总体均数被包含在该区间内的可能性是1- (95),没有被包含的可能性为 (5)。
6、,2020/4/6,14,总体均数可信区间的计算 1总体标准差已知 95%的可信区间 总体标准差未知但样本含量n较大(n100) 95%的可信区间 总体标准差未知但样本含量n较小 95%的可信区间,2020/4/6,15,可信区间的注意事项 1标准误越小,估计总体均数可信区间的范围也越窄,说明样本均数与总体均数越接近,对总体均数的估计也越精确;反之,标准误越大,估计总体均数可信区间的范围也越宽,说明样本均数距总体均数越远,对总体均数的估计也越差。,2020/4/6,16,可信区间的注意事项 2. 可信区间具有两个要素:一是准确度,即可信区间包含的概率(1- )的大小,一般而言概率越大,估计的准
7、确度越高,反之越低。二是精密度,反映区间的长度,区间的长度越小,估计的精密度越好,反之越差。在样本量一定的情况下,二者是相互矛盾的,若考虑提高准确度,则区间变宽,精确度下降。,2020/4/6,17,可信区间的注意事项 3. 标准误和标准差虽然都是说明离散程度的指标,但两者所代表的意义、计算方法及应用范围是不一样的。,2020/4/6,18,第四节 假设检验的意义和步骤,一、假设检验的原理和思想 假设检验(hypothesis test)是统计推断的另一个重要方面。样本统计量与总体参数之间的差别,或样本统计量之间的差别是由于抽样误差造成的,还是本质不同所引起的,用一种方法来进行检验判断,这种方
8、法叫假设检验。,2020/4/6,19,第四节 假设检验的意义和步骤,一、假设检验的原理和思想 假设检验(hypothesis test)是统计推断的另一个重要方面。样本统计量与总体参数之间的差别,或样本统计量之间的差别是由于抽样误差造成的,还是本质不同所引起的,用一种方法来进行检验判断,这种方法叫假设检验。,2020/4/6,20,第四节 假设检验的意义和步骤,例: 据大量调查得知,健康成年男子脉搏的均数为72次/分钟,某医生在山区随机调查了25名健康成年男子,其脉搏均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区成年男子的脉搏与一般健康成年男子的脉搏数不同? 本例中两均数不等
9、的原因有两种,由于个体之间存在差异,山区成年男子脉搏不同于一般,这种差别是抽样误差造成的;由于环境条件的影响,山区成年男子的脉搏确实高于一般。,2020/4/6,21,第四节 假设检验的意义和步骤,首先假设样本均数与总体均数之间的差别是由抽样误差引起的,然后推断由抽样误差导致出现这种情况的概率有多大。如果出现这种情况的概率不小,那就有可能出现,不能拒绝这种假设。如果推断由抽样误差导致出现这种情况的概率很小,由于小概率事件在一次抽样中是不可能发生的,因此只好拒绝这个假设,拒绝了第一种可能,只能接受第二种可能。,2020/4/6,22,第四节 假设检验的意义和步骤,二、假设检验的步骤 1建立检验假
10、设,确定检验水准 假设有两种: 一是无效假设(null hypothesis),或称零假设,用H0表示; 二是备择假设(alternative hypothesis),用H1表示。 检验水准用表示,它是判断差异有无统计学意义的概率水准,实际工作中常取 =0.05。,2020/4/6,23,第四节 假设检验的意义和步骤,二、假设检验的步骤 2计算检验统计量 根据分析目的、设计类型和资料类型选用适当的检验方法,计算相应的统计量。 3确定P值,作出推断结论 P值是指在零假设成立的条件下随机抽样,获得等于及大于(或小于)现有统计量的概率。,2020/4/6,24,第五节 型错误和型错误,假设检验中作出
11、的推断结论可能发生两种错误: 拒绝了实际上是成立的H0,这叫型错误(typeerror)或第一类错误,也称为错误。 不拒绝实际上是不成立的H0,这叫型错误(typeerror)或第二类错误,也称为错误。,2020/4/6,25,1-称为可信度,其意义是两总体确无差别,接受H0的可信度大小。 1-称为检验效能(power of test)或把握度,其意义是两总体有差别, 按水准发现它们有差别的能力。,2020/4/6,26,型错误与型错误示意图(以单侧t检验为例),2020/4/6,27,第五节 型错误和型错误,两类错误的区别与联系 联系: 样本含量一定时,增大,则减小; 减小,则增大;要想同时
12、减小和,需增大样本含量。 区别: 1. 一般为已知,可取单侧或双侧,如0.05,或0.01。 2. 一般为未知,只取单侧,如取0.1或0.2。,2020/4/6,28,第六节 应用假设检验注意的问题,1要有严密的研究设计 选择检验方法必须符合资料的适用条件 假设检验单、双侧的选择 正确理解P值的意义 统计推断结论不能绝对化 可信区间与假设检验的区别与联系,2020/4/6,29,学习小结 1.标准差是衡量个体变异大小的指标,而标准误是衡量抽样误差大小的指标,其实质是样本均数的标准差。 2.统计推断的方法有参数估计和假设检验。参数估计的方法有点值估计和区间估计。区间估计准确度和精密度是矛盾的,一般计算95%的可信区间。假设检验的基本思想是反证法和小概率事件原理。 3.假设检验的主要步骤:建立检验假设,确定检验水准;计算检验统计量;确定P值,做出推断结论。 假设检验的结论包括统计学结论和专业结论两部分。 4.假设检验无论是拒绝还是不拒绝H0,都可能犯错误。“弃真”的错误称为型错误,亦称假阳性错误,“取伪”的错误称为型错误,亦称假阴性错误。,2020/4/6,30,Thank You !,