1、2023-8-8西安医学院公共卫生系第六章第六章参数估计与假设检验参数估计与假设检验 2023-8-8西安医学院公共卫生系 在实际工作中,由于总体中各观察对象之间存在在实际工作中,由于总体中各观察对象之间存在着个体变异,且随机抽取的样本又只是总体中的着个体变异,且随机抽取的样本又只是总体中的一部分,因此计算的样本统计量,不一定恰好等一部分,因此计算的样本统计量,不一定恰好等于相应的总体参数。于相应的总体参数。这种由于个体变异的存在,在抽样研究中产生这种由于个体变异的存在,在抽样研究中产生的样本统计量与相应的总体参数间的差异,称为的样本统计量与相应的总体参数间的差异,称为抽样误差抽样误差(sam
2、pling errorsampling error)2023-8-8西安医学院公共卫生系:设从均值为设从均值为、方差为、方差为2的任意一个总的任意一个总体中抽取样本量为体中抽取样本量为n的样本,当的样本,当n充分大充分大时,样本均值的抽样分布近似服从均值为时,样本均值的抽样分布近似服从均值为、方差为、方差为2/n的正态分布。的正态分布。2023-8-8西安医学院公共卫生系理论上可以证明:理论上可以证明:(1 1)从正态总体)从正态总体NN(,2 2 )中,随机抽取)中,随机抽取例数为例数为n n的样本,样本均数也服从正态分布;的样本,样本均数也服从正态分布;即使从偏态总体抽样,当即使从偏态总体
3、抽样,当n n足够大时,样本足够大时,样本均数也近似正态分布。均数也近似正态分布。(2 2)从均数为)从均数为,标准差为,标准差为的正态或偏态的正态或偏态总体,抽取例数为总体,抽取例数为n n的样本,样本均数的总的样本,样本均数的总体均数也为体均数也为,标准差为,标准差为 。x2023-8-8西安医学院公共卫生系指由抽样造成的样本均数指由抽样造成的样本均数 与总体均数之间的差异。与总体均数之间的差异。称称标准误标准误,它说明均数抽样误差的大小。,它说明均数抽样误差的大小。n n越大,标准误越小,样本均数的抽样误差亦越小越大,标准误越小,样本均数的抽样误差亦越小实际工作中,实际工作中,常未知,而
4、是用样本标准差常未知,而是用样本标准差s s来估来估计,则有计,则有常用来说明均数的抽样误差的大小。常用来说明均数的抽样误差的大小。xnssx/nx/2023-8-8西安医学院公共卫生系 率的抽样误差率的抽样误差:样本率与样本率之间;样本率:样本率与样本率之间;样本率与总体率之间均存在差异,即抽样误差。与总体率之间均存在差异,即抽样误差。根据二项分布的原理,样本频率的总体概率为根据二项分布的原理,样本频率的总体概率为,率的标准误率的标准误为为 p p=实际工作中,总体率往往未知,常用样本率来实际工作中,总体率往往未知,常用样本率来近似代替总体率,则有近似代替总体率,则有 Sp p=反映率的抽样
5、误差的大小。反映率的抽样误差的大小。n)1(npp)1(2023-8-8西安医学院公共卫生系参数估计参数估计即用样本指标(称为统计量)即用样本指标(称为统计量)来估计总体指标(称为参数)来估计总体指标(称为参数)参数估计有两种方法:参数估计有两种方法:1.1.点估计:未考虑抽样误差点估计:未考虑抽样误差 2.2.区间估计区间估计:可信区间又称置信区间:可信区间又称置信区间 (confidence intervalconfidence interval,CICI)指按一定的概率估计总体参数的可能范围。指按一定的概率估计总体参数的可能范围。概率概率1-1-称为可信度,常取称为可信度,常取95%95
6、%或或99%99%2023-8-8西安医学院公共卫生系总体均数的总体均数的95%95%可信区间表示可信区间表示:该区间包含总体均数该区间包含总体均数的概率为的概率为95%95%总体均数可信区间总体均数可信区间的计算的计算*:已知或已知或未知但未知但n n较大时按正态分布原理计算,较大时按正态分布原理计算,未知但未知但n n较小时按较小时按t t分布的原理计算。分布的原理计算。2023-8-8西安医学院公共卫生系1.1.已知时,由已知时,由Z Z分布可知,正态曲线下有分布可知,正态曲线下有95%95%的的Z Z值在值在1.961.96之间,即:之间,即:P P(-1.96-1.96Z Z+1.9
7、6+1.96)=0.95=0.95 P P(-1.96-1.96 +1.96+1.96)=0.95=0.95 移项后整理得,总体均数移项后整理得,总体均数的的95%95%可信区间为可信区间为 xx/)(xxxx96.1,96.12023-8-8西安医学院公共卫生系2.2.未知,但未知,但n n足够大(如足够大(如n100n100)时,可知)时,可知t t分布分布 逼近逼近Z Z分布,此时分布,此时t t曲线下有曲线下有95%95%的的t t值在值在1.961.96之间之间 即:即:P P(-1.96-1.96t t+1.96+1.96)=0.95=0.95 P(-1.96 +1.96)=0.9
8、5 P()=0.95 故总体均数故总体均数的的95%95%可信区间为可信区间为 xsx/)(xsx96.1xsx96.1xsx96.1xsx96.12023-8-8西安医学院公共卫生系 前面讲过,对正态变量前面讲过,对正态变量x x采用采用 变换,则将正态分布变换,则将正态分布NN(,2 2)变换)变换为标准正态分布为标准正态分布NN(0 0,1 1)。)。已知样本均数也服从正态分布,那么对已知样本均数也服从正态分布,那么对样本均数采用样本均数采用Z Z变换,即可将其变换为标变换,即可将其变换为标准正态分布,即准正态分布,即Z Z分布。分布。/)(xZ2023-8-8西安医学院公共卫生系 但实
9、际工作中但实际工作中 需用需用 来估计,这样,来估计,这样,对正态变量采用的就不是对正态变量采用的就不是Z Z变换而是变换而是t t变变换了,即换了,即t=t=(-)/其结果即为其结果即为t t分布。分布。见见t t分布曲线图分布曲线图 xxsxsx2023-8-8西安医学院公共卫生系图图5.1 自由度为自由度为1、5、的的t分布分布2023-8-8西安医学院公共卫生系t t分布的特征:(与标准正态分布相比?)分布的特征:(与标准正态分布相比?)以以0 0为中心,左右对称的单峰分布;为中心,左右对称的单峰分布;t t分布是一簇曲线,形态变化与分布是一簇曲线,形态变化与n n(即自由度)大(即自
10、由度)大小有关。自由度小有关。自由度越小,越小,t t分布曲线越低平;自分布曲线越低平;自由度由度越大,越大,t t分布曲线越接近标准正态分布曲分布曲线越接近标准正态分布曲线。线。t t分布峰部较矮,尾部翘得较高,说明远侧的分布峰部较矮,尾部翘得较高,说明远侧的t t值值的个数相对较多,即尾部面积(概率的个数相对较多,即尾部面积(概率P P)较大。)较大。自由度自由度越小这种情况越明显,越小这种情况越明显,渐大时,渐大时,t t分分布渐逼近标准正态分布;当布渐逼近标准正态分布;当=时,时,t t分布就成分布就成为标准正态分布了。为标准正态分布了。附表附表2 2,t t界值表界值表 2023-8
11、-8西安医学院公共卫生系3.3.未知且未知且n n小时,某自由度的小时,某自由度的t t曲线下有曲线下有95%95%的的t t值值在在 之间,即:之间,即:,2/05.0t95.0)(,2/05.0,2/05.0tttP95.0)/)(,2/05.0,2/05.0tsxtPx95.0)(,2/05.0,2/05.0 xxstxstxP故总体均数故总体均数的的95%95%可信区间为可信区间为 xstx,2/05.0 xstx,2/05.02023-8-8西安医学院公共卫生系例例5.1 5.1 对某人群随机抽取对某人群随机抽取2020人,用某批号人,用某批号的结核菌素作皮试,平均浸润直径为的结核菌
12、素作皮试,平均浸润直径为10.9cm10.9cm,标准差为,标准差为3.86cm3.86cm。问这批结。问这批结核菌素在该人群中使用时,皮试的平均核菌素在该人群中使用时,皮试的平均浸润直径的浸润直径的95%95%可信区间是多少?可信区间是多少?2023-8-8西安医学院公共卫生系总体均数总体均数的单侧(的单侧(1-1-)置信区间为:)置信区间为:xstx,05.0 xstx,05.0总体均数的总体均数的95%可信区间的含义可信区间的含义:该区间包含总体均数该区间包含总体均数的概率为的概率为95%2023-8-8西安医学院公共卫生系总体率可信区间的计算总体率可信区间的计算1.1.查表法:查表法:
13、n50n50,特别是,特别是p p接近接近0 0或或100%100%时,可查时,可查附表附表6 6百分率的置信区间表。百分率的置信区间表。2.2.正态近似法正态近似法*:当当n较大且较大且np和和n(1-p)均大均大于于5 5时,二项分布接近正态分布,则时,二项分布接近正态分布,则总体率的双总体率的双侧(侧(1-1-)可信区间为)可信区间为:P /2Sp2023-8-8西安医学院公共卫生系 抽样误差及其大小抽样误差及其大小 t t分布的特征分布的特征 总体均数可信区间的计算总体均数可信区间的计算 总体率可信区间的计算总体率可信区间的计算 可信区间的涵义可信区间的涵义 小结小结2023-8-8西
14、安医学院公共卫生系假设检验假设检验 亦称显著性检验:亦称显著性检验:是统计推断的另一个重要内容。是统计推断的另一个重要内容。其目的是比较总体参数之间有无差别。其目的是比较总体参数之间有无差别。2023-8-8西安医学院公共卫生系2023-8-82023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系 先假定该山区所有男子脉搏数数值组成一个总体,先假定该山区所有男子脉搏数数值组成一个总体,其总体均数和标准差均为未知数,分别以其总体均数和标准差均为未知数,分别以 、表示。表示。若假设该山区男子的脉搏数与一般地区的男子相若假设该山区男子的脉搏数与一般地区的男子相同,即属于同一总体,同
15、,即属于同一总体,7272,所测量的,所测量的3030名男子的名男子的平均脉搏数(样本均数)之所以不恰好等于平均脉搏数(样本均数)之所以不恰好等于7272次分,次分,是由于抽样误差所致。是由于抽样误差所致。2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系 如果上述假设成立,则理论上讲,如果上述假设成立,则理论上讲,样本均数应在总体均数(样本均数应在总体均数(7272)的附近,)的附近,远离总体均数的可能性很小。远离总体均数的可能性很小。如果将样本均数变换为如果将样本均数变换为t t值,则值,则t t值应在值应在0 0附近,远离附近,远离0 0的可能性很小。的可能性很小。
16、如果如果t t值远离值远离0 0,可认为上述假设不成立,拒绝,可认为上述假设不成立,拒绝上述假设。则认为两均数之间存在本质差异。上述假设。则认为两均数之间存在本质差异。2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系假设检验的一般步骤假设检验的一般步骤 建立假设和确定检验水准建立假设和确定检验水准 选定检验方法和计算检验统计量选定检验方法和计算检验统计量确定确定P P值和做出统计推断结论值和做出统计推断结论返回返回2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系假设:假设:H H0 0(检验假设或无效假设)(检验假设或无效假设)1 1=2 2 H
17、 H1 1(备择假设)(备择假设)1 12 2或或1 12 2 (H (H0 0是根据推断目的,从反证法的思想提出的是根据推断目的,从反证法的思想提出的 H H1 1是与是与H H0 0相联系的对立的假设相联系的对立的假设)建立假设建立假设2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系检验水准又称显著性水准,检验水准又称显著性水准,用用表示表示 是预先规定的概率值,一般取是预先规定的概率值,一般取0.050.05,但也并非一,但也并非一成不变,要根据不同的研究目的而定。成不变,要根据不同的研究目的而定。一般一般,可提高可靠性;,可提高可靠性;,有利于发现研,有利于发现
18、研究总体可能存在的差异,但可靠性降低。究总体可能存在的差异,但可靠性降低。确定检验水准确定检验水准 假设检验包括单侧检验和双侧检验两种情况假设检验包括单侧检验和双侧检验两种情况 当根据专业知识已知两总体的参数中甲肯定不会小当根据专业知识已知两总体的参数中甲肯定不会小于乙,或甲肯定不会大于乙时,可考虑用单侧检验,于乙,或甲肯定不会大于乙时,可考虑用单侧检验,否则,宜用双侧检验。否则,宜用双侧检验。返回返回2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系 由计算的统计量(由计算的统计量(t t值或值或u u值等)查相应的界值等)查相应的界值表,求值表,求P P值。将值。将P
19、 P与与比较:比较:当当PP时,按所取时,按所取拒绝拒绝H H0 0,接受,接受H H1 1;当当P P时,接受时,接受H H0 0,拒绝,拒绝H H1 1。P P的含义的含义:可以看做是:可以看做是H H0 0成立的概率成立的概率。2023-8-8西安医学院公共卫生系2023-8-8西安医学院公共卫生系*注意:假设检验的结论是具有概率性注意:假设检验的结论是具有概率性的,不论是拒绝的,不论是拒绝H H0 0或不拒绝或不拒绝H H0 0,都有可,都有可能发生错误,即第一类错误或二类错误。能发生错误,即第一类错误或二类错误。后面内容直接删除就行资料可以编辑修改使用资料可以编辑修改使用资料仅供参考,实际情况实际分析主要经营:课件设计,文档制作,网络软件设计、图文设计制作、发布广告等秉着以优质的服务对待每一位客户,做到让客户满意!致力于数据挖掘,合同简历、论文写作、PPT设计、计划书、策划案、学习课件、各类模板等方方面面,打造全网一站式需求The user can demonstrate on a projector or computer,or print the presentation and make it into a film to be used in a wider field