1、1 1pptppt课件课件 第六章第六章 参数估计与假设检验参数估计与假设检验2 2pptppt课件课件本章开始学习统计推断本章开始学习统计推断(statistical inference)方法,方法,内容涉及参数估计和假设检验的基本概念和原理。内容涉及参数估计和假设检验的基本概念和原理。3 3pptppt课件课件一、抽样误差一、抽样误差在医学研究中,绝大多数情况是由样本信息推断在医学研究中,绝大多数情况是由样本信息推断总体特征。由于个体存在差异,因此通过样本推总体特征。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数往往不论总体时会存在一定的误差,如样本均数往往不等于总体
2、均数,这种由抽样造成的样本统计量与等于总体均数,这种由抽样造成的样本统计量与总体参数的差异称为总体参数的差异称为抽样误差抽样误差(sampling error)。第一节第一节 参数估计参数估计4 4pptppt课件课件(一)均数的标准误(一)均数的标准误统计学中为了区别个体观察值之间变异的标准差统计学中为了区别个体观察值之间变异的标准差与反映样本均数之间变异的标准差,将后者称为与反映样本均数之间变异的标准差,将后者称为均数的标准误均数的标准误(standard error of the mean)。显然,。显然,均数的标准误小于原始测量值的标准差,均数的均数的标准误小于原始测量值的标准差,均数
3、的标准误越小说明估计越精确,因此可以用均数的标准误越小说明估计越精确,因此可以用均数的标准误表示均数抽样误差的大小。标准误表示均数抽样误差的大小。5 5pptppt课件课件均数的标准误用符号表示,计算公式为:均数的标准误用符号表示,计算公式为:在样本含量一定的情况下,均数的标准误与标准在样本含量一定的情况下,均数的标准误与标准差成正比,均数的标准误与样本含量的平方根成差成正比,均数的标准误与样本含量的平方根成反比,说明在同一总体中随机抽样,样本含量越反比,说明在同一总体中随机抽样,样本含量越大,均数的标准误越小。均数的标准误反映了样大,均数的标准误越小。均数的标准误反映了样本均数间的离散程度,
4、也反映了样本均数与总体本均数间的离散程度,也反映了样本均数与总体均数的差异。均数的差异。nX6 6pptppt课件课件实际中,总体标准差往往未知,因而通常用样本实际中,总体标准差往往未知,因而通常用样本标准差代替,求得样本均数标准误的估计值,计标准差代替,求得样本均数标准误的估计值,计算公式为:算公式为:例例6-1 在某地随机抽查成年男子在某地随机抽查成年男子140人,得红细胞均数人,得红细胞均数 ,标准,标准差差 ,试计算其标准误。,试计算其标准误。按公式计算得:按公式计算得:nSSX120.380.032(10/L)140XSSn77.4X38.0S7 7pptppt课件课件(二)率的标准
5、误(二)率的标准误样本率的标准差也称为样本率的标准差也称为率的标准误率的标准误(standard error of rate),可用来描述样本率抽样误差的大,可用来描述样本率抽样误差的大小。率的标准误越小,则率的抽样误差越小,率小。率的标准误越小,则率的抽样误差越小,率的标准误越大,则率的抽样误差越大。公式为:的标准误越大,则率的抽样误差越大。公式为:在一般情况下,总体率往往是未知的,此时可用在一般情况下,总体率往往是未知的,此时可用样本率来代替总体率,其估计值为:样本率来代替总体率,其估计值为:(1)pn(1)pppSn8 8pptppt课件课件点估计点估计:是使用单一的数值直接作为总体参数
6、的是使用单一的数值直接作为总体参数的估计值,如用估计相应的,用估计相应的。该法估计值,如用估计相应的,用估计相应的。该法表达简单,但未考虑抽样误差的影响,无法评价表达简单,但未考虑抽样误差的影响,无法评价参数估计的准确程度。参数估计的准确程度。区间估计区间估计(interval estimation)是指按预先给定的是指按预先给定的概率,计算出一个区间,使它能够包含未知的总概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率称为可信度,计算得到体均数。事先给定的概率称为可信度,计算得到的区间称为的区间称为可信区间可信区间(confidence interval,CI)。9 9ppt
7、ppt课件课件(一)(一)已知已知Xz/n95.096.1/96.1nXP95.096.196.1nXnXP)96.1,96.1(XXXX),(2/2/XXuXuX一般情况一般情况其中其中 为标准正态分布的双侧界值。为标准正态分布的双侧界值。2/z 95%可信区间:可信区间:三、总体均数的区间估计三、总体均数的区间估计1010pptppt课件课件(二)(二)未知未知 通常未知,这时可以用其估计量通常未知,这时可以用其估计量S 代替,但代替,但 已不再服从标准正态分布,而是服从已不再服从标准正态分布,而是服从著名的著名的t 分布。分布。)/()(nSX 图图6-1 不同自由度的不同自由度的 t
8、分布图分布图 Confidence intervalWilliam Gosset1111pptppt课件课件可信区间的计算:原理与前完全相同,仅仅是两可信区间的计算:原理与前完全相同,仅仅是两侧概率的界值有些差别。即侧概率的界值有些差别。即需要注意:在小样本情况下,应用这一公式的条需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本下可以用件是原始变量服从正态分布。在大样本下可以用 替换替换 。2/z1)/()(2/)(2/tnSXtP).()(2/)(2/XXStXStX,可信区间:可信区间:2()/tConfidence interval1212pptppt课件课件
9、例例6-2 某医生测得某医生测得2525名动脉粥样硬化患者血浆纤维名动脉粥样硬化患者血浆纤维蛋白原含量的均数为蛋白原含量的均数为3.32 g/L,标准差为标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。可信区间。下限:下限:上限:上限:23 322 064 0 57253 09(g/L)/,XXtS./.23 322 064 0 57253 56,(g/L)/XXtS./.Confidence interval1313pptppt课件课件例例6-3 试计算例试计算例6-1中该地成年男子红细胞总体均数中该地成年男子红细胞
10、总体均数的的95%可信区间。可信区间。本例属于大样本,可采用正态近似的方法计算本例属于大样本,可采用正态近似的方法计算可信区间。因为可信区间。因为 ,则,则95%可信可信区间为:区间为:4 770 38140,X.S.n1224 77 1 96 0 381404 7110(L)/XXzS././1224 771 96 0 381404 8310(L)/XXzS././下限:下限:上限:上限:Confidence interval1414pptppt课件课件单侧可信区间:前面涉及的都是双侧可信区间。单侧可信区间:前面涉及的都是双侧可信区间。但有些情况下,我们所关心的仅仅是单侧的可信但有些情况下,
11、我们所关心的仅仅是单侧的可信限。单侧可信区间与双侧可信区间的计算公式基限。单侧可信区间与双侧可信区间的计算公式基本相同,只需将公式中的抽样分布的双侧界值换本相同,只需将公式中的抽样分布的双侧界值换成单侧界值,同时只取下限或上限。成单侧界值,同时只取下限或上限。,上限XCIXtS,下限XCIXtSConfidence interval1515pptppt课件课件实际中,有时需要计算两个总体均数差值的可信实际中,有时需要计算两个总体均数差值的可信区间,例如通过计算两种降压药物平均降压的差区间,例如通过计算两种降压药物平均降压的差值比较两种药物的差别,其双侧值比较两种药物的差别,其双侧 可信可信区间
12、的计算公式为区间的计算公式为其中,其中,为自由度,为自由度,为两样本均数之为两样本均数之差的标准误。差的标准误。100(1)%1212/2,()XXXXtS122nn12XXS四、两总体均数差的区间估计四、两总体均数差的区间估计1616pptppt课件课件当两总体方差相同时当两总体方差相同时 ,其中其中 为两样本的合并方差。当两样本的样本含量为两样本的合并方差。当两样本的样本含量均较大时,上述计算可信区间中的均较大时,上述计算可信区间中的 可用相应的可用相应的 代替,代替,而且无论两总体的方差是否相同,有而且无论两总体的方差是否相同,有1221211cXXSSnn222112212(1)(1)
13、2cnSnSSnn2cS2,t2z12221212XXSSSnnConfidence interval1717pptppt课件课件例例6-4 评价复方缬沙坦胶囊与缬沙坦胶囊对照治疗评价复方缬沙坦胶囊与缬沙坦胶囊对照治疗轻中度高血压的有效性,将轻中度高血压的有效性,将123名患者随机分为两名患者随机分为两组,其中试验组和对照组分别为组,其中试验组和对照组分别为54例和例和48例。经例。经六周治疗后测量收缩压,试验组平均下降六周治疗后测量收缩压,试验组平均下降15.77 mmHg,标准差为,标准差为13.17mmHg;对照组平均下降;对照组平均下降9.53mmHg,标准差为,标准差为13.55mm
14、Hg。试估计两组。试估计两组收缩压平均下降差值的收缩压平均下降差值的95%可信区间。可信区间。Confidence interval1818pptppt课件课件由公式计算:由公式计算:222(54 1)13.17(48 1)13.55178.22154482cS1211178.2212.64835448XXS1212/2,()(15.77 13.17)1.984 2.64830.99XXXXtS1212/2,()(15.77 13.17)1.984 2.648311.49XXXXtS下限下限:上限上限:1919pptppt课件课件五、总体率的区间估计五、总体率的区间估计 1.样本率的区间估计:
15、利用二项分布可估计其总样本率的区间估计:利用二项分布可估计其总体率体率 可信区间,一般取可信区间,一般取 。对于。对于 ,且且 接近于接近于0或或1时,可直接查附表时,可直接查附表6百分率的可信百分率的可信区间表得到其总体率的可信区间。区间表得到其总体率的可信区间。例例6-5 2003年年46月某医院重症监护病房收治重症月某医院重症监护病房收治重症SARS患者患者38人,其中死亡人,其中死亡14人,求人,求SARS病死率病死率的的95%可信区间。(查附表可信区间。(查附表6,95%的可信区间为的可信区间为22%54%)。)。0.0550n 12020pptppt课件课件 2.当当 较大,较大,
16、和和 均不太小,如均不太小,如 和和 均大于均大于5时,可利用样本时,可利用样本率近似服从正态分布的原理来估计总体率的可信区间,计算公式为率近似服从正态分布的原理来估计总体率的可信区间,计算公式为 ,例例6-6 某区疾病预防控制中心某区疾病预防控制中心2002年对该乡镇年对该乡镇250名小学生进行贫血的检测,结果发现有名小学生进行贫血的检测,结果发现有86名贫血名贫血者,检出率为者,检出率为34.40%,求贫血检出率求贫血检出率95%的可信的可信区间。区间。1pnp(1)npp/2PpzS(1)pppSnn20.05 2(1)0.3440(1 0.3440)0.3440 1.96(0.2851
17、,0.4029)250ppppZSpZn2121pptppt课件课件六、两总体率差值的区间估计六、两总体率差值的区间估计在大样本情况下,可采用正态近似法对两总体率在大样本情况下,可采用正态近似法对两总体率差值进行可信区间估计,其计算公式为:差值进行可信区间估计,其计算公式为:X1和和X2分别表示两组中某事件发生的例数。分别表示两组中某事件发生的例数。1212/2()ppppzS1212121211(1)()=ppcccXXSpppnnnn,2222pptppt课件课件例例6-7 某医院口腔科医生用极固宁治疗牙本质某医院口腔科医生用极固宁治疗牙本质过敏症,以双氟涂料作对照,进行了过敏症,以双氟涂
18、料作对照,进行了1年的追踪年的追踪观察,结果见表观察,结果见表6-1所示,试估计两组有效率差所示,试估计两组有效率差别别95%的可信区间。的可信区间。表表6-1 6-1 治疗牙本质过敏症两组有效率的比较治疗牙本质过敏症两组有效率的比较组别组别总牙数总牙数有效数有效数有效率(%)试验组试验组 776179.22对照组对照组 693855.07 合计 146 9967.81Confidence interval2323pptppt课件课件 本例:本例:两组总体率差别两组总体率差别95%的可信区间为的可信区间为12126138=0.67817769cXXpnn12122()(79.2255.07)1
19、.96 0.7745(0.0894,0.3932)ppppzS12121111(1)0.6781(1 0.6781)0.07757769ppccSppnnConfidence interval2424pptppt课件课件 第二节第二节 假设检验假设检验一、基本原理一、基本原理假设检验假设检验(hypothesis test):统计推断另一重要内容,:统计推断另一重要内容,其目的是比较总体参数之间有无差别。其目的是比较总体参数之间有无差别。例例6-8 使用黑加仑油软胶囊治疗高脂血症,使用黑加仑油软胶囊治疗高脂血症,30名名患者治疗前后的血清甘油三酯检测结果的差值为患者治疗前后的血清甘油三酯检测结
20、果的差值为1.380.76(mmol/L),问治疗后血清甘油三酯是,问治疗后血清甘油三酯是否有所改善?否有所改善?2525pptppt课件课件 样样 本本治疗前后甘油三治疗前后甘油三酯的变化(差值)酯的变化(差值)d38.1 76.0 30dSnd?0d问题归纳:问题归纳:样本疗效样本疗效 药物作用药物作用+机遇机遇?d01.38d对上面问题可以作如下考虑:对上面问题可以作如下考虑:问题:问题:究竟多大能够下究竟多大能够下“有效有效”的结论?的结论?|d|0Hypothesis test2626pptppt课件课件假设的基本思想是,首先对所需要比较的总体提假设的基本思想是,首先对所需要比较的总
21、体提出一个无差别的假设,然后通过样本数据去推断出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。如是否拒绝这一假设。如 服从服从t分布分布)/()0(nSdtdHypothesis test2727pptppt课件课件除除 t 分布外,针对不同的资料还有其他各种检验统分布外,针对不同的资料还有其他各种检验统计量及分布,如计量及分布,如F分布、分布、分布等,应用这些分布分布等,应用这些分布对不同类型的数据进行假设检验的步骤相同,其差对不同类型的数据进行假设检验的步骤相同,其差别仅仅是需要计算的检验统计量不同。别仅仅是需要计算的检验统计量不同。二、基本步骤二、基本步骤(一)建立假设和确定
22、检验水准(一)建立假设和确定检验水准假设检验中,包括假设检验中,包括原假设原假设(null hypothesis)和和备择假备择假设设(alternative hypothesis)两种假设。两种假设。2Hypothesis test2828pptppt课件课件原假设符号为原假设符号为 ,指需要检验的假设,如治疗前,指需要检验的假设,如治疗前后血清甘油三酯没有差别后血清甘油三酯没有差别,即即这一假设通常与我们要验证的结论相反,是计算这一假设通常与我们要验证的结论相反,是计算检验统计量和检验统计量和P P值的依据。值的依据。备择假设符号为备择假设符号为 ,是在,是在 成立证据不足的情况成立证据不
23、足的情况下而被接受的假设,如拒绝治疗前后血清甘油三下而被接受的假设,如拒绝治疗前后血清甘油三酯相同的假设,可表示为酯相同的假设,可表示为 0:0dH0H0:1dH1H0HHypothesis test2929pptppt课件课件备择假设有双侧和单侧两种情况。双侧检验指无备择假设有双侧和单侧两种情况。双侧检验指无论是正方向还是负方向的误差,若显著地超出检论是正方向还是负方向的误差,若显著地超出检验水准则拒绝,即为双侧检验。单侧检验指仅在验水准则拒绝,即为双侧检验。单侧检验指仅在正方向或负方向误差超出规定的水准时则拒绝,正方向或负方向误差超出规定的水准时则拒绝,如治疗后血清甘油三酯下降的假设可表示
24、为如治疗后血清甘油三酯下降的假设可表示为:或或双侧检验和单侧检验应如何选择,需根据研究目双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。的和专业知识而定。0:1dH0:1dHHypothesis test3030pptppt课件课件建立检验假设的同时,还必须给出检验水准。检建立检验假设的同时,还必须给出检验水准。检验水准亦称显著性水准验水准亦称显著性水准(significant level),用,用表示,是预先规定的拒绝域的概率值,实际中一表示,是预先规定的拒绝域的概率值,实际中一般取般取 或或 。显然,值越大越容易得。显然,值越大越容易得出有差别的结论。出有差别的结论。05.00
25、1.0Hypothesis test3131pptppt课件课件(二)选择检验方法和计算检验统计量(二)选择检验方法和计算检验统计量根据资料类型、研究设计方案和统计推断的目的,根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法和计算公式。许多假设检验方选择适当的检验方法和计算公式。许多假设检验方法是以检验统计量来命名的,如法是以检验统计量来命名的,如t检验、检验、z检验、检验、F 检验和检验和 检验等。检验等。2Hypothesis test3232pptppt课件课件(三)根据(三)根据P值做出统计推断值做出统计推断查表得到检验用的临界值,然后将算得的统计查表得到检验用的临界值,
26、然后将算得的统计量与拒绝域的临界值作比较,确定量与拒绝域的临界值作比较,确定 值。如对值。如对双侧双侧 检验检验 ,则,则 ,按检验水准按检验水准 拒绝拒绝 ,接受,接受 ;若;若 ,则不能拒绝则不能拒绝 。Pt/2,|ttP0H1HP0HHypothesis testJerzy Neyman 3333pptppt课件课件 小小 结结 1.参数估计指由样本统计量估计总体参数,常用的参数估计指由样本统计量估计总体参数,常用的方法有点估计和区间估计。区间估计是指按预先方法有点估计和区间估计。区间估计是指按预先给定的可信度,计算出一个区间,使它能够包含给定的可信度,计算出一个区间,使它能够包含未知的
27、总体参数。区间越窄说明估计的准确度越未知的总体参数。区间越窄说明估计的准确度越高。高。2.反映抽样误差大小的指标是标准误。均数标准反映抽样误差大小的指标是标准误。均数标准误的估计值为误的估计值为 ;率的标准误样本估计值;率的标准误样本估计值为为 。XSSn(1)pSppn3434pptppt课件课件 3.可信区间的计算公式可以利用参数估计统计量的可信区间的计算公式可以利用参数估计统计量的抽样分布获得,即利用抽样分布获得,即利用 t 分布或分布或z分布分布计算区间两计算区间两端的可信限。单侧可信区间只需将公式中的双侧端的可信限。单侧可信区间只需将公式中的双侧界值换成单侧界值。界值换成单侧界值。4.假设检验是统计推断的另一重要内容,其目的假设检验是统计推断的另一重要内容,其目的是比较总体参数之间有无差别。基本思想:首先是比较总体参数之间有无差别。基本思想:首先对所需要比较的总体提出一个无差别的假设,然对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设,得出后通过样本数据去推断是否拒绝这一假设,得出结论的依据是结论的依据是P值。值。(梁维君梁维君 李李 康康)3535pptppt课件课件
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。