1、第二节第二节 正态分布及其应用正态分布及其应用三峡大学医学院公共卫生系三峡大学医学院公共卫生系王南平王南平00.20.40.60.811.23.84.24.65.05.45.8)(XfX00.20.40.60.811.23.84.24.655.45.8)(XfX00.20.40.60.811.23.644.44.85.25.66f(X)X图图3-1 3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图某地成年男子红细胞数的分布逐渐接近正态分布示意图 一、正态分布正态分布(Normal Distribution)(Normal Distribution)正态分布曲线:正态分布曲线:高峰位于中
2、央,两侧逐渐下降、低平,左右完全对高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。称、两端不与横轴相交的钟型曲线。正态分布的函数正态分布的函数f(x)为:为:由上式可见,正态分布的图形由由上式可见,正态分布的图形由 和和 所决定,所决定,XN(,2)222)(21)(XeXf X-4-3-2-101234567123321-5-4-3-2-1012345123321正态分布曲线主要特征:正态分布曲线主要特征:1.1.以以 为中心的单峰对称分布为中心的单峰对称分布 2.2.两个参数(两个参数(,)分别决定其位置和形状)分别决定其位置和形状 3.3.曲线下面的面积分布有
3、规律曲线下面的面积分布有规律 图图3-3 3-3 三种不同均值的正态分布三种不同均值的正态分布 图图3-4 3-4 三种不同标准差的正态分布三种不同标准差的正态分布 正态曲线下的面积的计算正态曲线下的面积的计算:xeXfX ,)/(22121曲线下面积分布有规律曲线下面积分布有规律-5-4-3-2-101234596.196.158.258.2%0.99%0.95%3.68 图图3-2 3-2 正态分布曲线下的面积正态分布曲线下的面积 标准正态变换(标准正态变换(u变换)变换)Xu-=u为标准正态变量为标准正态变量或标准正态离差或标准正态离差u变换的特点:变换的特点:若若X服从正态分布,则服从
4、正态分布,则u服从服从 标准正态分布标准正态分布标准正态分布:标准正态分布:均数为均数为0、标准差为、标准差为1。记为记为 N(0,1)二、标准正态分布二、标准正态分布(Standard Normal Distribution)(Standard Normal Distribution)表中曲线下面积为表中曲线下面积为-u 的面积;即的面积;即 P(u)可以利用标准正态分布表求出与原始变量可以利用标准正态分布表求出与原始变量X X 有关的概率值。有关的概率值。1.标准正态分布:标准正态分布:求曲线下求曲线下(u1,u2)范围范围内的面积。内的面积。u 0:查表,分别求从:查表,分别求从-到到u
5、2与与 从从-到到u1的面积;的面积;两者之差为所求面积。两者之差为所求面积。u1 u2 例:例:u1=-1.50,u2=-0.311()0.0668u=2()0.3783u=则则(-1.50,-0.31)范围内的面积范围内的面积21()()0.3115Duu=-=(2)u 0:利用正态分布的对称性求曲线:利用正态分布的对称性求曲线 下从下从-到到u范围的面积。范围的面积。例:从例:从-到到u=1.76范围内的面积。范围内的面积。1.761.760.03921-0.0392=0.96080.0392 2.非标准正态分布:非标准正态分布:求曲线下任意求曲线下任意(x1,x2)范围内的面积。范围内
6、的面积。先作标准正态变换;先作标准正态变换;再查标准正态分布表求得面积。再查标准正态分布表求得面积。例:已知某年某地例:已知某年某地110名名7岁男童身高岁男童身高 ,现欲估计该现欲估计该地身高界于地身高界于116.5cm到到119.0cm范围内范围内7岁岁男童比例及男童比例及110名名7岁男童中身高界于此值岁男童中身高界于此值范围内的人数。范围内的人数。121.95cxm=4.72csm=(1)标准正态分布变换:标准正态分布变换:1116.5121.951.154.72u-=-2119.0121.950.634.72u-=-=-(2)查表得:查表得:1()(1.15)0.1251u=-=-=
7、2()(0.63)0.2643u=-=(3)求求D:21()()0.26430.12510.1392Duu=-=-=-=-=估计该地身高界于估计该地身高界于116.5116.5119.0cm119.0cm范围范围内的内的7 7岁男童比例为岁男童比例为13.92%13.92%;估计估计110110名名7 7岁男童中有岁男童中有1515名男童的身高名男童的身高界于界于116.5116.5119.0cm119.0cm范围内。范围内。11013.9215三、正态分布的应用三、正态分布的应用 1.估计频数分布估计频数分布 例:出生体重低于例:出生体重低于2500g为低体重儿。为低体重儿。若由某项研究得某
8、地婴儿出生体重均数为若由某项研究得某地婴儿出生体重均数为3200g,标准差为,标准差为350g,估计该地当年低,估计该地当年低体重儿所占的比例。体重儿所占的比例。2-3503200-2500u查表查表 ,即从,即从-到到2500的比例的比例为为2.28%,故估计该地当年低体重儿所占,故估计该地当年低体重儿所占的比例为的比例为2.28%。(2)0.0228-=-=2.制定医学参考值范围制定医学参考值范围 (Reference Value Range)3.质量控制质量控制 为了控制实验中的误为了控制实验中的误差,实验室的质量控制中,常以差,实验室的质量控制中,常以 作为上、下警戒限;以作为上、下警
9、戒限;以 作作为上、下控制限。为上、下控制限。(2s和和3s是是1.96s与与2.58s的近似值的近似值)。sx3sx2 一、基本概念一、基本概念 通常指通常指“大多数大多数”“”“正常人正常人”的解剖、生理、生的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是范围。主要目的:用于临床疾病诊断。最常用的是95%95%参考值范围。参考值范围。第三节第三节 医学参考值范围医学参考值范围 (Reference Value Range)(Reference Value Range)确定确定95%95%参考
10、值范围示意图参考值范围示意图 二、医学参考值范围的制定方法二、医学参考值范围的制定方法 (一)选择足够数量的正常人作为参照样本一)选择足够数量的正常人作为参照样本 选择参照样本必须要考虑可能影响所要制定参选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排考值范围指标的各种疾病及干扰因素,将这些人排除在外。样本含量一般要较大,如除在外。样本含量一般要较大,如n n120120。例如在制定血清谷丙转氨酶活性正常值时,例如在制定血清谷丙转氨酶活性正常值时,选取选取“正常人正常人”的条件为肝、肾、心、脑、肌肉等的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药
11、史等。同时可能需无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。要考虑性别、年龄、民族、地理位置等因素。(二)对选定的参照样本进行准确的测定(二)对选定的参照样本进行准确的测定 1.1.严格控制检测误差,包括分析仪器的灵敏度、严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等;试剂的纯度、操作技术及标准的掌握等;2.2.必须对测量条件做出统一的规定和说明。必须对测量条件做出统一的规定和说明。如:收集样本时的环境和生理条件(温度、体如:收集样本时的环境和生理条件(温度、体育活动强度、饮食、妊娠等),收集、转运和储藏育活动强度、饮食、妊娠
12、等),收集、转运和储藏样品的方法及时间有明确的规定。样品的方法及时间有明确的规定。(三)决定取单侧范围还是双侧范围值(三)决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常有些指标如白细胞数过高或过低均属异常(a)(a),故其参考值范围需要分别确定下限和上限,称作故其参考值范围需要分别确定下限和上限,称作双侧双侧。有些指标如有些指标如2424小时尿糖含量仅在过高小时尿糖含量仅在过高(b)(b)、肺活、肺活量仅在过低时为异常量仅在过低时为异常(c)(c),只需确定其上限或下限,称,只需确定其上限或下限,称作作单侧单侧参考值范围。参考值范围。(a)a)白细胞数参考值范围白细胞数参考
13、值范围(b)24(b)24小时尿糖参考值范围小时尿糖参考值范围(c)(c)肺活量参考值范围肺活量参考值范围(四)选择适当的百分范围(四)选择适当的百分范围 根据资料的性质和研究目的选择适当的百分范围。根据资料的性质和研究目的选择适当的百分范围。百分范围的不同将导致不同的假阳性率和假阴性率。百分范围的不同将导致不同的假阳性率和假阴性率。若主要目的为减少假阳性(如确诊病人)若主要目的为减少假阳性(如确诊病人)大(大(99%99%)减少假阴性(如初筛病人)减少假阴性(如初筛病人)小(小(95%95%)图图3-6 3-6 正常人和病人数据分布重叠正常人和病人数据分布重叠(五)估计参考值范围的界限(五)
14、估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。参考值范围估计主要有百分位数法和正态分布法。百分范围百分范围(%)单单 侧侧 双双 侧侧 下限下限 上限上限 下限下限 上限上限 95 95 P P5 5 P P9595 P P2.52.5 P P97.597.5 99 99 P P1 1 P P9999 P P0.50.5 P P99.599.5 表表3-2 3-2 参考值范围所对应的百分位数参考值范围所对应的百分位数 正态分布计算参考值范围公式正态分布计算参考值范围公式百分范围百分范围(%)单单 侧侧 双双 侧侧 下限下限 上限上限 下限下限 上限上限 95 95 99 9
15、9 SX65.1 SX65.1 SX33.2 SX33.2 SX96.1 SX96.1 SX58.2 SX58.2 例例3.4 3.4 某年某地正常成年男子红细胞数的均数某年某地正常成年男子红细胞数的均数为为4.784.7810101212/L/L,标准差为,标准差为0.380.3810101212/L/L,试估计,试估计该地成年男子红细胞数的该地成年男子红细胞数的95%95%参考值范围。参考值范围。该地成年男子红细胞数的该地成年男子红细胞数的95%95%参考值范围为:参考值范围为:4.045.52(1012/L)L/10(04.438.096.178.496.112 SX)L/10(52.5
16、38.096.178.496.112 SX下限:下限:上限:上限:2、百分位数法:适用于任何分布的资料,、百分位数法:适用于任何分布的资料,主要用于偏态分布资料。常用的估计公式主要用于偏态分布资料。常用的估计公式有:有:双侧双侧95%的范围:的范围:P2.5P97.5 单侧单侧95%的范围:的范围:P5或或P95甘油三酯甘油三酯频数频数累积频数累积频数累积频率(累积频率(%)0.1027274.30.40 16919631.10.70 16736357.61.00 9445772.51.30 8153885.41.60 4258092.11.90 2860896.52.20 1462298.7
17、2.50 462699.42.80 362999.83.10 3.401630100.0合合 计计630-某地某地630名名50岁岁60岁正常女性血清甘油三酯含量岁正常女性血清甘油三酯含量(mmol/L)用百分位数法,求单侧用百分位数法,求单侧95%的上限界值。的上限界值。由表可知:由表可知:L=1.90,i=0.3,f=28,n=630,fL=580,代入公式计算:,代入公式计算:即某地即某地630名名50岁岁60岁正常女性血清甘油岁正常女性血清甘油三酯三酯95%的参考值上限为的参考值上限为2.10(mmol/L)L/mmol(10.23.028580%9563090.1P95 小小 结结
18、1.1.描述一组观察值,除需要表示其平均水平外,还描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。要说明它的离散或变异的情况。2.2.衡量变异程度大小的指标有多种衡量变异程度大小的指标有多种:极差、四分位极差、四分位数间距、方差、标准差和变异系数。其中应用最多的数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。是标准差和变异系数。3.3.标准差与均数结合能够完整地描述一个正态分布标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。利用正态分布可以很容易
19、地变换化成标准正态分布。利用正态分布可以很容易地确定其数值出现在任意指定范围内的概率。确定其数值出现在任意指定范围内的概率。4.4.医学参考值范围指医学参考值范围指“正常参照人群正常参照人群”的解剖、生理、生的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异常人的界线。主要用作划分正常人与异常人的界线。5.5.医学参考值范围的制定需要按照一定步骤进行。实际中医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性
20、的比例,选择一个适当的百分范围,最常用的百分界阴性的比例,选择一个适当的百分范围,最常用的百分界限是限是95%95%。6.6.参考值范围估计的方法有多种,其中最基本的有百分位参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但料要求严格;百分位数法适合于任何分布类型的资料,但要求大样本。要求大样本。本节要求掌握的重点内容本节要求掌握的重点内容 正态分布、标准正态分布的概念。正态分布、标准正态分布的概念。正态分布图形的特点。正态分布图形的特点。正态曲线
21、下面积分布的规律。正态曲线下面积分布的规律。医学参考值及其范围的概念。医学参考值及其范围的概念。估计参考值范围的原则及方法。估计参考值范围的原则及方法。该部分需要6570分钟,可以把抽样误差补到这一部分,减轻后面的压力)第四章第四章 抽样误差与假设检验抽样误差与假设检验第一节第一节均数抽样误差与标准误均数抽样误差与标准误一、抽样误差的概念一、抽样误差的概念 由于抽样的偶然性导致的样本均数与总由于抽样的偶然性导致的样本均数与总体均数或各样本均数之间的差异。造成抽体均数或各样本均数之间的差异。造成抽样误差的本质是个体差异。样误差的本质是个体差异。数理统计推理和中心极限定理:数理统计推理和中心极限定
22、理:(1)从正态总体)从正态总体N(,2)中,随机抽取)中,随机抽取例数为例数为n的样本,样本均数也服从正态分布的样本,样本均数也服从正态分布;即使从偏态分布的总体中随机抽样,当;即使从偏态分布的总体中随机抽样,当样本含量样本含量n足够大时(足够大时(n50)也服从近似)也服从近似正态分布。正态分布。(2)从均数为)从均数为,标准差为,标准差为的正态总体抽的正态总体抽取例数为取例数为n的样本,样本均数的均数也为的样本,样本均数的均数也为,样本均数的标准差称标准误,用,样本均数的标准差称标准误,用 表示,表示,理论上理论上 可按公式计算。可按公式计算。xxnxnssx理论值理论值估计值估计值标准
23、误大小与标准差呈正比,与样本例标准误大小与标准差呈正比,与样本例数的平方根呈反比。数的平方根呈反比。标准误:是用于描述抽样误差大小的指标。标准误:是用于描述抽样误差大小的指标。例:某地抽查成年男子例:某地抽查成年男子140名,测得红细名,测得红细胞的标准差为胞的标准差为0.38(1012/L),则标准误为:,则标准误为:)L10(032.014038.0s12x/二、标准误的概念二、标准误的概念 1、反映抽样误差的大小,说明样本均、反映抽样误差的大小,说明样本均数的可靠性。通常用数的可靠性。通常用 表示。表示。xsx 2、利用标准误作总体均数的区间估计。、利用标准误作总体均数的区间估计。3、用
24、标准误作假设检验。、用标准误作假设检验。三、标准误的作用三、标准误的作用四、四、t t 分布分布(一)(一)t 分布的概念:分布的概念:t 分布即分布即 t 值的分布。值的分布。xsxt(二)(二)t 分布的特点:分布的特点:1、t 分布以分布以0为中心的对称分布;为中心的对称分布;2、t 分布是一簇曲线,其形态变化与样分布是一簇曲线,其形态变化与样本含量本含量n有关(与自由度有关);有关(与自由度有关);3、随自由度的增加、随自由度的增加t值越来越小,且逐值越来越小,且逐渐稳定,当自由度趋于无穷时,渐稳定,当自由度趋于无穷时,t=u。4、相同自由度下、相同自由度下t值越大,对应的尾侧值越大,
25、对应的尾侧面积越小,即面积越小,即p值越小,反之亦然。值越小,反之亦然。四、四、t t 分布分布(三)(三)t 分布的应用分布的应用 1、估计总体均数的可信区间;、估计总体均数的可信区间;2、作、作 t 检验。检验。四、四、t t 分布分布五、参数估计五、参数估计(一)参数估计的概念:(一)参数估计的概念:参数估计:即用样本研究的结果来推断参数估计:即用样本研究的结果来推断总体参数的过程。总体参数的过程。(二)参数估计的方法:(二)参数估计的方法:1、点值估计:直接用样本统计量代替总、点值估计:直接用样本统计量代替总体参数。体参数。2、区间估计:根据抽样误差的大小,按、区间估计:根据抽样误差的
26、大小,按一定的概率去估计总体均数的可能范围一定的概率去估计总体均数的可能范围。(一)(一)已知时,由已知时,由u分布可知,正态曲线分布可知,正态曲线下有下有95%的的u值分布在值分布在1.96之间,即:之间,即:-1.96u1.96。961961.-x.-xxxxx 96.196.1-六、总体均数的区间估计六、总体均数的区间估计(二)(二)未知,但未知,但n较大(较大(n30)时,根据)时,根据t分布的特点可知,分布的特点可知,95%的的t值分布在值分布在1.96之间,即:之间,即:-1.96t1.96。96.196.1-xsx xxsxsx96.196.1-(三)(三)未知,且未知,且n较小
27、较小(n30)时,根据时,根据t t分布的特点可知,分布的特点可知,95%的的t t值分布在值分布在 t0.05()之间,即:之间,即:-t0.05()t t t0.05()。xxss)0.05()0.05(t+x t-x )(/.)(/.2050 x2050tsxt P29例例4.2,试估计该种病人血浆纤维蛋白原,试估计该种病人血浆纤维蛋白原总体均数总体均数95%可信区间。可信区间。已知:已知:,n=25,s=0.57(g/L)计算自由度,计算自由度,=n-1=25-1=24,查查t值表,值表,得得t0.05/2(24)=2.064,代入公式算得的可信区,代入公式算得的可信区间为:间为:3.
28、322.0640.114=(3.08,3.56)(g/L)L/g32.3=x114.0=25/57.0=n=s/sxP30例例4.3,试估计例,试估计例4.1中该地成年男子红中该地成年男子红细胞总体均数细胞总体均数95%的可信区间。的可信区间。已知:已知:n=140,s=0.38(1012/L)代入公式算得的可信区间为:代入公式算得的可信区间为:4.771.960.032=(4.71,4.83)(1012/L)/L)10(77.4x12=/L)10(032.0140/38.0=n=S/S12x 本节要求掌握的重点内容本节要求掌握的重点内容 抽样误差的概念及其意义。抽样误差的概念及其意义。标准差与标准误的联系与区别。标准差与标准误的联系与区别。t分布的概念、应用及其与正态分布的联系分布的概念、应用及其与正态分布的联系与区别。与区别。参数估计的概念及方法。参数估计的概念及方法。