1、医学统计学正态分布与其应用医学统计学正态分布与其应用 正态分布在十九世纪前叶由正态分布在十九世纪前叶由高斯加以推广,所以通常称为高高斯加以推广,所以通常称为高斯分布斯分布.德莫佛德莫佛 德莫佛最早发现了二项概德莫佛最早发现了二项概率的一个近似公式,这一公式率的一个近似公式,这一公式被认为是正态分布的首次露面被认为是正态分布的首次露面.正态分布2正态分布o德国数学家Gauss发现o最早用于物理学、天文学oGaussian distributiono1889年是高尔顿o(Francis Galton,1822-1911)o创先把该曲线称作正态曲线。3不知你们是否知道街头的一种赌博活不知你们是否知道
2、街头的一种赌博活动动?用一个钉板作赌具。用一个钉板作赌具。4 也许很多人不相信,玩这种赌博游戏十有八九是要输掉的,不少人总想碰碰运气,然而中大奖的概率实在是太低了。街头赌博街头赌博下面我们来模拟这个游戏:下面我们来模拟这个游戏:5 平时,我们很少有人会去关心小球平时,我们很少有人会去关心小球下落位置的规律性,人们可能不相信下落位置的规律性,人们可能不相信它是有规律的。一旦试验次数增多并它是有规律的。一旦试验次数增多并且注意观察的话,你就会发现,最后且注意观察的话,你就会发现,最后得出的竟是一条优美的曲线。得出的竟是一条优美的曲线。高尔顿钉板试验高尔顿钉板试验6高高尔尔顿顿钉钉板板试试验验这条曲
3、线就近似我们将要介绍这条曲线就近似我们将要介绍的正态分布的密度曲线。的正态分布的密度曲线。7o其一,医学研究中的某些观察指标服从或近似服从正态分布;o其二,很多统计方法是建立在正态分布的基础之上的;o其三,很多其他分布的极限为正态分布。正态分布8身高的分布(a)(b)(d)(c)9正态分布的概率密度函数 o如果随机变量X的概率密度函数o o 则称X服从正态分布,记作XN(,2),其中,为分布的均数,为分布的标准差。Xf Xe22()21()2 (e表示常数2.71828,-X+)10正态分布图示x0.1.2.3.4f(x)11方差相等、均数不等的正态分布图示31212均数相等、方差不等的正态分
4、布图示21313不同均数、方差正态分布图示14正态分布的特征o正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。o高峰在均数处;o均数两侧完全对称。o正态曲线下的面积分布有一定的规律。o 昆明癫痫病专科医院o 昆明治疗癫痫病o 昆明癫痫病专科医院o 昆明癫痫病医院15正态曲线下的面积规律oX轴及正态曲线所夹面积恒等于1。o对称区域面积相等。S(-,-X)S(X,)S(-,-X)16正态曲线下的面积规律o对称区域面积相等。S(-x1,-x2)-x1 -x2 x2 x1S(x1,x2)=S(-x2,-x1)17正态曲线下的面积规律 -4 -3 -2 -1 0 1
5、2 3 4-3 -2 -+2 +3 S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.6587S(-,)=118正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4-3 -2 -+2 +3 1-S(-3,+3)=0.00261-S(-2,+2)=0.04561-S(-,+)=0.317419正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4-3 -2 -+2 +3 S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1
6、587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.6587S(-,)=120正态曲线下的面积规律-3 -2 -+2 +3 S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,-0)=0.5S(-3,-2)=0.0215S(-2,-1)=0.1359S(-1,)=0.3413 -4 -3 -2 -1 0 1 2 3 4 21正态曲线下的面积规律 -3 -+3 -2 +2 S(-3,-2)=0.0215S(-2,-1)=0.1359S(-1,)=0.3413S(-,-3)=0.0013S(-,-2)=0.02
7、28S(-,-1)=0.1587S(-,-0)=0.522正态曲线下的面积规律-1.96+1.962.5%2.5%95%23正态曲线下的面积规律-1.64+1.645%5%90%24正态曲线下的面积规律-2.58+2.580.5%0.5%99%25正态曲线下的面积规律o正态曲线下面积总和为1;o正态曲线关于均数对称;对称的区域内面积相等;o对任意正态曲线,按标准差为单位,对应的面积相等;o-1.64+1.64内面积为90%;o-1.96+1.96内面积为95%;o-2.58+2.58内面积为99%。26标准正态分布o标准正态分布(standard normal distribution)是均数
8、为0,标准差为1的正态分布。o记为N(0,1)。o标准正态分布是一条曲线。o概率密度函数:uXe221()2 (-u+)27正态分布转换为标准正态分布o若 XN(,2),作变换:o 则u服从标准正态分布。ou称为标准正态离差(standard normal deviate)Xu28 实际应用中,经u变换后,就可把求解任意一个正态分布曲线下面积的问题,转化成标准正态分布曲线下相应的面积问题。正态分布转换为标准正态分布29标准正态分布曲线下面积(u)u 0.00-0.02-0.04-0.06-0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062
9、0.0059 0.0055 0.0052 0.0049-2.00.0228 0.0217 0.0207 0.0197 0.0188-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401-0.50.3085 0.3015 0.2946 0.2877 0.2810 00.5000 0.4920 0.4840 0.4761 0.46810u30总结总结o正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之一;o正态
10、分布是一簇分布,由两个参数决定:均数和标准差;o正态分布曲线下的面积是有规律的,且及标准正态分布曲线下的面积对应(以标准正态离差为单位)。31正态分布的应用o估计频数分布o质量控制o确定临床参考值范围32 正态变量正态变量x x转化为标准正态变量转化为标准正态变量u u,(公式,(公式 )再用)再用u u值查表,得所求区间面积值查表,得所求区间面积占总面积的比例。占总面积的比例。Xu估计频数分布33o某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。o首先计算标准离差:o查标准正态分布表:(-1.86)=0.0314o
11、结果:估计低体重儿的比例为3.14%.u250031501.86350 34o例 已知某市120名岁男童身高均数为=142.67cm,标准差为s=6.00cm。设该资料服从正态分布,试求 该地12岁男童身高在132cm以下者占该地12岁男童总数的比例,分别求 1s、1.96s和 2.58s范围内12岁男童占该组儿童总数的实际百分数,并及理论百分数比较。XXX估计频数分布35o首先计算标准离差:o查标准正态分布表:(-1.78)=0.0375(3.75)o结果:该地12岁男童身高在132cm以下者,估计约占3.75。78.100.667.14200.132u估计频数分布36估计频数分布37质量控
12、制o质量控制的意义o监控日常工作、科研过程、生产过程中误差的变化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施。38质量控制图(quality control chart)UCL(上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL(下控制限)样本编号、取样时间M+3SDM+2SD MM-2SDM-3SD39质量控制图(quality control chart)UCL(上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL(下控制限)样本编号、取样时间M+2.58SDM+1.96SD MM-1.96SDM-2.58SD40质量控制
13、图(quality control chart)123456789101112131415取样时间取样时间M+3SDM+2SD MM-2SDM-3SD41参考值范围(reference interval)o参考值范围又称正常值范围(normal range)。o什么是参考值范围:o是绝大多数正常人的某观察指标所在的范围。o绝大多数:90%,95%,99%等等。o确定参考值范围的意义:o用于判断正常及异常。o“正常人”的定义:o排除了影响所研究的指标的疾病和有关因素的同质的人群。42参考值范围确定的原则o选定同质的正常人作为研究对象 o控制检测误差o判断是否分组(性别,年龄组)o单、双侧问题 o
14、选择百分界值(90%,95%)o确定可疑范围43单侧及双侧参考值范围o根据医学专业知识确定!o双侧:白细胞计数,血清总胆固醇,o单侧:上限:转氨酶,尿铅,发汞 o 下限:肺活量,IQ,单侧下限单侧下限-过低异常过低异常 单侧上限单侧上限-过高异常过高异常 双侧双侧-过高、过低均异常过高、过低均异常 单侧下限单侧下限异常异常正常正常单侧上限单侧上限异常异常正常正常异常异常正常正常双侧下限双侧下限双侧上限双侧上限异常异常44正常人病人假阳性率假阴性率正常人及病人的数据分布重叠示意图(单侧)45正常人病人假阳性率假阴性率正常人及病人的数据分布重叠示意图(单侧)46正常人病人假阳性率假阴性率病人正常人
15、及病人的数据分布重叠示意图(双侧)47参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 P2.5P97.5 P5 P95Xus/2 Xu s Xu s 48标准正态分布的标准正态分布的u界值表界值表参考值范围的估计方法49例题o例例 某地抽查了样本含量较大的部分成年男某地抽查了样本含量较大的部分成年男女的红细胞数,数据见表,试制定临床参女的红细胞数,数据见表,试制定临床参考值范围。考值范围。50X例题51 因正常成年男、女红细胞数有差别,故需分别制定男、女红细胞数参考值范围红细胞数呈正态分布,红细胞数过高过低都不正常。因此制定双侧95%参考值范围。52(5.00-1.960.25,5.00+1.960.25)=(4.51,5.49)故该地正常成年男子红细胞数95%参考值范围可制定为 (4.51,5.49)1012/L53(4.50-1.960.22,4.50+1.960.22)=(4.07,4.93)故该地正常成年女子红细胞数95%参考值范围可制定为(4.07,4.93)1012/L5455频数表资料百分位数计算公式频数表资料百分位数计算公式:lxxfx%nfiLPfx为为Px所在组频数所在组频数i为组距为组距fl 为为小于小于L各组段各组段的累计的累计频数频数56kg/mol.%P88122129523916211955758