1、正态分布及其应用Normal distribution and its applications 统计学中最重要的理论分布之一 2主要内容(Content)o随机变量的概率分布o正态分布的概念及图形o正态分布的特征o正态分布曲线下面积的规律o标准正态分布o正态分布的应用o总结3随机变量o变量和随机变量o变量取值的相对频率说明了具有某个性质的观察对象出现的可能性。o随机变量n离散型:性别、血型、子女数、事故数n连续型:身高、体重4例:密度函数和分布函数o抛两枚硬币,抛两枚硬币,0.250.25AB0.25AB0.250.750.5PPPPPP两枚均正面朝上两枚均反面朝上正面反面朝上反面正面朝上至
2、少有一枚正面朝上恰好有一枚正面朝上密度函数分布函数5例:密度函数和分布函数例:密度函数和分布函数x6随机变量的概率分布o概率函数(Probability Function),或者说概率密度函数(Probability Density Function) 、密度函数。o在统计学中,我们说变量具有分布函数(Distribution Function)。用此函数的大小来说明变量取某些值的可能性。o当变量的取值包括了所有可能的取值时,分布函数为1。o当变量具备了以上两个函数之后,称它具有某种分布(Distribution)7正态分布oNormal distributiono德国数学家Gauss发现o最
3、早用于物理学、天文学oGaussian distribution8(a)(b)(d)(c)正态分布的概念及图形910正态分布的概率密度函数 o如果随机变量X的概率密度函数 则称X服从正态分布,记作XN(,2),其中, 为分布的均数, 为分布的标准差。Xf Xe22()21()2 (- X +) 11正态分布图示X0.1.2.3.4f(X)12方差相等、均数不等的正态分布图示31213均数相等、方差不等的正态分布图示21314正态分布的特征o单峰分布;高峰在均数处;o以均数为中心,均数两侧完全对称。o正态分布有两个参数(parameter),即位置参数(均数)和变异度参数(标准差)。o有些指标本
4、身不服从正态分布,但经过变换之后可以服从正态分布。o正态曲线下的面积分布有一定的规律。 15正态曲线下某一区域的面积用定积分来求:正态曲线下的面积22() /2()1F2XXXedX16正态曲线下的面积规律oX轴与正态曲线所夹面积恒等于1 。o对称区域面积相等。S(-, -X)S( +X,)S(-, -X)17正态曲线下的面积规律o对称区域面积相等。S( -x1, -x2)-x1 -x2 +x2 + x1S( -x1, -x2)= S( +x1, +x2)18正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(- , -3 )=0.0013S(
5、- , -2 )=0.0228S(- , -1 )=0.1587S(- , )=0.5S(- , +3 )=0.9987S(- , +2 )=0.9772S(- , +1 )=0.8413S(- , )=119正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 1-S( -3 , +3 )=0.00261-S( -2 , +2 )=0.04561-S( - , + )=0.317420正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4 -3 -2 - + +2 +3 S(- , -3 )=0.0013S(- , -2 )=0.0228
6、S(- , -1 )=0.1587S(- , )=0.5S(- , +3 )=0.9987S(- , +2 )=0.9772S(- , +1 )=0.6587S(- , )=121正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.5S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413 -4 -3 -2 -1 0 1 2 3 4 22正态曲线下的面积规律-3 -2 - + +2 +3 S(-, -3)=0.0013S(-, -2)=0.0228
7、S(-, -1)=0.1587S(-, -0)=0.5S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413 -3 -2 -1 0 1 2 323正态曲线下的面积规律 -3 - + +3 -2 +2 S(-3, -2)=0.0115S(-2, -1)=0.1359S(-1, )=0.3413S(-, -3)=0.0013S(-, -2)=0.0228S(-, -1)=0.1587S(-, -0)=0.524正态曲线下的面积规律-1.96+1.962.5%2.5%95%25正态曲线下的面积规律-1.64+1.645%5%90%26正态曲线下的面积规律-2.5
8、8+2.580.5%0.5%99%27正态曲线下的面积规律o正态分布的一个显著特点 其曲线下面积完全决定于以标准差为单位从点x到的离差。28231X2=-2X2X1=-1X1X3=-3X30.15870.15870.158729正态曲线下的面积规律o正态曲线下面积总和为1;o正态曲线关于均数对称;对称的区域内面积相等;o对任意正态曲线,按标准差为单位,对应的面积相等; o-1.64 +1.64内面积为90%;o-1.96 +1.96内面积为95%;o-2.58 +2.58内面积为99%。o小于-3的面积为 0.13%;o小于-2的面积为 2.28%;o小于- 的面积为15.87%。30正态分布
9、转换为标准正态分布o若 XN(,2),作变换: 则u服从标准正态分布。ou称为标准正态离差(standard normal deviate)Xu31标准正态分布o标准正态分布(standard normal distribution)是均数为0,标准差为1的正态分布。o记为N(0,1)。o标准正态分布是一条曲线。o概率密度函数:uXe221()2 (- u +) 32标准正态分布曲线下面积(u) u 0.00 -0.02 -0.04 -0.06 -0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062 0.0059 0.0055 0.0052
10、0.0049-2.00.0228 0.0217 0.0207 0.0197 0.0188-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401-0.50.3085 0.3015 0.2946 0.2877 0.2810 00.5000 0.4920 0.4840 0.4761 0.46810u33正态分布的应用估计频数分布质量控制确定临床参考值范围34总结o正态分布是描述个体变异的重要分布之一,也是统计学理论中的重要分布之
11、一;o正态分布是一簇分布,由两个参数决定:均数和标准差;o正态分布曲线下的面积是有规律的,且与标准正态分布曲线下的面积对应(以标准正态离差为单位)。35需要掌握的内容o正态分布的性质o正态曲线下面积的分布规律o参考值范围确定的原则和方法3637估计频数分布o某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。n首先计算标准离差:n查标准正态分布表: (-1.86)=0.0314n结果:估计低体重儿的比例为3.14%.u250031501.86350 38质量控制o质量控制的意义n监控日常工作、科研过程、生产过程中误差的变
12、化,分析变化的趋势是否出现异常,从而引起警觉和注意,以便分析原因,并及时采取措施。39质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+3SDM+2SD MM-2SDM-3SD40质量控制图(quality control chart)UCL (上控制限)UWL(上警戒限)CL (中心线)LWL(下警戒限)LCL (下控制限)样本编号、取样时间M+2.58SDM+1.96SD MM-1.96SDM-2.58SD41质量控制图(quality control chart) 12
13、3456789101112131415取样时间M+3SDM+2SD MM-2SDM-3SD42参考值范围(reference interval)o参考值范围又称正常值范围(normal range)。o什么是参考值范围:n是绝大多数正常人的某观察指标所在的范围。n绝大多数:90%,95%,99%等等。o确定参考值范围的意义:n用于判断正常与异常。o“正常人”的定义:n排除了影响所研究的指标的疾病和有关因素的同质的人群。43参考值范围的估计方法:正态分布法2.5%2.5%95%-1.96+1.9644参考值范围确定的原则o选定足够例数的同质的正常人作为研究对象 o控制检测误差o判断是否分组(性别
14、,年龄组) o单、双侧问题 o选择百分界值(90%,95%) o确定可疑范围45单侧与双侧参考值范围o根据医学专业知识确定!n双侧:白细胞计数,血清总胆固醇,n单侧:上限: 转氨酶,尿铅,发汞 下限: 肺活量,IQ,46正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧) 47正常人病人假阳性率假阴性率正常人与病人的数据分布重叠示意图(单侧) 48正常人病人假阳性率假阴性率病人正常人与病人的数据分布重叠示意图(双侧)49参考值范围的估计方法:百分位数法P2.5P97.550参考值范围的估计方法方法双侧 单侧下限单侧上限正态分布法百分位数法 P2.5P97.5 P5 P95对数正态
15、分布法 转换成正态分布Xu s Xu s Xu s 51红细胞计数(RBC)参考值范围o成年男性:4.05.5 (1012/L)o成年女性:3.55.0 (1012/L)o新 生 儿:6.07.0 (1012/L)52白细胞计数参考值范围o成年: 4.010.0 (109/L)o新生儿:15.020.0 (109/L)o6个月2岁: 11.012.0 (109/L)53南通大学附属医院血常规正常值范围检查项目正常值范围单位 血红蛋白(HGB) 120160g/L红细胞计数(RBC)3.55.51012/L白细胞计数(WBC)4.010.0109 /L 血小板计数(PLT)100300109 /
16、L54南通大学附属医院生化检验参考值范围检查项目正常值范围单位肌 酐(Crea)36144 mol/L尿素氮(Urea)2.17.2mmol/L谷草转氨酶(AST)45U/L谷丙转氨酶(ALT)45U/L55例:参考值范围的计算o某地调查了200名成年女子的平均血清总蛋白为73.5(g/L),标准差3.9(g/L),试估计该地成年女子血清总蛋白95的参考值范围。 由得95参考值范围: 下限: 1.96s=73.51.963.9=65.9(g/L) 上限: 1.96s=73.51.963.9=81.1(g/L) 此可作为判断该地区成年女子血清总蛋白含量正常与否的参考值。XX56参考值范围的特点o与种族有关o与年龄、性别有关o与环境、气候有关o与仪器本身有关o不同的医院,参考值范围不同