1、第四章 常用的概率分布常用的概率分布正态分布 连续型变量二项分布 离散型变量Poisson分布 离散型变量第一节 正态分布 一、一、正态分布正态分布Gauss分布分布 连续型分连续型分布布 正态正态曲线曲线是高峰位于中央是高峰位于中央(均数所在均数所在处处)、两侧逐渐降低且左右对称、不与横、两侧逐渐降低且左右对称、不与横轴相交的钟型光滑曲线。轴相交的钟型光滑曲线。二、二、正态分布正态分布的图形的图形正态分布三、三、正态分布正态分布的特征的特征1.均数处最高;2.均数为中心对称;3.正态分布的均数与中位数为同一数值;4.决定正态曲线两个参数 N(u,):位置参数:总体均数位置参数:总体均数 形状
2、形状参数:参数:总体标准差总体标准差 正态分布的特殊形式:标准正态分布N(0,1);标准正态变换(变换公式);5.曲线下的面积有一定规律。四、正态曲线下面积四、正态曲线下面积正态曲线下的面积特点 横轴上曲线下的面积为1 曲线下,横轴上对称于0的面积相等,(从-到的面积相等从到);u,已知时,进行标准正态变换再查表 u,未知时,用样本的均数和标准差代替 95%,99%的面积公式:1.医学参考值范围的估计医学参考值范围的估计定义定义:又称参考值范围,是指特定健康人群的解剖、:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包生理、生化等各种数据的波动范围。习惯上
3、是确定包括括95%95%的人的界值。的人的界值。单、双侧单、双侧:根据指标的实际用途,有的指标有上下界根据指标的实际用途,有的指标有上下界值,过高过低均属异常;某些指标过高为异常,只需值,过高过低均属异常;某些指标过高为异常,只需确定上限;某些指标过低为异常,只需确定下限。确定上限;某些指标过低为异常,只需确定下限。估计的方法估计的方法:1 1、正态分布法、正态分布法 2 2、百分位数法、百分位数法五、五、正态分布正态分布的应用的应用已知:x=119.95cm,s=4.72cm.试问:(1)估计该地7岁男童身高在110cm以下者 占该地7岁男童的百分比。(2)估计该地7岁男童身高在130cm
4、以上者占该地7岁男童的百分比。(3)估计该地7岁男童身高在107.77cm到 132.13cm之间的占该地7岁男童的百分 比。例题:某市例题:某市1982年年110名名7岁男童的身高岁男童的身高2.百分位数法 应用条件:偏态分布资料 计算公式:双侧界值:P 2.5 P 97.5 单侧 上界:P 95 单侧 下界:P 5 95医学参考值范围医学参考值范围 计算方法计算方法正态分布法正态分布法百分位数法百分位数法相相 同同 1、同质人群、同质人群 2、n50不同不同分 布 类分 布 类型型正态分布正态分布偏态分布偏态分布指标特点指标特点血红蛋白血红蛋白(X 1.96s)肺活量肺活量 X-1.645
5、s 尿铅尿铅 P5 尿铅尿铅 P95 思考题:1.正态分布曲线下,从均数u 到u+1.96的面积为;A.95%B.45%C.97.5%D.47.5%2.1976年美国8岁男孩的平均身高为146厘米,标准差为8厘米,估计在该研究中有%多少的男孩平均身高在138与154之间?又有多少在130到162之间?第二节二项分布 (binomial distribution)一、二项分布的概念 在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量 如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布就是对这类只具有两种互斥结果的离散型随
6、机事件的规律性进行描述的一种概率分布。二项试验贝努里试验 摸球试验 这种考虑只有两种可能结果的随机试验,当阳性的概率()是恒定的,且各次试验相互独立,这种试验在统计学上称为贝努里试验(Bernoulli trial)。如果进行n次贝努里试验,取得成功次数为X(X=0,1,n)的概率可用下面的二项分布概率公式来描述:式中的n为独立的贝努里试验次数,为成功的概率,(1-)为失败的概率,为在n次贝努里试验中出现成功的次数,表示在n次试验中出现X的各种组合情况,在此称为二项系数 含量为n的样本中,发生各种阳性数的概率正好为下列二项式展开的各项二、二项分布的应用条件 1各观察单位只能具有相互对立的一种结
7、果,如阳性或阴性,生存或死亡等,属于两分类资料。2已知发生某一结果(阳性)的概率为,其对立结果的概率为1-,实际工作中要求是从大量观察中获得比较稳定的数值。3n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。三、二项分布的概率四、二项分布的累计概率(1)最多有k例阳性的概率(2)最少有k例阳性的概率 五、二项分布的特点 1.二项分布图 二项分布的形状取决于和n的大小,高峰在m=np处。当p接近0.5时,图形是对称的;p离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。当n时,只要p不太靠近0或
8、1,特别是当nP和n(1P)都大于5时,二项分布近似于正态分布。二项分布=0.5时,不同n值对应的二项分布=0.3时,不同n值对应的二项分布=0.3时,不同n值对应的二项分布2.二项分布的均值与标准差=n=六、二项分布的应用 一、总体率的区间估计 二、样本率与总体率比较 三、两样本率比较 第三节Poisson分布 一、Poisson分布的概念 Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。Poisson分布为分布为很小,样本含量很小,样本含量n趋向于无穷趋向于无穷大时,二项分布的极限形式大时,二项分布的极限形式。二、Poisson分布的概率 X=1
9、,2,3=n为Poisson分布的总体均数,总体中没单位中的平均阳性数,X为单位时间或单位空间内某事件的发生数(阳性数),e为自然对数的底,约等于2.71828。Poisson分布的累计概率 最多为k次的概率 最少为k次的概率(X=0,1,2,)(X=0,1,2,)三、Poisson分布的性质1.Poisson分布是一种单参数的离散型分布,2.Poisson分布可视为二项分布的特例,率很小,n很大时;3.Poisson分布的方差2与均数相等,即2=4.Poisson分布在不大时呈偏态分布,随着的增大,迅速接近正态分布。5.一般来说,当=20时,可以认为近似正态分布,6.5.Poisson分布具
10、有可加性。Poisson分布的形状 取决于的大小。值越小,分布越偏,随着的增大,分布越趋于对称,当=20时,分布接近正态分布,当=50时,可以认为Poisson分布呈正态分布N(,),按正态分布处理。四、Poisson分布的应用条件 应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000人或更多作为单位人群,某些发病率极低的疾病要求更多。五、Poisson分布的应用 1.计算稀有事件的概率、累计概率 2.作稀有事件的总体均数的估计 3.计数资料的假设检验