1、 第四章第四章 常用概率分布常用概率分布公卫学院 邹焰 常用的概率分布很多,贯穿了整个统计学,常用的概率分布很多,贯穿了整个统计学,是统计学研究的关键问题。是统计学研究的关键问题。 随机变量的性质取决于它的分布规律。随机变量的性质取决于它的分布规律。第一节第一节 二项分布二项分布一、二项分布的概念与特征一、二项分布的概念与特征(一)(一)二项分布的概念二项分布的概念1. 每次实验是相互独立的每次实验是相互独立的2. 每次实验只有互相对立的一种结果每次实验只有互相对立的一种结果3. 每次实验二种互相对立的结果的概率是固定的每次实验二种互相对立的结果的概率是固定的。二项分布记作),B(n6123!
2、 3:1! 0121!例)()(!为阶乘,为得到这种结果的概率次数,为得到其中一种结果的为总例数,nnnnXn二项分布的概率函数二项分布的概率函数23)1 (223)2()1 ()(236314CPnnCXPPXXX例有效的概率是多少?例,方法治疗头痛患者。某医生用此有效的概率为有效就是无效,每一例结果不是用针灸治疗头痛,假定)(例936. 0064. 01)0(1) 1(064. 034 . 006 . 01)0(11231123!)03(! 0! 30303)1 (003)0(6 . 00311321036 . 01-46424PXPPCCPXnP效的概率多大?例以上有例及例的概率各多大?
3、例和例、例、例数为例,有效,随机治疗中如果例)(例各种可能结果出现的概率合计为各种可能结果出现的概率合计为1 1。(二)二项分布的特征(二)二项分布的特征1、 二项分布的图形特征二项分布的图形特征越大,分布越对称,分布越对称越接近n5 . 02、 二项分布的均数和标准差二项分布的均数和标准差pp的总体均数发生率npp)1(的总体标准差发生率n的总体均数发生数X)1(Xn的总体标准差发生数二、二项分布的应用二、二项分布的应用1 1、概率估计、概率估计 例例4-54-5(P66P66) 如果某地钩虫感染率为如果某地钩虫感染率为13%13%,随机观察当,随机观察当地地150150人,其中有人,其中有
4、1010人感染钩虫的概率有多大?人感染钩虫的概率有多大?0055. 014087. 01013. 0)!10150( !10!150)10(XP 随机抽查当地随机抽查当地150150人中有人中有1010人感染钩虫的概率为人感染钩虫的概率为0.00550.0055。2 2、累积概率计算、累积概率计算二项分布出现阳性次数最多为二项分布出现阳性次数最多为k次的概率:次的概率: 二项分布出现阳性次数至少为二项分布出现阳性次数至少为k次的概率:次的概率: 二项分布出现阳性次数至少为二项分布出现阳性次数至少为k次至至多为次至至多为K次的概率(次的概率(kK):):XnXKkXKkXnXnXPKXkP)1
5、()!( !)()( 例例4-64-6(P67P67) 某地钩虫感染率为某地钩虫感染率为13%13%,随机抽查当,随机抽查当地地150150人,其中至多有人,其中至多有2 2名感染钩虫的概率有多大?至少名感染钩虫的概率有多大?至少有有2 2名感染钩虫的概率有多大?至少有名感染钩虫的概率有多大?至少有2020名感染钩虫的概名感染钩虫的概率有多大?率有多大?至多有至多有2名感染钩虫的概率为:名感染钩虫的概率为:至少有至少有2名感染钩虫的概率为:名感染钩虫的概率为:改错11090. 11047. 81) 1()0(1)13. 01 (13. 0)!150( !150)()2(810150215015
6、02XPXPXXXPXPXXXX改错至少有至少有2020名感染钩虫的概率为:名感染钩虫的概率为:。染钩虫的概率为名感,至少有名感染钩虫的概率约为,至少有名感染钩虫的概率是人中,至多有即随机抽查该地4880. 020121031. 2215070.487975第二节第二节 PoissonPoisson分布分布一、一、PoissonPoisson分布的概念分布的概念 PoissonPoisson分布分布是一种离散型分布,用以描述单是一种离散型分布,用以描述单位时间、空间、面积等的罕见事件发生次数的概率位时间、空间、面积等的罕见事件发生次数的概率分布。分布。 PoissonPoisson分布的前提条
7、件是事件发生的概率分布的前提条件是事件发生的概率不变,每个事件发生与否是独立的。不变,每个事件发生与否是独立的。 二、二、PoissonPoisson分布的特征分布的特征 分布的总体均数为件的发生次数为观察单位内某稀有事其概率函数为oisson!)(PnXXeXPX。一个,故记作有分布的参数只分布,由于的概率分布,即)发生次数或接近于或描述罕见事件()P(oissonoisson101PP P68 P68 例:某地例:某地2020年间共出生肢短畸形儿年间共出生肢短畸形儿1010名(假名(假设年出生人数大致相同),则平均每年出生肢短畸形儿设年出生人数大致相同),则平均每年出生肢短畸形儿0.50.
8、5名。名。607. 0! 05 . 071828. 2)0(!)(.50201005 . 0PXeXPX观察单位为年即各种可能结果出现的概率合计为各种可能结果出现的概率合计为1 1。性分布的观察结果有可加)(方差相等,均为分布的总体均数与总体)(分布特性:oissonoissonPoissonP2P1三、三、PoissonPoisson分布的应用分布的应用个的概率。于估计该培养皿菌落数等的培养皿进行培养,试个,今用为的培养皿中平均菌落数以往实验显示某例31006100)67(7422cmcmP1、概率估计、概率估计。个的概率为该培养皿菌落数等于089. 03089. 0! 36)3(636eX
9、P。为人患脑血管疾病的概率名居民中有调查该地有多大?人患脑血管疾病的概率名居民中有那么调查该地万,病的患病率为如果某地居民脑血管疾例%1 .2521000251. 0! 25 . 1)2(5 . 10015. 010002100010/150846925 . 1eXPnP 2、累积概率计算、累积概率计算稀有事件发生次数至多为稀有事件发生次数至多为k次的概率为:次的概率为: 稀有事件发生次数至少为稀有事件发生次数至少为k次的概率为:次的概率为: 个的概率。个的概率,大于菌落数小于试估计每一个培养皿中个,为的培养皿中平均菌落数实验显示某例136100942cm6个的概率为:该培养皿中菌落数大于1个
10、的概率为:该培养皿中菌落数小于3。个的概率是,大于个的概率是该培养皿中菌落数小于983. 01062. 035 . 10015. 01000n有多大?人患脑血管疾病的概率多大?至少有有人患脑血管疾病的概率名居民中至多有那么调查该地万,病的患病率为如果某地居民脑血管疾例32100010/150104。为人患脑血管疾病的概率至少有为人患脑血管疾病的概率名居民中至多有调查该地191. 03,809. 021000第三节第三节 正态分布正态分布一、一、 正态分布的概念正态分布的概念 是连续性变量的一种分布。是连续性变量的一种分布。称为正态分布密度函数)(Xf)表示。,(用横轴相交的光滑曲线。全对称、不
11、与两侧逐渐降低且左右完中央(均数所在处)、)曲线是一条高峰位于正态分布(2Nondistributinormal决定形状)(决定横轴上位置)()曲线下面积为(处最高)在横轴上(为中心,左右对称)以(正态分布的特点:541321二、二、 正态概率密度曲线下面积正态概率密度曲线下面积1、一个共同的规律,正态曲线下面积恒定、一个共同的规律,正态曲线下面积恒定2 2、Z Z变换与标准正态分布变换与标准正态分布分布。分布或)表示,简称(标准正态分布用uZ,10N数。标准正态分布的分布函称为,面积,记作值左侧标准正态曲线下负值时取不同,表内所列数据表示的附表线下面积分布表见积,其曲计算出曲线下对应的面对正
12、态曲线用微积分可Z)(Z)(Z1465ZP1.460.631.040.101.6452.135内的概率。取值在区间态分布,试估计的正、标准差为服从均数为已知)(例96. 1XX72P1150250. 0)96. 1(0250. 0)96. 1 (查附表查附表1 1,得:,得:。区间的概率为,或表示为。率为内的概取值在区间即95. 0)96. 196. 1(95. 096. 1X 例例5-12(P72) 5-12(P72) 某地某地19861986年年120120名名8 8岁男孩身高均数为岁男孩身高均数为123.02cm123.02cm,标,标准差为准差为4.79cm4.79cm,试估计,试估计
13、:(1):(1)该地该地8 8岁男孩身高在岁男孩身高在130cm130cm以上者占该地以上者占该地8 8岁男孩总数的百分比;岁男孩总数的百分比;(2)(2)身高在身高在120120128cm128cm者占该地者占该地8 8岁男孩总岁男孩总数的百分比;数的百分比;(3)(3)该地该地80%80%的男孩身高集中在哪个范围?的男孩身高集中在哪个范围?故资料属正态分布已知79. 4123.02Xs0721. 046. 11cm1301)(得:查附表以上者所占比例)估计身高在( 该地该地8 8岁男孩身高在岁男孩身高在130cm130cm以上者约占该地以上者约占该地8 8岁男孩总数岁男孩总数的的7.21%
14、7.21%。Z分布(2)(2)身高在身高在120120128cm128cm者占该地者占该地8 8岁男孩总数的百分比岁男孩总数的百分比5865. 02643. 08508. 063. 004. 18508. 01492. 0104. 1104. 11492. 004. 12643. 063. 01)()()()()()(得:查附表 该地该地8 8岁男孩身高在岁男孩身高在120120128cm128cm者约占该地者约占该地8 8岁男孩总数岁男孩总数的的58.65%58.65%。04. 179. 402.12312812863. 079. 402.12312012021zzZ分布Z分布(3)(3)该
15、地该地80%80%的男孩身高集中在哪个范围?的男孩身高集中在哪个范围?)2 .129,9 .116(79. 428. 102.12328. 128. 110. 0Z10. 01%10%80)(值得:的中左侧面积对应查附表面积即左右两侧各排除中间 该地该地80%80%的的8 8岁男孩身高集中在岁男孩身高集中在116.9116.9129.2cm129.2cm之间。之间。Z分布三、正态分布的应用三、正态分布的应用1 1、确定医学参考值范围、确定医学参考值范围 医学参考值范围医学参考值范围(reference ranges)(reference ranges)是指特是指特定的定的“正常正常”人群(排除
16、了对所研究指标有影响的疾人群(排除了对所研究指标有影响的疾病核有关因素的特定人群)的解剖、生理、生化指标病核有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在及组织代谢产物含量等数据中大多数个体的取值所在的范围。亦称医学正常值范围。的范围。亦称医学正常值范围。 一般确定一般确定95%95%的医学参考值范围。的医学参考值范围。 (1) 百分位数法百分位数法适用范围适用范围:偏态分布的资料。:偏态分布的资料。5955 .975 . 2PPPP单侧下界:单侧上界:和双侧界值:(2) 正态分布法正态分布法适用范围适用范围:正态或近似正态分布的资料。:正态或近似正态
17、分布的资料。sxsxsx645. 1645. 196. 1单侧下界:单侧上界:双侧界值:Z分布 例例5-13(P59) 5-13(P59) 调查某地调查某地120120名健康女性血红蛋白,直名健康女性血红蛋白,直方图显示其分布近似正态分布,均数为方图显示其分布近似正态分布,均数为117.4g/L117.4g/L,标准差,标准差为为10.2g/L10.2g/L,试估计该地健康女性血红蛋白的,试估计该地健康女性血红蛋白的95%95%参考值范参考值范围。围。95%95%参考值范围参考值范围调查、正态、双侧调查、正态、双侧正态分布法双侧界值正态分布法双侧界值 )/(41.972 .1096. 14 .
18、11796. 1)/(39.1372 .1096. 14 .11796. 1lgsXlgsX下限:上限: 该地健康女性血红蛋白的该地健康女性血红蛋白的95%95%医学参考值范围在医学参考值范围在137.39137.3997.4197.41之间。之间。 2 2、质量控制图、质量控制图 随机误差服从正态分布,而系统误差随机误差服从正态分布,而系统误差则不服从正态分布。则不服从正态分布。 判断异常的判断异常的8 8种情况:种情况:(1 1)有一个点距中心线的距离超过)有一个点距中心线的距离超过3 3个标准差个标准差( (位于控制限以外位于控制限以外) )(2 2)在中心线的一侧连续有)在中心线的一侧
19、连续有9 9个点个点(3 3)连续)连续6 6个点稳定地增加或减少个点稳定地增加或减少(4 4)连续)连续1414个点交替上下个点交替上下(5 5)连续)连续3 3个点中有两个点距中心线距离超过个点中有两个点距中心线距离超过2 2个标准差(位于警个标准差(位于警戒限以外)戒限以外)(6 6)连续)连续5 5个点中有个点中有4 4个点距中心线距离超过个点距中心线距离超过1 1个标准差个标准差(7 7)中心线一侧或两侧连续)中心线一侧或两侧连续1515个点距中心线距离都在个点距中心线距离都在1 1个标准差以个标准差以内内(8 8)中心线一侧或两侧连续)中心线一侧或两侧连续8 8个点距中心线距离都超
20、出个点距中心线距离都超出1 1个标准差个标准差范围范围3 3、二项分布、二项分布、PoissonPoisson分布的正态分布近似分布的正态分布近似 正态分布是二项分布、正态分布是二项分布、Poisson分布以及分布以及其它许多分布的极限分布。其它许多分布的极限分布。 分布近似正态分布。时,当。二项分布近似正态分布时,都大于和当Poisson205)1 (nn 遇到这样的情况,手工计算时可采用正态分布的统遇到这样的情况,手工计算时可采用正态分布的统计方法,其运算会得到简化。计方法,其运算会得到简化。二项分布的正态近似计算方法:二项分布的正态近似计算方法:PoissonPoisson分布的正态近似
21、计算方法:分布的正态近似计算方法: 例例5-155-15(P76P76) 即例即例5-65-6,某地钩虫感染率为,某地钩虫感染率为13%13%,如果随机抽查当地,如果随机抽查当地150150人,至少有人,至少有2020人感染钩虫的人感染钩虫的概率有多大?概率有多大? 5 .1913. 0150n5 .1913. 0150n5 .13087. 0150)1 (n 在当地调查在当地调查150150人中至少有人中至少有2020人感染钩虫的概率为人感染钩虫的概率为50%50%。二项分布计算服从正态分布服从正态分布 例例5-165-16(P76P76) 实验显示某放射性物质半小时实验显示某放射性物质半小时内发出的脉冲数服从内发出的脉冲数服从PoissonPoisson分布,平均为分布,平均为360360个,试估个,试估计该放射性物质半小时内发出的脉冲数大于计该放射性物质半小时内发出的脉冲数大于400400个的概个的概率。率。 360服从正态分布服从正态分布0164. 0)135. 2(1)3603605 . 0400(1)400(1)400(XPXPZ分布 该放射性物质半小时内发出的脉冲数大于该放射性物质半小时内发出的脉冲数大于400400个的概率个的概率为为1.64%1.64%。