1、二项分布及其应用 Binomial distribution and its application 南京医科大学 卫生统计学系 魏永越 weiyongyue 1 魏永越讲稿 从一个例子开始 请回答以下三个问题: (1) 第一个发现正态分布规律的人是: A:高斯 B:棣莫佛 2 魏永越讲稿 To Ques(1): 正态分布最早由棣莫佛于1730年在求二项分布 的渐近公式时得到;后拉普拉斯于1812年研究 极限定理时也被引入;高斯(Gauss)则于 1809年在研究误差理论时也导出了它。高斯分 布的函数图象是一条位于x轴上方呈钟形的曲 线,称为高斯分布曲线,简称高斯曲线。 3 魏永越讲稿 Que
2、s(2): (2) :右图是剑桥大学剑桥大学冈维 尔与凯斯学院宴会厅里的染色玻璃 窗。该设计是为了纪念谁? A:罗纳德 费雪(Ronald Aylmer Fisher ) B:琼斯 韦恩(John Venn) 剑桥大学 冈维尔与凯斯学院宴会厅 里的染色玻璃窗 4 魏永越讲稿 Ques(3): (2) 明年上半年的房价是涨还是跌? A:涨 B:跌 5 魏永越讲稿 Back to the point: 假设某同学对这三个问题都不清楚,则: 全部答错的几率有多大? 仅答对一题的几率有多大? 答对两题的几率有多大? 全部答对的几率有多大? 6 魏永越讲稿 主要内容 二项分布的概率及定义 二项分布的性质
3、 二项分布的应用 率的抽样误差 率的区间估计 两个样本率的比较 样本率与总体率的比较 7 魏永越讲稿 二项分布的概念 二项分布溯源 Bernoulli试验(Jakob Bernoulli ) n次重复独立的贝努利试验,出现k次成功的概 率分布 16% 21% 19% 14% 共3题 答 对 0 1 2 3 题 8 魏永越讲稿 所有可能结果 每种结果的概率 死亡数 生存数 不同死亡数的概率 甲 乙 丙 n- 生 生 生 0.20.20.2 0 3 0.008 生 生 死 0.20.20.8 生 死 生 0.20.80.2 1 2 0.096 死 生 生 0.80.20.2 生 死 死 0.20.
4、80.8 死 生 死 0.80.20.8 2 1 0.384 死 死 生 0.80.80.2 死 死 死 0.80.80.8 3 0 0.512 1 1.000 (1) Xn XX n C 三只小白鼠存亡的排列和组合方式及其概率的计算 (1)n X X *已知每只小鼠被注射毒素,其死亡概率为80%。 9 魏永越讲稿 二项分布的概率 设事件A出现的概率为。则在n次独立试验中, 事件A恰好出现 k 次 即n次试验,有k次发生A事件,n-k次没有发生A事件 ()(1) kkn k n P XkC XB(n, p) 10 魏永越讲稿 二项分布的概率(2) 对于n次试验,A事件的发生次数可能是:0次、1
5、次、 2次最多n次。 011 110 (1)(1)(1) (1)(1) (1)1 nnkkn k n nn n nC n ( 0.2 +0.8 )3 = 0.23 + 30.220.8 + 30.20.82 + 0.83 生存 概率 死亡 概率 三生 二生一死 一生二死 三死 11 魏永越讲稿 累计概率 P(Xk) = P(X=0)+P(X=1)+P(X=k) P(Xk) = P(X=k)+P(X=k+1)+P(X=n) P(Xk) = 1 P(Xk+1) 12 魏永越讲稿 2.1 二项分布的均数和方差 如果XB(n,p),则: 的均数:的均数: 的方差:的方差: 的标准差:的标准差: 2 (
6、1) (1) X X X n n n 13 魏永越讲稿 2.2 二项分布的图形 X 4 8 12 16 0 .0 0 .1 0 .2 0 .3 0 .4 n =20 =0.5 P ( X ) 0 2 4 n =5 =0.3 0 2 4 6 n =10 =0.3 4 8 12 16 n =30 =0.3 14 魏永越讲稿 3.1 率的抽样误差 =0.3 0 1 1 0 0 0 1 1 1 p= 0.42 15 魏永越讲稿 率的抽样误差(续) 0.3 0.42P 0.24P 0.28P 0.33P 0.31P 16 魏永越讲稿 2.3 率的抽样分布及其性质 在n足够大时,样本率 p 的分布近似正态
7、分布。 率的均数和方差 XB(n, ),p=X/n 样本率样本率p的均数为的均数为 17 魏永越讲稿 率的抽样误差(续) 率的抽样误差大小的衡量指标 n p )1 ( n pp s p )1 ( 样本标准误样本标准误 理论标准误理论标准误 18 魏永越讲稿 率的抽样误差(概念) 由于总体中个体变异的存在,在抽样过程中产生的 样本率与总体率的差异 或 样本率间的差异 称为率的抽样误差。 19 魏永越讲稿 3.2 率的可信区间估计 =? n, X p=X/n 20 魏永越讲稿 n 较大时, 可用正态近似法: 率的 95%的CI: 例6.2 n=144, X=13: p=13/144=0.0903,
8、 sp=0.0239 0.09031.960.0239=(0.0435, 0.1371) (4.35%, 13.71%) (1.96, 1.96) pp psps 21 魏永越讲稿 n 较小时, 查表法(直接计算概率法) n=25, X=3。p=12%. sp=0.065 若采用正态近似法,得到(-0.7%, 24.74%)? 若采用查表法:得到(2.5%, 31.2%) 22 魏永越讲稿 n 较大时两率差可信区间 12 1122 12 (1)(1) pp pppp s nn 23 魏永越讲稿 率的可信区间的不对称性 10% 20% 30% 50% n10 045 356 765 1981 n
9、20 132 644 1254 2773 n30 227 839 1549 3169 n40 324 935 1747 3466 n50 322 1034 1845 3665 24 魏永越讲稿 率的可信区间的性质 只有=0.5时是对称的; n越大,区间越窄; 对同一n, 越接近0.5,分布越宽,越接近0或 1,分布越窄; Why? 25 魏永越讲稿 样本率与总体率的比较( n 较大时) 例6.2 总体率 0=20%(一般胃溃疡患者出血率); 样本率n=304, p=31.6%(一般胃溃疡患者出血率). 双侧检验 单侧检验 H0: = 0 H0: = 0 H1: 0 H1: 0 =0.05 u0
10、.05(双侧)=1.96 u0.05(单侧)=? 1 5.06 p p u s 26 魏永越讲稿 样本率与总体率的比较( n 较小时) 例6.4 0 = 0.01,p1=1/400, H0: 1 = 0; H1: 1 0 . =0.05(单侧) P(X1)=P(X=0)+P(X=1) =0.99400 + 4000.994000.01 =0.0905 (直接计算概率法) 按0.05水准,不拒绝H0,尚不能认为该地新生 儿染色体异常率低与一般新生儿。 该地区新生 儿染色体异 常是否与一 般人群不同? 27 魏永越讲稿 样本率与总体率的比较( n 较小时) 例6.4 0 = 0.01,p1=1/4
11、00, H0: 1 = 0; H1: 1 0 . =0.05(双侧) P=? 该地区新生 儿染色体异 常是否低于 一般人群? 28 魏永越讲稿 直接计算概率法 假设检验的P是指:从H0总体中抽样,获得现有差 别及更大差别样本的概率。 现有差别多大? 期望染色体异常人数:400*1%=4, 实际染色体异常人数:1 现有差别为3, 考虑双侧检验,所以现有差别及更大差别为 X (4-3) or X (4+3) P(X1 or X7)=1-P(X=2)-P(X=3)-P(X=4)-P(X=5)- P(X=6) 29 魏永越讲稿 两样本率的比较( n 较大时) 例6.5 n1=53, X1=43; p1
12、=81.13%; n2=56, X2=40; p2=71.43%. H0: 1=2; H1: 12 , =0.05 12 12 pp pp u s 30 魏永越讲稿 12 12 12 12 11 (1)() 0.81130.7143 1.188 11 0.7615(10.7615)() 5356 ppcc pp spp nn pp u s 因为u0.05=1.96,故按0.05水准,不拒绝 H0,故尚不能认为两组有效率不同。 这里的率差标准误 为什么与前面提到 的(P82)不同? 31 魏永越讲稿 二项分布的应用条件 各观察单位的观察结果只能是相互对立的两种 结果之一; 某事件出现的概率不变; n次试验条件相同, n个观察对象同质,且相 互之间不影响(例如,无传染性、聚集性等)。 32 魏永越讲稿 思考: 可信区间与假设检验有什么联系? 均数的可信区间估计 样本均数与总体均数的比较 率的可信区间估计 样本率与总体率的比较 33