1、Medical statistics医学统计学2022-10-13柏建岭讲稿柏建岭讲稿2主要内容l 数据分布l 二项分布2022-10-13柏建岭讲稿柏建岭讲稿3数据分布l对于一组变量值,若以该变量为横轴,数对于一组变量值,若以该变量为横轴,数据出现的频数据出现的频数(或频率或频率)为纵轴作图,该数为纵轴作图,该数据在坐标系中呈一定的图形,称为数据的据在坐标系中呈一定的图形,称为数据的分布。分布。2022-10-13柏建岭讲稿柏建岭讲稿4数据分布l分布是统计方法产生的基础分布是统计方法产生的基础l常用的数据分布有正态分布、二项分布、常用的数据分布有正态分布、二项分布、Poisson分布等分布等
2、2022-10-13柏建岭讲稿柏建岭讲稿5二项分布(binomial distribution)l二分类资料:观察对象的结局只有相互对二分类资料:观察对象的结局只有相互对立的两种结果。立的两种结果。例如:例如:生存、死亡生存、死亡 阳性、阴性阳性、阴性 发病、不发病发病、不发病 治愈、未愈治愈、未愈2022-10-13柏建岭讲稿柏建岭讲稿6先看一个例子已知:小白鼠接受某种毒物一定剂量时,已知:小白鼠接受某种毒物一定剂量时,死亡概率死亡概率=80%生存概率生存概率=20%每只鼠独立做实验,相互不受影响每只鼠独立做实验,相互不受影响若每组各用若每组各用3只小白鼠(甲、乙、丙)只小白鼠(甲、乙、丙)
3、3只小白鼠的存亡方式符合二项分布只小白鼠的存亡方式符合二项分布2022-10-13柏建岭讲稿柏建岭讲稿7你认为实验结果将会出现多少种可能的情况你认为实验结果将会出现多少种可能的情况?所有可能结果所有可能结果死亡数死亡数生存数生存数甲甲 乙乙 丙丙 n-生生 生生 生生03生生 生生 死死 生生 死死 生生12死死 生生 生生生生 死死 死死死死 生生 死死21死死 死死 生生死死 死死 死死30如果计算生与死的顺序,则共有如果计算生与死的顺序,则共有8种排列方式;如果只计生存与种排列方式;如果只计生存与死亡的数目,则只有死亡的数目,则只有4种组合方式。种组合方式。2022-10-13柏建岭讲稿
4、柏建岭讲稿8概率的乘法法则l几个独立事件同时发生的概率,等于各独几个独立事件同时发生的概率,等于各独立事件的概率之积立事件的概率之积 。l一个事件发生一个事件发生(的概率的概率)对另一个事件发生对另一个事件发生(的概率的概率)没有影响,这两个事件就是独立事没有影响,这两个事件就是独立事件。件。2022-10-13柏建岭讲稿柏建岭讲稿9例子l甲、乙射击命中目标的概率分别是甲、乙射击命中目标的概率分别是1/2与与1/3,求甲、乙各射击一次,同时命中目标的概求甲、乙各射击一次,同时命中目标的概率是多少率是多少?已知:已知:A甲命中目标甲命中目标,则,则P(A)=1/2 B乙命中目标乙命中目标,则,则
5、P(B)=1/3求求A、B同时发生的概率同时发生的概率P(AB)?P(AB)P(A)*P(B)1/2*1/3 1/62022-10-13柏建岭讲稿柏建岭讲稿10概率的加法法则l互不相容事件互不相容事件和的概率等于各事件的概率和的概率等于各事件的概率之和。之和。l不可能同时发生的事件是不可能同时发生的事件是互不相容事件互不相容事件,又称又称互斥事件互斥事件。2022-10-13柏建岭讲稿柏建岭讲稿11例子l投掷一枚质地均匀的馓子,求投掷一枚质地均匀的馓子,求“数字数字4朝上朝上”或或“数字数字6朝上朝上”的概率的概率?已知:已知:A数字数字4朝上朝上,则,则P(A)=1/6B数字数字6朝上朝上,
6、则,则P(B)=1/6求求A或者或者B发生的概率发生的概率?P(AB)P(A)P(B)1/61/61/32022-10-13柏建岭讲稿柏建岭讲稿12出现每一种可能结果的概率是多少?l 3只小白鼠均生存的概率 P=0.2 0.2 0.2=0.008l 3只小白鼠2生1死的概率P1=0.2 0.2 0.8=0.032P2=0.2 0.8 0.2=0.032 P=0.096P3=0.8 0.2 0.2=0.0322022-10-13柏建岭讲稿柏建岭讲稿13出现每一种可能结果的概率是多少?l 3只小白鼠2死1生的概率 P1=0.2 0.8 0.8=0.128 P2=0.8 0.2 0.8=0.128
7、P=0.384 P3=0.8 0.8 0.2=0.128l 3只小白鼠均死亡的概率 P=0.8 0.8 0.8=0.512 2022-10-13柏建岭讲稿柏建岭讲稿14所有可能结果所有可能结果每种结果的概率每种结果的概率 死亡数死亡数 生存数生存数不同死亡数的概率不同死亡数的概率甲甲 乙乙 丙丙 n-生生 生生 生生0.20.20.2030.008生生 生生 死死 0.20.20.8生生 死死 生生0.20.80.2120.096死死 生生 生生0.80.20.2生生 死死 死死0.20.80.8死死 生生 死死0.80.20.8210.384死死 死死 生生0.80.80.2死死 死死 死死
8、 0.80.80.8300.51211.000(1)Xn XXnC 三只小白鼠存亡的排列和组合方式及其概率的计算三只小白鼠存亡的排列和组合方式及其概率的计算(1)n XX 2022-10-13柏建岭讲稿柏建岭讲稿15 01111110(1)(1)(1)(1)(1)(1)nnnXn XXnnnnnnCCC 二项展开(0.2+0.8)3 =0.23 +30.220.8 +30.20.82 +0.83生存生存概率概率死亡死亡概率概率 三生三生二生一死二生一死一生二死一生二死 三死三死对应于二项展开式对应于二项展开式:二项式展开式中的各项对应于各死亡数(X)的概率P(X),二项分布由此得名。2022-
9、10-13柏建岭讲稿柏建岭讲稿16二项分布的定义 二项分布是指在只会产生两种可能结果如二项分布是指在只会产生两种可能结果如“阳性阳性”或或“阴性阴性”之一的之一的n次独立重复实次独立重复实验中,当每次试验验中,当每次试验“阳性阳性”概率保持不变概率保持不变时,出现时,出现“阳性阳性”的次数的次数 X=0,1,2,n的一种概率分布。的一种概率分布。2022-10-13柏建岭讲稿柏建岭讲稿17Page 17二项分布的定义l从阳性率为从阳性率为 的总体中随机抽取含量为的总体中随机抽取含量为n的的样本,恰有样本,恰有X例阳性的概率为:例阳性的概率为:则称则称X服从参数为服从参数为 的二项分布的二项分布
10、(Binomial Distribution),记为:,记为:XB(n,)。其中参数。其中参数 常常是未知的,而常常是未知的,而n由实验者确定。由实验者确定。()(1),0,1,2,Xn XXnP XCXn2022-10-13柏建岭讲稿柏建岭讲稿18如已知如已知n=3,=0.8,则恰有,则恰有1例阳性的概例阳性的概率率P(1)为:为:096.08.0)8.01()!13(!1!3)1()1(113111nnCP2022-10-13柏建岭讲稿柏建岭讲稿19 例例已知某种动物关于某毒物的已知某种动物关于某毒物的50%致致死剂量死剂量(LD50),现有,现有5只这样的动物注只这样的动物注射了该剂量,
11、试分别计算死亡动物数射了该剂量,试分别计算死亡动物数X0,l,2,3,4,5的概率。的概率。二项分布的概率2022-10-13柏建岭讲稿柏建岭讲稿2005 005(0)(10.5)(0.5)0.03125PC15 115(1)(1 0.5)(0.5)0.15625PC25 225(2)(10.5)(0.5)0.31250PC35 335(3)(10.5)(0.5)0.31250PC45 445(4)(10.5)(0.5)0.15625PC55 555(5)(10.5)(0.5)0.03125PC二 项 分 布二项分布的概率2022-10-13柏建岭讲稿柏建岭讲稿21二项分布的性质l如果如果XB
12、(n,),则:,则:X的均数:的均数:X的方差:的方差:X的标准差:的标准差:2(1)(1)XXXnnn 2022-10-13柏建岭讲稿柏建岭讲稿22二项分布的性质l 若均数与标准差不用绝对数而用率表示时若均数与标准差不用绝对数而用率表示时 221111(1)(1)11(1)(1)(1)pXpXpXpnnnnnnnnnnppsn 2022-10-13柏建岭讲稿柏建岭讲稿23 从阳性率为从阳性率为 的总体中随机抽取的总体中随机抽取n个个体,个个体,则则 最多有最多有k例阳性的概率:例阳性的概率:二项分布的累计概率kkPPPXPkXP0)(.)1()0()()(2022-10-13柏建岭讲稿柏建岭
13、讲稿24 从阳性率为从阳性率为 的总体中随机抽取的总体中随机抽取n个个体,个个体,则则 最少有最少有k例阳性的概率:例阳性的概率:二项分布的累计概率 )1(1 )()(kXPXPkXPnk其中,其中,X=0,1,2,k,n。)(11)1(XPXXnXP2022-10-13柏建岭讲稿柏建岭讲稿25二项分布的累计概率 例 据以往经验,用某药治疗小儿上呼吸道据以往经验,用某药治疗小儿上呼吸道感染、支气管炎,有效率为感染、支气管炎,有效率为85%,今有,今有5个个患者用该药治疗,问:最多患者用该药治疗,问:最多1人有效的概人有效的概率为多少率为多少?至少至少3人有效的概率为多少人有效的概率为多少?20
14、22-10-13柏建岭讲稿柏建岭讲稿26 本例本例 =0.85,l-=0.15,n=5,依题意,依题意,最多最多1人有效的概率为人有效的概率为:至少至少3人有效的概率为:人有效的概率为:515 15P(X 1)(0)(1)0.15(0.15)0.85 0.002227501PPCP(X3)=P(3)+P(4)+P(5)138178125.0)85.0()15.0()35(35)3(32!P391504688.0138178125.085.0185.01335)13()4(PP443705313.085.0)5(5P则 P(X3)=0.1381781250.3915046880.44370531
15、3=0.9733881262022-10-13柏建岭讲稿柏建岭讲稿27三只小白鼠死亡的二项分布三只小白鼠死亡的二项分布(n=3,=0.8)二项分布的图形2022-10-13柏建岭讲稿柏建岭讲稿28某毒物的某毒物的50%致死剂量后致死剂量后5只动物死亡数的二项分布只动物死亡数的二项分布(n=5,=0.5)二项分布的图形2022-10-13柏建岭讲稿柏建岭讲稿29二项分布的图形 4 8 12 16 0 2 4 0 2 4 6 4 8 12 16 X 0.0 0.1 0.2 0.3 0.4 n=20 =0.5 n=5 =0.3 n=10 =0.3 n=30 =0.3 P(X)2022-10-13柏建
16、岭讲稿柏建岭讲稿30二项分布的图形 当当=0.5,分布对称;当,分布对称;当 0.5,分布呈偏态;,分布呈偏态;当当 0.5时分布呈负偏时分布呈负偏态;特别是当态;特别是当n值不是很大时,值不是很大时,偏离偏离0.5愈远,分愈远,分布愈偏。布愈偏。随着随着n的增大,二项分布逐渐逼近正态分布。的增大,二项分布逐渐逼近正态分布。一般地说,如果一般地说,如果n 和和n(1-)大于大于5时,常可用正态时,常可用正态近似原理处理二项分布问题。近似原理处理二项分布问题。2022-10-13柏建岭讲稿柏建岭讲稿31二项分布的应用条件l 各观察单位只能有互相对立的一种结果,各观察单位只能有互相对立的一种结果,
17、如阳性或阴性,生存或死亡等。如阳性或阴性,生存或死亡等。l 已知发生某一结果已知发生某一结果(如阴性如阴性)的概率的概率 不变,不变,其对立结果其对立结果(如阳性如阳性)的概率则为的概率则为1-。l n次试验在相同条件下进行,且各观察单位次试验在相同条件下进行,且各观察单位的结果互相独立。的结果互相独立。2022-10-13柏建岭讲稿柏建岭讲稿32率的抽样误差 =0.30101100001 p=0.42022-10-13柏建岭讲稿柏建岭讲稿33率的抽样误差样本号样本号x1x2x3x4x5x6x7x8x9x10Xp1001001010030.32010011100150.530010000000
18、10.14010110000140.45100000010020.26000010011030.37100010100140.48000000101020.29111101001170.710010000000010.1从从 =0.3中随机抽样,样本含量为中随机抽样,样本含量为10的的 10份独立样本的样本率份独立样本的样本率2022-10-13柏建岭讲稿柏建岭讲稿34率的抽样误差从 =0.3中随机抽样,样本含量为10的10000个样本率的频率分布图2022-10-13柏建岭讲稿柏建岭讲稿35率的抽样误差从 =0.3中随机抽样,样本含量为100的10000个样本率的频率分布图2022-10-1
19、3柏建岭讲稿柏建岭讲稿36率的抽样分布特点l当总体率当总体率 0.5时为负时为负偏态,当偏态,当=0.5时为对称分布。时为对称分布。l在在n较较大,且率大,且率 和和(1-)都不太小时即都不太小时即n 和和n(1-)均大于均大于5,率的抽样分布近似正态分布。,率的抽样分布近似正态分布。2022-10-13柏建岭讲稿柏建岭讲稿37率的标准误 (1)ppn 样本率的均数样本率的均数样本率的标准差样本率的标准差率的标准误率的标准误(1)pppsn 2022-10-13柏建岭讲稿柏建岭讲稿38率的可信区间估计=?n,Xp=X/n2022-10-13柏建岭讲稿柏建岭讲稿39n 较大时,可用正态近似法:率
20、的率的 95%的的CI:例例4.4 n=144,p=9.02%,X=13 9.02%1.962.388%=(0.0435,0.1371)(4.35%,13.71%)(1.96,1.96)pppsps0.0902(10.0902)/1440.02388ps 2022-10-13柏建岭讲稿柏建岭讲稿40n 较小时,查表法(直接计算概率法)例例4.5 n=29,X=1。p=3.4%.查附表查附表6.1 百分率的可信区间百分率的可信区间 n=29 行行 X=1 列列 95%可信区间:可信区间:0.117.8(%)2022-10-13柏建岭讲稿柏建岭讲稿41n 较小时,查表法(直接计算概率法)例例 n=
21、10,X=8。p=80%.先查先查n=10,X1=2。p1=20%.得得95%可信区间为:可信区间为:(3%,56%)从而:从而:(1-56%,1-3%)=(44%,97%)2022-10-13柏建岭讲稿柏建岭讲稿42率的可信区间的不对称性 p10%p30%p50%n10 0.344.5 6.765.218.781.3n20 1.231.711.954.327.272.8n30 2.126.514.749.431.368.7n40 2.823.716.646.533.866.2n50 3.321.817.944.635.564.52022-10-13柏建岭讲稿柏建岭讲稿43率的可信区间的性质
22、只有只有=0.5时是对称的;时是对称的;n越大,区间越窄;越大,区间越窄;对同一对同一n,越接近越接近0.5,分布越宽,越接近,分布越宽,越接近0或或1,分布越窄。,分布越窄。2022-10-13柏建岭讲稿柏建岭讲稿44样本率与总体率的比较(n 较大时)(1)ppun 2022-10-13柏建岭讲稿柏建岭讲稿45样本率与总体率的比较(n 较大时)例例7.1 020%,n=306,X=96,p=31.58%H0:=0,老年胃溃疡病患者的胃出血率等于老年胃溃疡病患者的胃出血率等于20%;H1:0,老年胃溃疡病患者的胃出血率大于老年胃溃疡病患者的胃出血率大于20%。单侧单侧=0.05。2022-10
23、-13柏建岭讲稿柏建岭讲稿46样本率与总体率的比较(n 较大时)P0.01,按,按=0.05水准拒绝水准拒绝H0,接受,接受H1。认为老年胃溃疡病患者的胃出血率大于认为老年胃溃疡病患者的胃出血率大于20%。05.5304/)2.01(2.02.03158.0u2022-10-13柏建岭讲稿柏建岭讲稿47两样本率的比较(n 较大时)例例7.2 n1=84,X1=57;p1=67.9%;n2=47,X2=39;p2=83.0%.H0:1=2;H1:1 2,=0.05 1212ppppus 2022-10-13柏建岭讲稿柏建岭讲稿48两样本率的比较(n 较大时)121212120.6790.8301
24、.8740.080611(1)()0.0806ppppccppussppnn 因为因为u0.05=1.96,故按,故按0.05水准,不拒绝水准,不拒绝H0。差别无统计学意义。尚不能认为单纯化疗法差别无统计学意义。尚不能认为单纯化疗法与联合疗法对乳腺癌患者治疗效果有差别。与联合疗法对乳腺癌患者治疗效果有差别。2022-10-13柏建岭讲稿柏建岭讲稿49思考:可信区间与假设检验有什么联系?可信区间与假设检验有什么联系?均数的可信区间估计均数的可信区间估计样本均数与总体均数的比较样本均数与总体均数的比较率的可信区间估计率的可信区间估计样本率与总体率的比较样本率与总体率的比较2022-10-13柏建岭
25、讲稿柏建岭讲稿50C,kkn knP Xkp q nk,2,1,0)1(pq ),(pnBX nkknkknqpkX0C)(E nkknkqpknknk1)!(!nkknkqpknknnp1)1(11)!()!1()!1(1 ki令令 101)!1(!)!1(niiniqpininnp1)(nqpnp.np 附录:二项分布的均数1 ki令令2022-10-13柏建岭讲稿柏建岭讲稿51220()Cnkkn knkE Xkp q nkknkqpknknknp11)!()!1()!1(1111(1)!(1)!(1)(1)!()!(1)!()!nnkn kkn kkknnnpkpqpqkn kkn k ,1)1(pnnp 222()(1)()(1).D XEXEXnp nppnpnppC,kkn knP Xkp q nk,2,1,0)1(pq ),(pnBX附录:二项分布的方差2022-10-13柏建岭讲稿柏建岭讲稿52