1、BOOTSTRAP研究生研究生医学统计学医学统计学2 2课程课程主要内容Bootstrap简介参数和非参数Bootstrap不同资料的Bootstrap处理Bootstrap应用实例统计学的基本过程我们需要知道的是某些变量的平均和误差执行某些测量若干次误差随着测量次数的增加而减少211iiXXnXXsn中心极限定理有时候R2的分布?独立性假设被违背时,回归系数的分布?某些先进方法中的指标分布?随机森林分析中的重要性得分?预测模型的AUC?“PULLING ONESELF UP BY ONES BOOTSTRAPS”“I found myself stunned,and in a hole ni
2、ne fathoms under the grass,when I recovered,hardly knowing how to get out again.Looking down,I observed that I had on a pair of boots I had on a pair of boots with exceptionally sturdy straps.with exceptionally sturdy straps.Grasping them firmly,I pulled with all Grasping them firmly,I pulled with a
3、ll my might.Soon I had hoist myself to my might.Soon I had hoist myself to the top and stepped out on terra firma the top and stepped out on terra firma without further ado.without further ado.-Campaigns and Adventures of Baron Munchausen,1786.吹牛大王历险记BOOTSTRAP一种估计抽样误差和计算可信区间的方法。1979 Efron BradleyEfr
4、on B(1979).Bootstrap methods:Another look at the jackknife.Ann.Statist.7 12620世纪70年代以来统计学上“唯一的伟大进展”。Kotz and Johnson,1992EFRON BRADLEYBradley Efron博士现任斯坦福大学统计系Max H.Stern讲席教授。Efron教授是公认的当今世界最有影响力的统计学领域的权威。他的主要贡献包括Bootstrap再抽样方法。经验贝叶斯方法,微分几何在统计推断中的应用,生存分析方法,生物芯片数据分析方法等。Efron教授是麦可阿瑟奖获得者,美国国家科学院院士,美国科学
5、与艺术学院院士。他还获得过统计学领域几乎所有的著名奖项,包括著名的Wilks奖章,Parzen奖,Rao奖。2005年,Efron教授获得了美国国家科学奖章(美国自然科学最高奖)以表彰他在统计学领域所作出的杰出贡献。这一奖章在2007年7月27日在白宫举行的一个特别仪式上由时任美国总统乔治 W.布什亲自颁发。BOOTSTRAP的前身:JACK-KNIFE(刀切法)一种特殊的Bootstrap每个Jackknife样本包括原样本-1个个体BOOTSTRAP的基本流程从一个给定的数据中有放回地重复抽样若干次数,得到若干个样本;对于某个样本,计算相应的统计量;得到这个统计量的分布是其真实分布的估计;
6、BOOTSTRAP:RESAMPLING WITH REPLACEMENTD、E、A、C、E、B、A、D、A、BOOTSTRAP对资料的基本要求样本必须是总体的代表;照着苹果永远画不出一个桔子出来!一个最简单的小例子假设总体是均数为5,标准差为3的正态分布;现有样本包含100个个体;如何求中位数的方差及其95%CI?理论上1Var4Mnf M手头样本 data 13 4 10 5 5 10 6 1 3 4 9 12 6 6 5 3 10 6-1 7 4 2 4 23 2 3 3 0 8 5 2 9 6 4 8 34 8 7 7 7 5 4 4 3 4 1 12 45 9 2 4 4 7 5 6
7、 5 5 9 4 56 10 0 7 5 6 6 3 4 2 2 6 67 6 5 8 11 4-2 8 3 3 8 4 78 1 6 5 5 6 4 7 4 6 8 6 89 4 8 8 7 6 3 9 3 12 10 4 100 2从中有放回地抽取100个个体,重复20次 resamples1 1 3 12 6 5 3 4 7 2-1-1 7 0 4 5 5 4 7 3 4 7 2 12 8 8 10 4 4 0 11 30 7 3 1 4 10 8 4 4 7 10 5 4 6-1 2 4 8 4 12 12 8 0 2 6 8 9 6 6 3 59 4 8 6 4 5 3 5 7 8
8、7 10 6 6 3 1 6 1 3 10 4 1 2 8 5 4 2 10 4 6 88 2 10 5 9 9 1 4 8 6 4 9 4 5r.median-sapply(resamples,median)5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 4.0 4.5 5.0 5.0 4.0 5.0 5.0 5.0 5.0 5.0 5.0sqrt(var(r.median)0.5250313 mean(r.median)4.875 求95%CI利用近似正态分布的原理利用百分位数区间(4,5)0.05/24.875 1.96 0.5250BBBuSE什么时候可以用BO
9、OTSTRAP法?当统计量的理论分布过于复杂或者难于获得时;样本含量偏小,不足以进行统计推断;当需要进行效能计算时,且手头有个小预实验时;需要一个快速的答案。BOOTSTRAP的分类参数Bootstrap假设样本来自的总体分布已知;利用手头样本估计总体参数;按照估计出的总体分布产生样本;根据样本计算统计量的分布非参数Bootstrap将手头样本当成总体,从中抽样;参数和非参数BOOTSTRAP出生体重和70-100体重间的关系708090100110120130120140160180200220Birth WeightWeight at 70-100 days非参数BOOTSTRAP从所有的
10、个体中有放回地抽取n个,eg.4,5,2,4,9,10,3,3,6,2,1,6,9,8计算感兴趣的统计量重复B次,得到统计量的分布,10.67b参数BOOTSTRAP先拟合回归方程,估计残差方差,2=14.1从N(0,2)中随机抽取n个残差根据第一步中回归方程估计,计算Y的Bootstrap 样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。,104.890.68b iib iyx半参数BOOTSTRAP先拟合回归方程,估计残差对残差进行Bootstrap抽样根据第一步中回归方程估计,计算Y的Bootstrap 样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。仅当残差
11、为独立同分布时适用。,104.890.68b iib iyx如何用BOOTSTRAP进行估计令Yi,i=1,n为样本T(Y)为Y的函数Yb,1,Yb,n为第b个Bootstrap样本,b=1,.,B则Var(T)的Bootstrap估计值为T的95%CI可以根据Boostrap分布的百分位数得到。21111BBbbbbT YT YBBBOOTSTRAP的可信区间估计非学生化枢轴法(non-studentized pivotal method)Bootstrap-t法百分位数法偏倚校正法Bootstrap confidence intervals:when,which,what?A practi
12、cal guide for medical statisticians.J Carpenter and J.Bithell.Statistics in Medicine,2000;19:1141-64.1999,.,BOOTSTRAP的可信区间估计1999,.,BOOTSTRAP T法*/2t*T优点:简单,一般较可靠缺点:计算较为复杂,耗时百分位数法2.5%97.5%,优点:简单缺点:当分布不近似对称时,覆盖率可能较低偏移校正法校正因子Z校正因子ArA1及rA2作为百分位数区间的下限和上限。*11313/221/21/2/22/2#611rbbniiniiZrAZzAZA ZzZzAZA Z
13、z 不同资料的BOOTSTRAP处理单样本资料两样本资料回归分析Bootstrap假设检验单样本情形两样本情形两组分别Bootstrap合并组成BS样本;治疗组治疗组对照组对照组945219710416146381099511413023402746回归与BOOTSTRAPY:应变量X:自变量0、1:回归系数:残差01YX两种BOOTSTRAP方法针对数据对的Bootstrap针对残差的Bootstrap针对残差的BOOTSTRAP先估计 和 :eg.最小二乘法求残差;对残差进行Bootstrap对于某一个残差Bootstrap样本,根据下式求Y的Bootstrap样本。注意X与实际样本完全相
14、同!这是半参数Bootstrap01,01,b iib iYX两种BOOTSTRAP选哪一个针对残差的Bootstrap:残差和自变量是独立的!自变量最好是指定的固定取值变量!针对对子的Bootstrap:X和Y都是随机变量也取决于我们有多么信任模型是否正确!回归的BOOTSTRAPDose Surv.Prop LogSurvProp 1 1.175 0.44000-0.82098062 1.175 0.55000-0.59783703 2.350 0.16000-1.83258154 2.350 0.13000-2.04022085 4.700 0.04000-3.21887586 4.70
15、0 0.01960-3.93222577 4.700 0.06210-2.77900938 7.050 0.00500-5.29831749 7.050 0.00320-5.744604510 9.400 0.00110-6.812445111 9.400 0.00015-8.804875312 9.400 0.00019-8.568486513 14.100 0.00700-4.961845114 14.100 0.00006-9.7211660模型1212(.)(.)Ln Surv PropDoseLn Surv PropDoseDoseEstimateEstimateSESEP P模型1
16、1-0.67640.05600.0001模型21-1.04860.15890.000120.03430.01400.0303去除离群值EstimateEstimateSESEP P模型11-0.77670.02990.0001模型21-0.86130.0945|z|)(Intercept)-2.4423 0.36863.45e-11*A 1.2340 0.43860.0049*B 1.0561 0.44540.0177*A:B 0.5162 0.54420.3428 BOOTSTRAP法估计结果Histogram of ORIs from 2,000 Bootstrap SamplestmpO
17、RFrequency020406080050100150Mean of OR:12.33Variance of OR:59.3695%CI of OR:(3.65,32.16)等级资料的等效性检验了考察克林霉素磷酸酯阴道凝胶对细菌性阴道病的治疗效果;采用阳性对照;细菌学疗效评价如下:试验药与对照药是否等效?疗效疗效痊愈显效进步无效合计试验组653293109对照组702499112基本思想取两组平均秩和的比值作为检验统计量;等效区间0.801.25;从试验组和对照组分层有放回地抽取一个Bootstrap样本;编秩,求平均秩和的比值R;重复1000次,得到比值R的经验分布;用百分位数法计算R的95%CI,观察其是否被包含在等效区间之内。Mean of Ratio:1.0095%CI(0.88,1.14)可以认为克林霉素磷酸酯阴道凝胶与阳性药物是等效的。使用BOOTSTRAP时的其他问题Bootstrap的效果与模型是否正确的指定有关:数据是否独立?当参数模型可以使用时,Bootstrap一般不会比正确的参数模型效果更好。软件实现:几乎所有主流软件均包含文献导读LANCET 2013;381:63950背景和方法THANK YOU作业:在PubMed检索采用Bootstrap法的案例;阅读这些文献并简述作者的实施过程。2016.11.09日前发到