1、统计学:生存分析(survival analysis of follow-up medical data )要求要求1.掌握生存分析的基本概念掌握生存分析的基本概念2.会用乘积极限法和寿命表法计算生存率会用乘积极限法和寿命表法计算生存率3.了解对数秩检验了解对数秩检验4.了解了解Cox回归分析回归分析第一节第一节 生存资料的特点生存资料的特点 在临床实验和动物试验研究中,常对各个观察对象进行随访观察,记录各个时点上某事件的发生情况而获得资料,称为随访资料(follow-up data),以评价临床疗效。如:*某病经治疗开始到痊愈 *某病经治疗开始到死亡 *患者从手术到复发 *患者从出院到死亡
2、这类现象的共性是:效应和时间。在比较不同疗法的疗效时,不仅要考虑是否有效,还要考虑从试验开始到产生疗效的时间。假定用甲、乙两药治疗某病,其治愈率均为80%,我们不能笼统地说两种药物的疗效一致,因为还有一个时间效应问题。如果甲药平均3天治愈80%,而乙药平均7天治愈80%,则可以认为两药的疗效有差别。生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间两个因素结合在一起的一种统计分析方法,它能充分利用所得到的研究信息,更加准确地评价和比较随访资料。一、一、生存分析的基本概念生存分析的基本概念1.随访资料的记录随访资料的记录 某医师收集1992年1月1日到2001
3、年12月31日10年间共346例大肠癌患者术后的资料,研究因素有:性别、年龄(岁)、从确诊到进行手术的时间dtime(月),资料如下:表20-1 346例大肠癌患者手术后的生存时间记录数据特点:应变量有2个,生存时间和结局;生存时间存在观察完全的数据和观察不完全的数据(称为删失值),如2号和4号和5号。编号性别年龄dtime手术时间终止随访时间结局生存时间1男32101994.01.231994.12.24死亡112女48121998.02.141999.01.01失访10+3女2661992.03.041995.04.12死亡374男5531999.08.202001.09.21死于其他25
4、+5女5882001.03.102001.12.31存活9+2.起始事件与终点事件起始事件与终点事件 终点事件(outcome event)又称死亡事件、失效事件,它是研究者所关心的特定结局,而起始事件是反映研究对象生存过程的起始特征事件。这两者是相对的,由研究目的决定。如:起始事件可以是患者接受某种特定治疗、铅作业工人开始职业性铅接触等,相应的终点事件为患者死于该病、工人发生重症铅中毒症状等。一项研究可以把开始治疗作为起始事件,痊愈为终点事件;另一项研究可以把痊愈作为起始事件,复发为终点事件。生存时间示意图生存时间示意图3.生存时间生存时间 是指观察到的存活时间,有两种类型:(1)完全数据(
5、complete data)指从起点至死亡所经理的时间,如表20-1中11月,37月。(2)截尾数据(censored data)指由于失访、改变防治方案、研究工作结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点到截尾点所经历的时间,称为截尾数据,如表20-1中的10月、25月和9月天。4.死亡概率、生存概率死亡概率、生存概率(1)死亡概率 q(mortality probability):指死于某时段内的可能性大小。它是一个随时间上升的函数q(t),当时间趋于无穷大时,死亡概率等于1。年死亡概率公式为截尾例数年初人口数校正人口数校正人口数,若有截尾,则分母用某年年初人口
6、数某年内死亡数21q 死亡概率不同于死亡率,区别在于分母不同,死亡率的分母为年中平均人口数,而死亡概率的分母是年初人口数。(2)生存概率 p(survival probability)p=1-q5.生存率、生存曲线生存率、生存曲线(1)生存率 (survival rate),记作S(tk)指病人经历tk个时间单位后仍存活的概率。若无截尾数据,则截尾数据,分母要校正为病人存活时间,若有,其中观察总例数时刻仍存活的例数TttTPtSkkk)()((2)生存率估计的概率乘法原理 假定病人在各个时段生存的事件独立,生存概率为p,生存率估计公式为:S(tk)=P(Ttk)=p1p2pk注意:生存率与生存
7、概率在意义上有差别,生存概率只指某个时段内的p,而生存率是指从0tk多个时段。(3)生存曲线(survival curve)以t 为横坐标轴,S(t)为纵坐标轴,将各时点的生存率连接在一起的曲线。生存曲线生存曲线0 00.10.10.20.20.30.30.40.40.50.50.60.60.70.70.80.80.90.91 12 23 3生存率 S(t)生存率 S(t)6.半数生存期半数生存期(median survival time)指只有50%的个体存活的时间(寿命的中位数)。二、算法步骤二、算法步骤(1)列出序号:i=1,2,3,,生存时间排序:将t从小到大排列,重复数据只列一次。当
8、遇到数值相同的完全数据与删失数据时,删失数据排在完全数据之后。(2)列出ti时刻的死亡例数di,其中删失数据对应的死亡例数为0。(3)列出ti时刻期初期观察例数ni,即该时刻之前的生存例数。(4)计算各时段生存概率pi。Pi=(ni-di)/ni(5)求出ti时刻的生存率:S(ti)=P1 P2 P3 Pt(6)求出ti时刻的生存率的标准误:(7)总体生存率的置信区间:ijjjjjkkdnndtStSSE1)()()()()(2iitSSEZtS三、生存率的估计三、生存率的估计 例例20-1 将符合手术治疗的21例乳腺癌患者随机分为2组,一组10;一6单纯接受手术治疗,另一组11例手术后+化疗
9、,其生存时间(月)见下表,试估计两种疗法的生存率及生存曲线。手术组691315181919202224手术+化疗10141516+19192020+242628例例20-1的结果的结果序号存活时间死亡数初期例数生存概率生存率标准误ittidinnippiS(tk)SE11011110/110.90910.08672141109/10(10/11)(9/10)=0.81820.1163315198/90.81828/9=0.72730.1343416+088/80.7273 1=0.72730.1343519275/70.7273 5/7=0.51950.1569620154/50.5195 4
10、/5=0.41560.1562720+044/40.4156 1=0.41560.1562824132/30.4156 2/3=0.27710.1537926121/20.2771 1/2=0.13850.12451028110/10.1385 0=0.1385_四、生存资料分析的基本要求四、生存资料分析的基本要求1.样本由随机抽样方法获得,并应有足够的数量2.死亡例数不能太少(30)3.删失值比例不能太大4.生存时间尽可能精确到天数,因为多数生存分析方法都在生存时间排序的基础上作统计处理的,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果5.缺项要尽量补齐第四节第四节 Cox回归分析回
11、归分析 1972年英国生物统计学家D.R.Cox提出了半参数方法,称为比例风险模型(proportional hazard model),亦称为Cox回归模型。Cox回归模型是将生存时间和影响生存时间的因素之间建立回归方式,使两者之间的关系以数量来表达,Cox回归主要解决多因素(如年龄、职业、吸烟、病情、治疗等)对生存期的影响。由于生存数据不仅包含生存时间t,同时还有截尾数据,这就造成了用回归方法来研究生存时间的困难,因此Cox将协变量对生存期的影响表现为它对危险函数的关系上,以危险度h(t)作为因变量(时间变量),解决了截尾的困难,使具有生存资料的多因素分析成为可能。Cox regressi
12、on analysisCox模型的基本形式模型的基本形式变量的引入不显著变量的剔除和新检验,用于模型中原有)(型中剔除模型中的变量是否从模检验:稳健性好,用于)(新变量是否选入模型检验:稳健性差,用于)(三种:回归系数检验的方法有,)估计和检验参数建立偏似然函数(由风险函数的条件概率的估计与检验回归系数亡的风险越小;的值越小,表示病人死取值越大时,时,则当亡的风险越大;的值越大,表示病人死取值越大时,时,则当归系数。分别为观察变量及其回,数),的基础风险率(基准函是所有危险因素为)率或瞬间死亡率(为风险函数,又称风险其中数为:回归假定病人的风险函模型ratiolikelihoodaximumm
13、WaldScorebfunctionlikehoodpartialbthxbthxbbxthratefailureaneoustantinstheththCoxCoxjjjjjjxbxbxbpp321.2)(0)(00)(,)(,)()(.1002211例例20-3 某医药公司与中山医科大学协作,研究天花粉注射治疗绒癌的疗效问题。将16只体表接种绒癌成功的裸鼠分为4组,其中一组作空白对照,其余三组分别注射天花粉、甲药和乙药,实验记录和整理数据见表,试作Cox回归分析。编号NO变量观察记录整理带瘤天数td瘤体大小V0天花粉tr1甲药tr2乙药tr3维生素CvitC开始日期Date 0终止日期Da
14、te 1结局(死)d生存天数day11925000189-05-2089-05-281821716000189-05-2089-05-291931937000189-05-2089-05-281841619000189-05-2089-05-281851425100189-05-2089-05-0701861318100189-05-2089-05-0611771625100189-05-2089-05-031148910100189-05-2089-05-041159922010189-05-2089-05-04115101025010189-05-2089-05-3111111142501
15、0189-05-2089-05-02113121237010189-05-2089-05-01112131737001189-05-2089-05-2919141429001189-05-2089-05-01112151313001189-05-2089-05-01112161731001189-05-2089-05-30110裸鼠绒癌疗效观察数据单因素单因素Cox 回归分析回归分析SAS程序程序Data lx177;Input td v0 tr1 tr2 tr3 vitc day d;Cards;19 25 0 0 0 1 8 1 17 16 0 0 0 1 9 1 19 37 0 0 0
16、1 8 116 19 0 0 0 1 8 1 14 25 1 0 0 1 18 0 13 18 1 0 0 1 17 116 25 1 0 0 1 14 1 9 10 1 0 0 1 15 1 9 22 0 1 0 1 15 110 25 0 1 0 1 11 1 14 25 0 1 0 1 13 1 12 37 0 1 0 1 12 117 37 0 0 1 1 9 1 14 29 0 0 1 1 12 1 13 13 0 0 1 1 12 117 31 0 0 1 1 10 1;Proc phreg ;(调用Cox模块)model day*d(0)=td (day为时间变量,y为截尾变量,
17、变量值0表示截尾数据,td为单因素)/selection=forward;(向前法筛选,score 检验,只考虑变量td,同理可替换tr1,tr2,tr3,v0)run;单因素单因素Cox 回归分析结果回归分析结果单因素Cox 回归分析统计结果变量统计描述单独效应例数最小值最大值均数标准差2统计量 自由度P值d160.001.000.93750.2500day168.0018.0011.93753.2193td169.0019.0014.31253.21914.703310.0301tr1160.001.000.25000.44726.631810.0100tr2160.001.000.250
18、00.44720.009110.9238tr3160.001.000.25000.44721.198510.2736v01610.0037.0024.62508.26941.423810.2328多因素多因素Cox 回归分析回归分析SAS程序程序Data lx177;Input td v0 tr1 tr2 tr3 vitc day d;(考虑剔除tr2和vitC)Cards;19 25 0 0 0 1 8 1 17 16 0 0 0 1 9 1 19 37 0 0 0 1 8 116 19 0 0 0 1 8 1 14 25 1 0 0 1 18 0 13 18 1 0 0 1 17 116
19、25 1 0 0 1 14 1 9 10 1 0 0 1 15 1 9 22 0 1 0 1 15 110 25 0 1 0 1 11 1 14 25 0 1 0 1 13 1 12 37 0 1 0 1 12 117 37 0 0 1 1 9 1 14 29 0 0 1 1 12 1 13 13 0 0 1 1 12 117 31 0 0 1 1 10 1;Proc phreg ;(调用Cox模块)model day*d(0)=td v0 tr1 tr3 (day为时间变量,y为截尾变量,变量值0表示截尾数据)/selection=stepwise;(逐步法筛选)run;多因素多因素Cox
20、回归分析结果回归分析结果Parameter Standard Wald Pr Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio td 1 0.420120 0.16296 6.64668 0.0099 1.522 tr1 1 -2.939928 1.07139 7.52967 0.0061 0.053Variable N Mean Std Dev Minimum Maximumtd 16 14.3125000 3.2190837 9.0000000 19.0000000v0 16 24.6250000 8.2694216 1
21、0.0000000 37.0000000tr1 16 0.2500000 0.4472136 0 1.0000000tr2 16 0.2500000 0.4472136 0 1.0000000tr3 16 0.2500000 0.4472136 0 1.0000000y 16 0.9375000 0.2500000 0 1.0000000day 16 11.9375000 3.2139021 8.0000000 18.0000000 4790.04472.00714.1,3148.14472.09399.215246.02191.31630.0,3524.12191.34201.0SbSEbS
22、EbSbtrSbSEbSEbSbtd标准化标准误的标准化回归系数变量标准化标准误的标准化回归系数变量3.风险效应指标型资料。模型中的变量宜用等级以这种现象不好解释。所倍。的天,危险度将是前一天表明带瘤天数每增加为带瘤天数,其本例变量的意义非常抽象。变量时,但当变量不是是有利因素。),提示倍(或后者的比较,前者的危险度是与表明变量水平,其危险比或本例:,危险度改变多少倍。表示变量增加一个单位)记为)变量的危险比(两者相差甚微。本例之间重要性的比较:,可直接用于不同因素反映标准化的相对水平而但不宜直接相互比较;平,反映因素作用的实际水互独立的条件下,意义有差别:在变量相统计意义相同,单实际和与标准
23、回归系数变量的回归系数CoxRRtdRRtrRRtreRRRRrotioriskbbbbbbbbtdtrbtrtd5221.11,5221.1101%29.50529.001,0529.0101,2,3148.1,3524.1)1(114.Cox回归生存率 Cox回归未定义基准风险函数h0(t),因而未能明确定义生存函数,常用近似法估计生存率,其中Bresslow法应用最广。设n为样本例数,d为死亡例数,ti为死亡时刻,m为死亡时刻数目。在例例17.7中,n=16,d=15,ti=8、9、10、11、12、13、14、15、17天,m=9;定义ti时刻的基准生存率的估计式为:kxkbxbxbk
24、keiiiiijijjxbxbxbiitStStttSjedtS22112211)()(0)(1)(0010时刻的生存率为:一般病人在时刻的生存率。的病人在代表所有变量均为时刻暴露人群求和。表示对式中Cox 回归生存率的统计描述回归生存率的统计描述1.样本生存率 以每个病人的变量值分别估计生存率,用以绘制生存率与生存时间的散点图,反映样本生存率的变动情况(n个)。2.平均生存曲线 以变量的平均值估计ti时刻的生存率(m个),反映样本生存率的平均水平。3.按变量分类生存曲线 以指定的变量水平估计ti时刻的生存率(每类m个),用于变量不同水平组之间的比较。4.预后指数分类生存曲线 记x1,x2,x
25、k为经标准化变换的变量,b1,b2,bk是Cox回归的标准化回归系数,即:2211kkxbxbxbPIPI=0代表危险率处于平均水平;PI0表示危险率高于平均水平称为预后指数(prognostic index)Cox 回归生存率的估计回归生存率的估计9918.09996.081188558.09996.080189281.09996.0)8(872883.09996.0832773.09996.0832773.09996.0889996.0318,0161919,38)()(1)(0,9399.2,4201.0)9399.2(14201.03125.14)9399.2(04201.03125.
26、14)9399.2(2500.04201.03125.14)9399.2(04201.016)9399.2(04201.019)9399.2(04201.01911113125.14,113125.14,014319399.204201.0169399.204201.0199399.204201.01901110101etdtretdtreMeeetrtdeiiijjxbxbiitrtdStrStrSSSSeeeSxxdttStSedtSbbtrxtrbtdxtdbtrtrtdtd)(分类的生存率天的生存日数为)(分类的生存率天的生存日数为天的平均生存率生存日数为)()()(:天的样本生存率分
27、别为生存日数为)(则,、时,当和。似为其它变量偏回归系数近已知:编号编号编号)()()(t2=99802.09991.09:1196854.09991.09:0198343.09991.09:931083.09991.0931083.09991.0999991.0219996.0900,1717,29)9399.2(14201.03125.14)9399.2(04201.03125.14)9399.2(2500.04201.03125.14)9399.2(04201.017)9399.2(04201.0173125.14,113125.14,011329399.204201.0170122et
28、dtretdtreMeetrtdStrStrSSSeSxxdt)(分类的生存率天的生存日数为)(分类的生存率天的生存日数为)(天的平均生存率生存日数为)()(:天的样本生存率分别为生存日数为)(则,、时,当编号编号)(t3=109689.09985.010:11105499.09985.010:01107507.09985.010:1015731.09985.010109985.0119991.0100,17,110)9399.2(14201.03125.14)9399.2(04201.03125.14)9399.2(2500.04201.03125.14)9399.2(04201.01731
29、25.14,113125.14,01169399.204201.0170133etdtretdtreMetrtdStrStrSSeSxxdt)(分类的生存率天的生存日数为)(分类的生存率天的生存日数为)(天的平均生存率生存日数为)(天的样本生存率为:生存日数为)(则,时,当编号)(t3=171099.09208.017:11170000.09208.017:01170000.09208.017:1728019.09028.017179028.0119402.0171,13,117)9399.2(14201.03125.14)9399.2(04201.03125.14)9399.2(2500.0
30、4201.03125.14)9399.2(14201.0133125.14,113125.14,0169399.214201.0130199etdtretdtreMetrtdStrStrSSeSxxdt)(分类的生存率天的生存日数为)(分类的生存率天的生存日数为)(天的平均生存率生存日数为)(天的样本生存率为:生存日数为)(则,时,当编号)(表表20-3 Cox 回归分析生存率估计回归分析生存率估计生存天数 样本生存率 生存日数 基准生存率 平均生存率变量分类预后指数分类dayS(t)dayS0(t)SMtr1=0tr1=1PI-1-1PI1PI180.3277301.00001.00001.
31、00001.00001.00001.00001.000090.3108380.99960.92810.85580.99181.00001.00000.500080.3277390.99910.83430.68540.98021.00001.00000.166780.72883100.99850.75070.54990.96891.00000.99990.0000180.14419110.99770.64270.39770.95240.97210.80970.0000170.28019120.99400.30530.08420.87740.84680.28960.0000140.41373130
32、.99020.14400.01760.80760.74920.11630.0000150.86681140.98010.01950.00030.64770.59940.02200.0000150.06697150.94020.00000.00000.26400.29970.00010.0000110.86018170.90280.00000.00000.10990.14980.00000.0000130.02891120.3920090.31083120.11420120.24039100.15731例例20-3 Cox 回归分析曲线回归分析曲线Cox 回归分析模型注意事项回归分析模型注意事项
33、1.应用条件 除生存资料的基本条件要求外,还要求因素对寿命的作用(回归系数b)不随时间变化。例如,观察年限超过10年时,癌症手术放疗的治疗作用可能逐渐消失,从而不满足这一要求。样本含量不宜过小,一般在40例以上,随着变量增多,样本量也要加大,要求样本量为观察量的520倍,两组资料比较时,例数尽可能一致。2.因素分析 选入模型的变量是统计学上的有关变量,不一定都与寿命有因果关系,其中某些变量可能只有伴随关系;未选入模型的变量不一定是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或试验中对该因素进行了控制而引起的(如例17.7中肿瘤大小v0被控制在基本相同的水平上)。在进行Cox模型分析前,应当对资料做单因素的统计分析(如2检验、Log-rank检验等),确定影响因素。3.综合分析 由于实际资料中变量之间常存在一定的相关关系,使得筛选出来的模型有时在医学上不易解释,此时可采用多种方案筛选变量(如主成分分析法或聚类分析法消除多元共线性),当获得变量组合不同的几个模型时,结合专业知识作综合权衡。