1、2一、生存分析的意义一、生存分析的意义34观察某观察某“手术或化疗手术或化疗”对恶性肿瘤病人的疗效,可将对恶性肿瘤病人的疗效,可将“手术或化疗手术或化疗”代替代替“出生出生”,用生存分析来分析接,用生存分析来分析接受该处理患者的生存时间以及活过某时点的概率。受该处理患者的生存时间以及活过某时点的概率。以第一次心肌梗死代替以第一次心肌梗死代替“出生出生”,以第二次心肌梗死,以第二次心肌梗死代替代替“死亡死亡”,用生存分析可以预计在多少年或月内,用生存分析可以预计在多少年或月内发生第二次心肌梗死的概率。发生第二次心肌梗死的概率。一般而言,能够明确划分一般而言,能够明确划分的现象,即凡的现象,即凡涉
2、及事物寿命现象的问题,均可以用生存分析的原涉及事物寿命现象的问题,均可以用生存分析的原理和方法来进行研究。理和方法来进行研究。5二、生存分析的基本概念二、生存分析的基本概念6(一)生存分析的基本术语(一)生存分析的基本术语1、“死亡死亡”事件或称失败事件事件或称失败事件(failure event)2、截尾值、截尾值(censored value)3、生存时间、生存时间(survival time)4、生存率、生存率(survival rate)782、截尾值、截尾值(censored value):删失值。:删失值。有的观察对象终止随访不是由于失败事件发生,有的观察对象终止随访不是由于失败事
3、件发生,而是由于而是由于中途失访、死于其它原因、随访截止中途失访、死于其它原因、随访截止。由由于不知道这些观察对象发生失败事件的时间,他们于不知道这些观察对象发生失败事件的时间,他们的资料不能提供完全的信息,这些对象的观察值称的资料不能提供完全的信息,这些对象的观察值称为截尾值,常用符号为截尾值,常用符号“+”表示。如表示。如140+天。天。93、生存时间、生存时间(survival time)即随访观察持续的实足时间,按失败事件发生或即随访观察持续的实足时间,按失败事件发生或失访前最后一次的随访时间记录。按天、周、月、失访前最后一次的随访时间记录。按天、周、月、年等时间单位记录,常用符号年等
4、时间单位记录,常用符号t表示。表示。一般情况下较细的时间单位准确性较高,应尽量一般情况下较细的时间单位准确性较高,应尽量以个体为单位采用较细的时间单位来记录。但在许以个体为单位采用较细的时间单位来记录。但在许多大型的随访中,不可能做到按个体记录,常见的多大型的随访中,不可能做到按个体记录,常见的是按固定时间段(如一月一次等)记录有多少人失是按固定时间段(如一月一次等)记录有多少人失访及多少人发生失败事件,此为分组生存资料。访及多少人发生失败事件,此为分组生存资料。10l如某病人如某病人1990年年2月月1日进入随访,日进入随访,1992年年4月间发生月间发生失败事件,他的生存时间为失败事件,他
5、的生存时间为t=26月;月;l 又如某白血病患者化疗又如某白血病患者化疗3月后失去联系,他的随访月后失去联系,他的随访结果为一截尾值,生存时间记为结果为一截尾值,生存时间记为t=3+月;月;l 安放心脏起搏器患者术后安放心脏起搏器患者术后2年因意外事故死亡,他年因意外事故死亡,他的随访结果也为一截尾值,生存时间记为的随访结果也为一截尾值,生存时间记为t=2+年。年。l某医院对某医院对100100例原发性肝癌例原发性肝癌生存情况随访结果生存情况随访结果114、生存率、生存率(survival rate)实际应当是生存概率,指某个观察对象活过实际应当是生存概率,指某个观察对象活过t时时刻的概率,常
6、用刻的概率,常用P(Xt)表示。如表示。如P(X10)表示某对表示某对象活过象活过10天天(或或10月、月、10年年)的概率。的概率。根据不同随访资料的失败事件,生存率可以是根据不同随访资料的失败事件,生存率可以是缓解率、有效率等。缓解率、有效率等。12(二)随访内容(二)随访内容1、每个观察对象有明确的开始随访时间、每个观察对象有明确的开始随访时间2、随访结局和终止随访时间、随访结局和终止随访时间3、记录影响生存的有关因素、记录影响生存的有关因素13随访结局和终止随访时间随访结局和终止随访时间(1)“死亡死亡”:即处理失败,终止随访时间为:即处理失败,终止随访时间为“死死亡亡”时间。时间。(
7、2)中途失访:如失去联系、中途退出等,终止随)中途失访:如失去联系、中途退出等,终止随访时间为最后一次访问时间为准。访时间为最后一次访问时间为准。(3)死于其它与研究疾病无关的原因,终止随访时)死于其它与研究疾病无关的原因,终止随访时间为死亡时间。间为死亡时间。(4)随访截止:随访研究结束时观察对象仍存活,)随访截止:随访研究结束时观察对象仍存活,终止随访时间为研究结束时间。终止随访时间为研究结束时间。14记录影响生存的有关因素记录影响生存的有关因素 如病人年龄、病程、健康状况、经济、文化、如病人年龄、病程、健康状况、经济、文化、职业等因素,以便分析这些因素对生存率的影响。职业等因素,以便分析
8、这些因素对生存率的影响。15随访资料数据的特点:随访资料数据的特点:(1)应变量有两个,即生存时间(天数)和结局(死亡与否)。)应变量有两个,即生存时间(天数)和结局(死亡与否)。(2)生存时间存在观察不完全的数据。)生存时间存在观察不完全的数据。16(三)随访方式(三)随访方式1、全体观察对象同时接受处理,观察到最后一例、全体观察对象同时接受处理,观察到最后一例出现结果,或者事先规定的随访截止时间。出现结果,或者事先规定的随访截止时间。2、全体观察对象在不同时间接受处理,根据完成、全体观察对象在不同时间接受处理,根据完成一定数量随访病例决定随访截止时间,或者按事先一定数量随访病例决定随访截止
9、时间,或者按事先规定的时间停止随访。这种方式较为常见。规定的时间停止随访。这种方式较为常见。17“”表示表示“死亡死亡”;“o”表示失访退出研究或死于与本处理无关的表示失访退出研究或死于与本处理无关的其它原因。其它原因。18(四)生存分析的主要内容和基本方法(四)生存分析的主要内容和基本方法1、描述生存过程、描述生存过程 研究人群生存状态的规律,如生存时间的分布特研究人群生存状态的规律,如生存时间的分布特点,计算某个时点的生存率、生存率曲线的变动趋势点,计算某个时点的生存率、生存率曲线的变动趋势等。等。例如根据白血病化疗后的缓解年数资料,可以估例如根据白血病化疗后的缓解年数资料,可以估计不同年
10、数的缓解率计不同年数的缓解率P(Xt),如,如P(X3)、P(X5)等,等,也可以获得这些病人的缓解率曲线。也可以获得这些病人的缓解率曲线。常用方法:常用方法:和和。192、比较生存过程、比较生存过程 两组或多组生存曲线比较。两组或多组生存曲线比较。常用方法:常用方法:对数秩检验对数秩检验、Gehan比分检验、比分检验、Breslow检验。检验。203、生存过程的影响因素分析、生存过程的影响因素分析 比较不同亚人群的生存状况,进行两组或多组生比较不同亚人群的生存状况,进行两组或多组生存率比较,以了解哪些因素会影响目标人群的生存过存率比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法
11、最重要的研究内容,在临床医程,这是生存分析方法最重要的研究内容,在临床医学中应用非常广泛。学中应用非常广泛。例如分析影响乳腺癌病人手术后预后的因素,可例如分析影响乳腺癌病人手术后预后的因素,可以是病人的年龄、病程、术前健康状况、有无淋巴结以是病人的年龄、病程、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养等。转移、术后有无感染、辅助治疗措施、营养等。21三、生存资料的统计描述和生存三、生存资料的统计描述和生存率的区间估计率的区间估计例:某种治疗方案治疗例:某种治疗方案治疗期肺癌患者期肺癌患者11例,随访时间例,随访时间(月月)记记录如下:录如下:l,2,3,5,6,9+,11,
12、13,16,26,37+试估计各时点生存率及其标准误。试估计各时点生存率及其标准误。220.1030.1030.10910.10911 10 01 10 037+37+0.1030.1030.10910.10911-1/21-1/21/21/22 21 126260.13640.13640.21820.21821-1/31-1/31/31/33 31 116160.1550.1550.32730.32731-1/41-1/41/41/44 41 113130.16380.16380.43640.43641-1/51-1/51/51/55 51 111110.15010.15010.54550.
13、54551 10 06 60 09+9+0.15010.15010.54550.54551-1/71-1/71/71/77 71 16 60.1450.1450.63640.63641-1/81-1/81/81/88 81 15 50.13430.13430.72730.72731-1/91-1/91/91/99 91 13 30.11630.11630.81820.81821-1/101-1/101/101/1010101 12 20.08670.08670.90910.90911-1/111-1/111/111/1111111 11 1(7)(7)(6)(6)(5)(5)(4)(4)(3)
14、(3)(2)(2)(1)(1)Sp(xt)p(xt)qxnxdxx生存率的生存率的标准误标准误生存率生存率条件生存条件生存概率概率条件死亡条件死亡概率概率期初病例数期初病例数死亡数死亡数生存时间生存时间(月月)0.1030.1030.10910.10911 10 01 10 037+37+0.1030.1030.10910.10911-1/21-1/21/21/22 21 126260.13640.13640.21820.21821-1/31-1/31/31/33 31 116160.1550.1550.32730.32731-1/41-1/41/41/44 41 113130.16380.1
15、6380.43640.43641-1/51-1/51/51/55 51 111110.15010.15010.54550.54551 10 06 60 09+9+0.15010.15010.54550.54551-1/71-1/71/71/77 71 16 60.1450.1450.63640.63641-1/81-1/81/81/88 81 15 50.13430.13430.72730.72731-1/91-1/91/91/99 91 13 30.11630.11630.81820.81821-1/101-1/101/101/1010101 12 20.08670.08670.90910.
16、90911-1/111-1/111/111/1111111 11 1(7)(7)(6)(6)(5)(5)(4)(4)(3)(3)(2)(2)(1)(1)Sp(xt)p(xt)qxnxdxx生存率的生存率的标准误标准误生存率生存率条件生存条件生存概率概率条件死亡条件死亡概率概率期初病例数期初病例数死亡数死亡数生存时间生存时间(月月)xp 23(1 1)死亡数()死亡数(d dx x):与生存时间对应的发生死):与生存时间对应的发生死亡时间的人数。亡时间的人数。(2 2)期初病例数()期初病例数(n nx x):恰好在):恰好在X X时刻以前的病时刻以前的病例数。例数。(3 3)条件死亡概率()条
17、件死亡概率(q qx x):恰好在):恰好在X X月前的观察月前的观察对象在对象在X X月时点死亡的概率。月时点死亡的概率。(4 4)条件生存概率:恰好在)条件生存概率:恰好在X X月前的观察对象活月前的观察对象活过过X X月时点的概率。月时点的概率。xxxndq xxxxnd1q1p 24(5 5)生存率)生存率 P(XP(Xt)t):即观察对象活过某时点:即观察对象活过某时点的概率。的概率。某时点的生存率为某时点的生存率为t t时刻的各时点条件生时刻的各时点条件生存率的乘积。存率的乘积。xx)tx(pdn)tx(p1)tx(ps 7273.0p p p)3x(pp)tx(p321x 如如:
18、(6)生存率的标准误:)生存率的标准误:25Survival Analysis for TIME Survival Analysis for TIME 随访时间(月)随访时间(月)死亡数死亡数 生存率生存率 生存率标准误生存率标准误 累积死亡数累积死亡数 期末存活数期末存活数 1 1 .9091 .0867 1 10 1 1 .9091 .0867 1 10 2 1 .8182 .1163 2 9 2 1 .8182 .1163 2 9 3 1 .7273 .1343 3 8 3 1 .7273 .1343 3 8 5 1 .6364 .1450 4 7 5 1 .6364 .1450 4 7
19、 6 1 .5455 .1501 5 6 6 1 .5455 .1501 5 6 9 0 9 0 5 5 5 5 11 1 .4364 .1547 6 4 11 1 .4364 .1547 6 4 13 1 .3273 .1497 7 3 13 1 .3273 .1497 7 3 16 1 .2182 16 1 .2182 .1337 8 2.1337 8 2 26 1 .1091 .1021 9 1 26 1 .1091 .1021 9 1 37 0 9 0 37 0 9 0 Number of Cases:11 Censored:2 (18.18%)EveNumber of Cases:1
20、1 Censored:2 (18.18%)Events:9nts:9 Survival Time Standard Error 95%Confidence Interval Survival Time Standard Error 95%Confidence Interval 平均存活时间平均存活时间:1313 4 (6,20)4 (6,20)(Limited to 37)(Limited to 37)中位存活时间中位存活时间:1111 5 (2,20)5 (2,20)26Survival Table11.909.08711021.818.1162931.727.1343851.636.145
21、4761.545.1505690.55111.436.15564131.327.15073161.218.13482261.109.10291370.901234567891011TimeStatusEstimateStd.ErrorCumulative ProportionSurviving at the TimeN ofCumulativeEventsN ofRemainingCases27Means and Medians for Survival Time12.7823.5215.88219.68211.0004.6421.90120.099EstimateStd.ErrorLower
22、 BoundUpper Bound95%Confidence IntervalEstimateStd.ErrorLower BoundUpper Bound95%Confidence IntervalMeanaMedianEstimation is limited to the largest survival time if it is censored.a.2829生存率曲线阶梯曲线生存率曲线阶梯曲线(Kaplan-Meier曲线)曲线)Survival Function随访时间(月)4035302520151050Cum Survival1.21.0.8.6.4.20.0Survival
23、 FunctionCensored30 由图可直观地比较各样本的生存率曲线,由图可直观地比较各样本的生存率曲线,也可对某一病例任意时刻的生存率作出估计,也可对某一病例任意时刻的生存率作出估计,反之亦可由任意生存率估计生存时间。反之亦可由任意生存率估计生存时间。本例本例中位生存时间中位生存时间为为1111个月。个月。中位生存时间常用于比较随访资料。中位生存时间常用于比较随访资料。31)()(txpsutxp 公式为:公式为:8397.01501.096.15455.096.1)6(2513.01501.096.15455.096.1)6()6()6(xpxpsxpsxp上限:上限:下限:下限:3
24、23334例某医院对例某医院对100100例原发性肝癌患者确诊后进行随例原发性肝癌患者确诊后进行随访,得资料见下表,根据此资料进行分组资料生存率访,得资料见下表,根据此资料进行分组资料生存率和标准误的计算。和标准误的计算。353637Survival FunctionCases weighted by 人数生存时间1086420Cum Survival1.21.0.8.6.4.20.0生存率曲线生存率曲线与未分组资料的生存率与未分组资料的生存率曲线的不同之处是:曲线的不同之处是:生存率的各点在各生存率的各点在各组段的上限处,用折线组段的上限处,用折线连接各点。连接各点。38用正态近似原理估计某
25、时点总体生存率的可信区用正态近似原理估计某时点总体生存率的可信区间。间。00pnnsup 如本例如本例3个月时生存率的个月时生存率的95%可信区间为:可信区间为:3620.00457.096.12724.0 1828.00457.096.12724.0 :上限:上限:下限下限3940411 )(22 组数组数 TTAx42Overall Comparisons4.6451.031Log Rank(Mantel-Cox)Chi-SquaredfSig.Test of equality of survival distributions for the different levels of 组别
26、.43Survival Functions观察时间(月)50403020100Cum Survival1.21.0.8.6.4.20.0组别 2 2-censored 1 1-censored两组生存率曲线的比较两组生存率曲线的比较44H H0 0:单放疗组与放化疗组的生存率曲线分布相同:单放疗组与放化疗组的生存率曲线分布相同H H1 1:单放疗组与放化疗组的生存率曲线分布不同:单放疗组与放化疗组的生存率曲线分布不同 =0.05=0.05计算检验统计量:计算检验统计量:X X2 2=4.65=4.65,得得 P=0.03P=0.03按按 =0.05=0.05水准,拒绝水准,拒绝H H0 0 ,
27、接受,接受H H1 1 ,故认为,故认为单放单放疗组与放化疗组的生存率曲线分布不同疗组与放化疗组的生存率曲线分布不同。45五、生存分析的注意事项五、生存分析的注意事项1.生存资料的基本要求:生存资料的基本要求:样本由随机抽样方法获得,并应有足够的数量;样本由随机抽样方法获得,并应有足够的数量;截尾值比例不能太大;截尾值比例不能太大;生存时间尽可能精确到天数;生存时间尽可能精确到天数;缺项要尽量补齐。缺项要尽量补齐。462.生存率比较注意事项:生存率比较注意事项:当比较不同治疗方案的治疗效果时,仅比较某个时点的当比较不同治疗方案的治疗效果时,仅比较某个时点的生存率,有时可能出现不正确的结论。事实
28、上,每一种生存率,有时可能出现不正确的结论。事实上,每一种防治措施的效果都是一条防治措施的效果都是一条时间效应曲线时间效应曲线,所以评价该措,所以评价该措施的效果应对这条时间效应曲线进行施的效果应对这条时间效应曲线进行全面评价全面评价,而不是,而不是仅对某个时点的生存率进行评价。仅对某个时点的生存率进行评价。对数秩检验要求各组生存曲线不能交叉;若有交叉提示对数秩检验要求各组生存曲线不能交叉;若有交叉提示存在混杂因素,应采用分层处理或多因素分析来校正混存在混杂因素,应采用分层处理或多因素分析来校正混杂作用。杂作用。47手术疗法和化学疗法治疗乳腺癌的疗效比较手术疗法和化学疗法治疗乳腺癌的疗效比较4
29、8图图8-1 8-1 两组病人生存率曲线示意两组病人生存率曲线示意Cox风险比例回归风险比例回归(Cox regression)50v用途:用途:专门用于生存时间的多变量分析法。专门用于生存时间的多变量分析法。v模型结构:模型结构:设共有设共有n例病人,第例病人,第i(i=1,2,n)例病人的生存时例病人的生存时间为间为ti,并且有并且有p个预后因素个预后因素Xi1,Xi2,Xip。该病人生存到时间该病人生存到时间ti时死亡风险函数(时死亡风险函数(hazard function)hi(t)是基准风险函数是基准风险函数h0(t)与预后因素)与预后因素函数函数f(jX)的乘积,而预后因素函数为:
30、的乘积,而预后因素函数为:f(jX)=exp(1Xi1+2Xi2+pXip)51vCox回归假定病人的风险函数为:回归假定病人的风险函数为:hi(t)=h0(t)exp(1Xi1+2Xi2+pXip)式中:式中:hi(t)风险函数,又称风险率或瞬间死亡率风险函数,又称风险率或瞬间死亡率(instantaneous failure rate)H0(t)基准风险函数,是当所有预后因素都处于基准风险函数,是当所有预后因素都处于0(或标准)状态下的风险函数(或标准)状态下的风险函数X观察变量观察变量j回归系数(回归系数(j=1,2,p)52对上式进行变换,可得:对上式进行变换,可得:ipp2i21i1
31、0iXXX)t(h)t(hln 由此可知,由此可知,j的临床意义是:的临床意义是:在其它预后因素固定不变的情况下,预后因素在其它预后因素固定不变的情况下,预后因素Xj每改变一每改变一个观察单位时所引起的相对风险度改变量的自然对数值。个观察单位时所引起的相对风险度改变量的自然对数值。当当j0时,时,Xj增加使相对风险度增加,是危险因素;增加使相对风险度增加,是危险因素;当当j0时,时,Xj增加使相对风险度减少,是保护因素。增加使相对风险度减少,是保护因素。53v例:例:某医药公司与中山医科大学协作,研究天花粉注射治某医药公司与中山医科大学协作,研究天花粉注射治疗绒癌的疗效问题。将疗绒癌的疗效问题
32、。将16只体表接种绒癌成功只体表接种绒癌成功 的裸鼠分为的裸鼠分为4组,其中一组作空白对照,其余三组分别注射天花粉、甲药组,其中一组作空白对照,其余三组分别注射天花粉、甲药和乙药,实验记录和整理数据如表,试作和乙药,实验记录和整理数据如表,试作Cox回归分析。回归分析。SPSS过程过程5455vCox回归变量筛选回归变量筛选当变量数目较多或质量较差时,在建立多因素当变量数目较多或质量较差时,在建立多因素模型之前,必须对变量作初步的筛选。模型之前,必须对变量作初步的筛选。1.一般方法:剔去缺失数据较多,或变异程度一般方法:剔去缺失数据较多,或变异程度几乎为几乎为0的变量(如的变量(如X6)。)。
33、56Variables not in the Equationa,b4.7031.0301.4241.2336.6321.010.0091.9241.1991.274X1X2X3X4X5ScoredfSig.Residual Chi Square=19.770 with 5 df Sig.=.001a.Beginning Block Number 0,initial Log Likelihoodfunction:-2 Log likelihood:-63.214b.2.单变量模型方法:可用单变量模型方法:可用Cox回归前进法筛选变量,回归前进法筛选变量,取变量筛选第取变量筛选第0步的步的Sco
34、re检验结果,作为单变量检验结果,作为单变量Cox回归分析结果。回归分析结果。其中其中X4的的P=0.924,可将其剔除。,可将其剔除。57Variables in the Equation-1.888.8055.5021.019.151.031.733.420.1636.6471.0101.5221.1062.095-2.9401.0717.5301.006.053.006.432X3Step 1X1X3Step 2BSEWalddfSig.Exp(B)LowerUpper95%CI for Exp(B)v变量的危险比(变量的危险比(risk ratio)risk ratio)RR=EXP(B)RR=EXP(B)表示协变量增加一个单位,危险度改变多少倍。表示协变量增加一个单位,危险度改变多少倍。58