1、 临床随访研究及分析临床随访研究及分析生存分析生存分析(survival analysis)实际问题n观察、比较两组肾移植病人手术后的生存时间和结局,在该研究中除考虑随访对象的结局(生存或死亡)外,还应考虑随访对象的“生存时间”,因为即使结局相同,而发生结局的快慢不同,仍可提示两组间存在差异n随访研究过程中研究对象可能会失访,或死于其他疾病,或因研究经费和时间的限制不可能等到所有的观察对象都出现结果才中止试验,这种现象称为截尾(censoring)或终检,截尾数据所提供的信息是不完全的(incomplete),但不考虑或不利用这类数据又是信息的损失 n生存分析生存分析(survival ana
2、lysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。n生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。前前 言言4.1 生存分析基本概念生存分析基本概念4.1.1生存时间生存时间 (survival time,failure time)n终点事件终点事件与与起始事件起始事件之间的时间间隔。之间的时间间隔。n终点事件指研究者所关心的特定结局。终点事件指研究者所关心的特定结局。n起始事件是反映研究对象生存过程的起起始事件是反映研究对象生存过程的起 始特征的事件。始特征的事件。生存时间举例生存时间举例 起始事件起始
3、事件 终点事件终点事件 服药服药 痊愈痊愈 手术切除手术切除 死亡死亡 染毒染毒 死亡死亡 化疗化疗 缓解缓解 缓解缓解 复发复发n终点事件和起始事件是相对而言的,终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,明确规定,并在研究期间严格遵守,不能随意改变。不能随意改变。4.1.2观察结果(outcome)n所谓观察结果就是我们关心的终点事件n在生存分析中称终检变量(censored variable)或死亡变量(dead variable)n当被观察对象出现终点事件记为1,否则记为0(统称为截尾)4.1.3生存时
4、间的类型生存时间的类型1.完全数据(complete data)从起点至死亡(死于所研究疾病)所经历的时间。出现结局事件2.截尾数据(删失数据,censored data)从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。例如:例如:某肿瘤医院调查了1991-1995年间经手术治疗的大肠癌患者150例,对可能影响大肠癌术后生存时间的因素进行了调查,如性别、年龄、组织学分类、肿瘤大小、DureS分期等。随访截止日期为2000年12月30日,随访记录见下表。大肠癌患者的随访记录大肠癌患者的随访记录 编号编号 性别性别 年龄年龄 手术日期手术日期 随访终止日期随访终止
5、日期 随访结局随访结局 生存时间生存时间(天天)1 男男 45 1991.05.20 1995.06.04 死亡死亡 1476 2 男男 50 1992.01.12 1998.08.25 死亡死亡 2417 3 女女 36 1991.10.24 1994.03.18 失访失访 876+4 男男 52 1994.11.02 2000.12.30 存活存活 2250+5 女女 56 1994.06.25 1995.03.17 死亡死亡 265 6 女女 60 1993.12.05 1996.08.16 死于其它死于其它 985+生存时间生存时间n生存时间的度量单位可以是年、月、生存时间的度量单位可
6、以是年、月、日、小时等。常用符号日、小时等。常用符号t t表示,截尾数表示,截尾数据在其右上角标记据在其右上角标记“+”+”。n生存资料的主要特点:生存资料的主要特点:q含有截尾数据。含有截尾数据。q截尾数据的特点:真实的生存时间未知,截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。只知道比观察到的截尾生存时间要长。q生存时间的分布一般不呈正态分布。生存时间的分布一般不呈正态分布。例15.5 102名黑色素瘤患者的生存时间(月)如下 0.00.00.00.20.40.90.91.11.21.21.31.51.61.61.71.92.12.52.52.72.83.53.83
7、.93.93.94.04.14.24.24.34.44.54.64.74.95.25.85.85.96.06.06.16.26.36.76.76.97.07.37.47.47.77.77.88.08.08.38.48.58.79.39.810.110.510.511.011.111.412.513.313.313.513.813.813.814.615.916.116.116.518.019.320.020.520.621.221.521.822.223.624.324.425.425.826.528.028.729.336.436.542.0 频 数 time(Month)0 5 10 15
8、 20 25 30 35 40 45 0 10 20 30 40 102名黑色素瘤患者的生存时间的频数分布 4.2 常用观察指标及其估计 n半数生存时间(median survival time)表示50的个体存活且有50的个体死亡的时间 n102名黑色素瘤患者的中位生存时间为 M7.4(月)死亡概率(dead probability)n死亡概率指在某时间段内受试者死亡的可能性,记为 q.n与观察时间有关 生存概率(survival probability)n生存概率是指在某时间段内受试者生存的可能性,记为 p n与观察时间有关 n关系 同一时刻有:p=1-q 一般手术(A组):3915202
9、02630414664+64135223365450596+680+900+900+改进手术(B组):1070+70+120225366390+475+518+647+801+1001+1045+1045+某医院泌尿外科于1979-1982年间作了19例肾移植手术,拟了解肾移植后病人的生存时间(天)。规定随访开始时间为病人术后一天,死亡事件为该病人因与肾移植有关的各种原因而死亡。后改进手术方式,于1983-1986年又作了14例,资料如下(有+的数据表示该病人截尾)。n一般手术组患者,在20天前死亡3人,尚有16人活。n20天时有2名死亡,故20天时的死亡概率为2/16=0.125,生存概率为
10、1-0.125=0.875。n在64天前死亡9人,尚有10人存活,64天时失访1人,死亡1人,故64天时的死亡概率为1/10=0.1,生存概率为0.9。n到135天前,已死亡10人,失访1人,尚有8人确知存活。135天时,死亡1人,故135天时的死亡概率为1/8=0.125,生存概率为0.875 n生存函数生存函数(survival function),或累积生存,或累积生存概率概率(cumulative survival probability)指观察对象经历t个单位时段后仍存活的可能性。期初观察例数年例数活满年生存率55生存率生存率(survival rate)随访病人总数的病人数生存时间
11、ttTPtS)()(n102名黑色素瘤患者中的生存时间小于12个月的有69人,大于12个月的有33人,故其1年生存率为:。由于不同时间的生存人数不同,故不同时间的生存率不同%35.32102/33)12(tS 由例子可看出,生存率与生存概率不同,生存概率是单个时段的结果,而生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累积结果。例如,3年生存率是第1年存活,第2年也存活,第3年还存活的可能性。n生存曲线(survival curve)以观察(随访)时间为横轴,以生存率为纵,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是
12、一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓 的生存曲线表示高生存率或较长生存 期,陡峭的生存曲线表示低生存率或较 短生存期。随访时间 0 5 10 15 20 25 30 35 40 45 0.00 0.25 0.50 0.75 1.00 生存率图15.8 102名黑色素瘤患者的生存率(Kaplan-Meier)估计n该法是Kaplan和Meier于1958年首先提出,故又称Kaplan-Meier法 n利用条件概率乘法原理来估计生存率,即:乘积-极限法(product-limit,PL)iippptS21)(一般手术组的生存概率和生存率的计算见下表 编号生存时间outcome死
13、亡概率生存概率生存率1311/1918/190.9473682911/1817/180.89473731511/1716/170.8421054,52012/1614/160.73684262611/1413/140.68421173011/1312/130.63157984111/1211/120.57894794611/1110/110.526316106411/109/100.47368411640010.4736841213511/87/80.4144741322311/76/70.3552631436511/65/60.2960531545011/54/50.236842165960
14、010.236842176800010.23684218,199000010.236842 随访时间 0 200 400 600 800 1000 0.00 0.25 0.50 0.75 1.00 group 1 group 2 生存率 图15.9 两组手术方式生存概率(Kaplan-Meier)曲线生存率的标准误 n用Greenwood法估计 ijjjjjiidnndtStSSE1)()()(nj表示时刻tj的期初观察人数,dj表示tj时刻的死亡人数 生存率的可信区间 n用正态近似法,即100(1-)可信区间为:)()(iitSSEutS例如20天时的生存率为nS(t=20)=0.7368,
15、标准误为:0101.0)216(162)117(171)118(181)119(1917368.0)20(tSSE95的可信区间为:0.73681.960.0101=(0.7170,0.7566)生存曲线的生存曲线的log-rank检验检验log-ranklog-rank检验(对数秩检验、时序检验)检验(对数秩检验、时序检验)n该检验属非参数检验,用于比较两组或多组生该检验属非参数检验,用于比较两组或多组生存曲线或生存时间是否相同。存曲线或生存时间是否相同。n检验统计量为卡方。检验统计量为卡方。n自由度自由度=组数组数-1-1。nP0.05P0.05,两组或多组生存曲线不同。,两组或多组生存曲
16、线不同。P P0.050.05,两组或多组生存曲线差别无统计学,两组或多组生存曲线差别无统计学意义。意义。例15.7 对例15.2中两种手术方式下的肾移植病人的生存过程进行比较 n建立检验假设:H0:两组肾移植病人的生存过程相同;H1:两组肾移植病人的生存过程不同。n=0.05。n排秩次n计算各组在各观察时间的期初病例数 n计算各组在各观察时间的理论死亡人数 组别生存人数死亡人数合计期初观察人数A组18119B组14014合计32133观察时间为3时各组各时点期初生存人数和死亡人数四格表 5758.033119AT4242.033114BT各组理论死亡人数的计算与四格表中的理论数计算相同,组别
17、group 生存时间死亡数期初病例数 理论死亡数 合计A组B组A组B组TimedNNAnBd*nA/nd*nB/n(1)(2)(3)(4)(5)(6)(7)(8)A313319140.57580.4242A913218140.56250.4375B1013117140.54840.4516A1513017130.56670.4333A2022916131.10340.8966A2612714130.51850.4815A3012613130.50000.5000A4112512130.48000.5200A4612411130.45830.5417A6412310130.43480.5652A
18、64+022913B70+(2)021813B1201198110.42110.5789A1351188100.44440.5556A2231177100.41180.5882B2251166100.37500.6250A365115690.40000.6000B366114590.35710.6429B390+01358A450112570.41670.5833B475+01147B518+010A596+09B647+08A680+07B801+06A900+(2)05B1001+03B1045+(2)02n将各组理论死亡总数与实际死亡总数作比较 5561.64255.9)4255.94(
19、5745.8)5745.814()(2222TTA=组数1,P0.0105 可认为两组的生存过程有差别。改进手术组比一般手术组患者的生存率大 第四节第四节 Cox比例风险回归模型比例风险回归模型Coxs proportional hazards regression model),简称),简称Cox回归模型。回归模型。n 该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。n其优点:其优点:q多因素分析方法q不考虑生存时间分布q利用截尾数据一、一、Cox模型的基本形式模型的基本形式h(t,X)t时刻风险函数、风险率或瞬时死亡时刻风
20、险函数、风险率或瞬时死亡 率(率(hazard function)。)。h0(t)基准风险函数,即所有变量都取基准风险函数,即所有变量都取0时时t 时刻风险函数。时刻风险函数。X1、X2、Xp协变量、影响因素、预后协变量、影响因素、预后 因素。因素。1、2、p回归系数。回归系数。)exp()(),(22110ppXXXthXthmmxbxbxbthth22110)()(ln),|(),|(2121mmxxxthxxxth比值表示时间时个体暴露于危险因素状态(x1,x2,xm)与暴露于危险因素状态(x1,x2,xm)下发病的相对危险度(RR)。n0,RR1,说明变量,说明变量X增加时,危增加时,
21、危险率增加,即险率增加,即X是危险因素。是危险因素。n0,RR1,说明变量,说明变量X增加时,危增加时,危险率下降,即险率下降,即X是保护因素。是保护因素。n=0,RR=1,说明变量,说明变量X增加时,危增加时,危险率不变,即险率不变,即X是危险无关因素。是危险无关因素。eRR 二、参数估计与假设检验二、参数估计与假设检验(一)参数估计(一)参数估计 最大似然法最大似然法(二)假设检验(二)假设检验n似然比检验(似然比检验(likelihood ratio test)n得分检验(得分检验(score test)nWald检验(检验(Wald test)三、因素筛选与最优模型的建立三、因素筛选与
22、最优模型的建立n变量筛选方法变量筛选方法q向前引入法(前进法)向前引入法(前进法)Forwardq向后剔除法(后退法)向后剔除法(后退法)Backwardq逐步引入逐步引入-剔除法(逐步法)剔除法(逐步法)Stepwisen检验水准检验水准q初步的、探索性的研究,或变量数较少时,初步的、探索性的研究,或变量数较少时,可取可取0.10。q设计严谨的、证实性的研究,或变量数较设计严谨的、证实性的研究,或变量数较多时,可取多时,可取0.05或或0.01。q检验水准包括引入的检验水准和剔除的检检验水准包括引入的检验水准和剔除的检验水准。一般地,剔除验水准。一般地,剔除引入引入。分析结果(结果解释)分析
23、结果(结果解释)n与生存相关的因素与生存相关的因素n因素作用大小及方向:保护因素还是因素作用大小及方向:保护因素还是危险因素、相对危险度的大小。危险因素、相对危险度的大小。n因素作用大小排序:标准化回归系数因素作用大小排序:标准化回归系数的绝对值。的绝对值。分析结果(结果解释)分析结果(结果解释)p个体的预后指数及预后分组:个体的预后指数及预后分组:预后指数(预后指数(prognostic index,PI)=预后指数越小,预后越好;预后指数越小,预后越好;预后指数越大,预后越差。预后指数越大,预后越差。ppXbXbXb2211)exp()(),(22110ppXbXbXbthXth表17.1
24、4 25例某病人用两种治疗方法的生存时间编号NO.治疗生存观察肾功能kidney编号NO.治疗生存观察肾功能kidney方案时间结果方案时间结果Groupstimecensorgroupstimecensor108111311801020852001416321030521115122400040220101611951050631117176106081018170107019760019113118012960020123119014600021112961010063112212101011013280023170010120365002411811251199000n治疗方案(grou
25、p)是研究因素,而肾功能(kidney)是混杂因素。所得Cox比例风险模型如下:n表17.15 例17.5资料的Cox回归模型及变量的Walds检验n变 量系 数标准误z值P变 量系 数标准误z值Pgroup1.2430780.5993182.0740.049kidney4.1054551.1645333.5250.002由此即得Cox比例风险函数)105.4243.1exp()()(0kigneygroupthth或kidneygroupthth105.4243.1)()(ln0分析结果(结果解释)分析结果(结果解释)q肾功能正常者接受肾功能正常者接受B 方案治疗比接受方案治疗比接受A方案在
26、某时刻死亡的相对危险度方案在某时刻死亡的相对危险度q肾功能不正常者接受肾功能不正常者接受B 方案治疗比接受方案治疗比接受A方案在某时刻死亡的相对危险方案在某时刻死亡的相对危险度度kidneygroupthth105.4243.1)()(ln0466.3)243.1exp()0105.40243.1exp()()0105.41243.1exp()()0,0()0,1(00ththkidneygroupthkidneygroupthRR466.3)243.1exp()1105.40243.1exp()()1105.41243.1exp()()1,0()1,1(00ththkidneygroupth
27、kidneygroupthRR300.210)105.4243.1exp()0105.40243.1exp()()1105.41243.1exp()()0,0()1,1(00ththkidneygroupthkidneygroupthRRn肾功能不正常者接受肾功能不正常者接受B 方案治疗,比肾功能正常者方案治疗,比肾功能正常者接受接受A方案在某时刻死亡的相对危险度方案在某时刻死亡的相对危险度小结(论文报告中应写明)小结(论文报告中应写明)1材料与方法材料与方法n病例来源、起始事件、终点事件、观察终止时病例来源、起始事件、终点事件、观察终止时间、截尾情况、随访结果的获得方法,样本含间、截尾情况、
28、随访结果的获得方法,样本含量、截尾例数及百分比量、截尾例数及百分比(%)。n建立数据库方法建立数据库方法n统计学处理方法统计学处理方法 Kaplan-Meier法估计生存率法估计生存率 log-rank检验进行组间生存率比较检验进行组间生存率比较 Cox模型进行多因素分析模型进行多因素分析 2结果结果n估计估计:Kaplan-Meier生存率及生存曲线。生存率及生存曲线。n比较比较:log-rank检验卡方值及其检验卡方值及其P值。值。n因素分析及预测因素分析及预测:q变量赋值变量赋值(数量化方法数量化方法)表表q变量统计描述:变量统计描述:各组病例数和构成比(分类变量)各组病例数和构成比(分
29、类变量)均数和标准差(数值变量)均数和标准差(数值变量)q变量筛选方法及检验水准变量筛选方法及检验水准qCox回归结果及统计解释回归结果及统计解释Cox回归与多元线性回归、回归与多元线性回归、logistic回归的比较回归的比较多元线性回归多元线性回归logisticlogistic回归回归Cox回归数据类型数据类型Y Y数值变量数值变量Y Y分类变量分类变量Y Y二分类变量二分类变量+时间时间 X X数值变量、分类变量、等级变量数值变量、分类变量、等级变量模型结构模型结构变量筛选变量筛选前进法;后退法;逐步法前进法;后退法;逐步法参数估计参数估计最小二乘法最小二乘法最大似然法最大似然法最大似
30、然法最大似然法参数检验参数检验F-testF-testt-testt-test似然比检验似然比检验WaldWald检验检验 scorescore检验检验似然比检验似然比检验WaldWald检验检验 scorescore检验检验参数解释参数解释回归系数回归系数b b优势比优势比ORORRR样本含量样本含量至少变量数的至少变量数的1010倍倍至少变量数的至少变量数的2020倍倍非截尾例数至少变量至少变量数的数的1010倍倍应用应用因素分析因素分析预测预报预测预报 Y Y因素分析因素分析预测、判别预测、判别P(YP(Y1)1)因素分析因素分析生存预测生存预测 S(t)S(t)案例分析某研究者观察了确
31、诊后采取同样方案进行化疗某研究者观察了确诊后采取同样方案进行化疗的的2626例急性混合型白血病患者,欲了解某种不例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,将治疗良染色体是否会影响患者病情的缓解,将治疗后后120120天内症状是否缓解作为结果变量(缓解天内症状是否缓解作为结果变量(缓解0 0;未缓解;未缓解1 1),有无不良染色体作为研究),有无不良染色体作为研究因素。整理资料见下表。因素。整理资料见下表。有无不良染色体与缓解的关系有无不良染色体与缓解的关系不良染色体不良染色体 缓解缓解 未缓解未缓解 合计合计 缓解率()缓解率()有有 5 13 18 27.8 无无
32、 3 5 8 37.5 合合 计计 8 18 26 30.8n考虑到例数较小,采用考虑到例数较小,采用Fisher确切概率法,确切概率法,得到得到P0.667,尚不能认为不良染色体影响,尚不能认为不良染色体影响病情的缓解。病情的缓解。n这种情况下的结果并不可靠,原因是两个这种情况下的结果并不可靠,原因是两个比较组之间其它影响患者病情缓解的因素比较组之间其它影响患者病情缓解的因素不一定均衡,因而需要考虑平衡其它可能不一定均衡,因而需要考虑平衡其它可能的影响因素如年龄(岁)、骨髓原幼细胞的影响因素如年龄(岁)、骨髓原幼细胞分组(分组(50501 1;50500 0)、)、CD34CD34表表达(阳
33、性达(阳性1 1;阴性;阴性0 0)、性别(男)、性别(男1 1;女女0 0)的作用。)的作用。多因素多因素logistic回归分析结果回归分析结果 因素因素 回归系数回归系数 Wald卡方卡方 P OR染色体染色体 1.457 1.161 0.281 4.29骨髓原幼骨髓原幼 2.961 4.778 0.029 19.2细胞分组细胞分组n采用多因素采用多因素logistic回归分析,经逐步法按回归分析,经逐步法按0.10水准,平衡骨髓原幼细胞分组后,有水准,平衡骨髓原幼细胞分组后,有无不良染色体不影响患者的缓解(无不良染色体不影响患者的缓解(P0.281)。)。n有一位临床医生指出,仅考虑是
34、否缓解还有一位临床医生指出,仅考虑是否缓解还不够,如果进一步利用缓解时间的长短来不够,如果进一步利用缓解时间的长短来进行分析,信息利用得更充分。进行分析,信息利用得更充分。n费了很大辛苦,幸好查到了所有患者的缓费了很大辛苦,幸好查到了所有患者的缓解时间,于是采用解时间,于是采用log-ranklog-rank检验比较有无检验比较有无不良染色体两组病人的生存曲线,得卡方不良染色体两组病人的生存曲线,得卡方1.281.28,P P0.25790.2579,仍然显示患者的缓解时,仍然显示患者的缓解时间与不良染色体无关。间与不良染色体无关。n生存时间的比较仍然需要考虑组间的可比生存时间的比较仍然需要考虑组间的可比性,经多因素性,经多因素Cox回归分析,当检验水准回归分析,当检验水准0.10时的结果如下。时的结果如下。因素因素 回归系数回归系数 卡方卡方 P RR染色体染色体 1.838 3.709 0.054 6.29CD34 1.877 8.904 0.003 6.54骨髓原幼骨髓原幼 3.205 8.838 0.003 24.4细胞分组细胞分组