1、 生存分析生存分析 survival analysis o医学研究中,为了解某种疾病(如慢性病、恶性肿瘤等)的预后及远期疗效、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的数据(如病人的生存时间、治疗后病情缓解情况及持续时间等),这类资料都属于随访资料。o随访资料随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。o由于随访资料的分析最初起源于对寿命资料的统计分析,故称为生存分析生存分析,或称为生存时间分析生存时间分析。2何为生存分析何为生存分析3传统方法在分析随访资料时存在的困难传统方法在分析随访资料时存在
2、的困难1o随访结局和时间都成为了要关心的因素随访结局和时间都成为了要关心的因素l原有的疗效指标如有效率、治愈率等难以适用。l除了关注是否出现某种结局(如有效、治愈、死亡等),还要考虑出现这些结局所经历的时间长短。l如:如:除了随访结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当被认为有效。即时间延长也认为有效。l将两者均作为因变量拟合多元模型极为困难(“时间”分布不明,一般不呈正态分布,在不同情况下的分布规律也不同)。4传统方法在分析随访资料时存在的困难传统方法在分析随访资料时存在的困难2o存在大量失访的资料存在大量失访的资料l失去联系(病人搬走,电话号码改变)l无法观察到结局(
3、死于其他原因)l研究截止 显然,无论是将失访数据算作“死亡”还是“存活”似乎都不大合理。生存分析生存分析是将研究对象的观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法。并能充分利用所获得的信息,达到较准确、全面地评价和比较随访资料的目的,是临床试验和队列研究的一种重要分析手段。5生存分析的历史与应用生存分析的历史与应用o17、18世纪:寿命表的提出及其应用。o1926年:Greenwood提出评价生存函数的误差的方法Greenwood公式。o1958年:生存函数的计算方法Kaplan-Meier法(乘积极限法product-limit)的提出。o1960年代中叶:生存时间的组间
4、比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test,又称时序检验) Mantel,1966年。o1970年:将协变量的影响模型化参数模型(假设生存时间服从Weibull分布、对数正态分布等);半参数模型(比例风险模型,又称Cox回归模型) Cox,1972年。主要内容主要内容o概述概述 生存分析的基本概念、资料要求o生存率估计的非参数法生存率估计的非参数法 乘积极限法、寿命表法o生存率的比较生存率的比较 Log-rank检验oCox比例风险回归模型比例风险回归模型 671 概述概述o生存分析的方法已被广泛应用到医学研究领域,如现场追踪研
5、究、临床疗效试验、疾病预后分析等,生存时间的涵义也随之扩展到更广义的范围,又称为时间时间-效应分效应分析析(time-effect analysis)。o其研究内容主要包括: 对生存状况进行统计描述(生存概率、生存率、中位生存 期等); 寻找影响生存时间的“危险因素”和“保护因素”; 估计生存率和生存时间长短,进行预后评价。8随访研究随访研究l例:例:某医师收集了1992年1月1日到2001年12月31日10年间共346例手术后的大肠癌患者资料,以了解患者术后生存情况及其可能的影响因素。患者患者编号编号性别性别年龄年龄dtime(月)(月)手术手术日期日期终止随终止随访日期访日期结局结局生存时
6、间生存时间(月)(月)1男男32101994.01.231994.12.24死亡死亡112女女48121998.02.141999.01.01失访失访10+3女女2661992.03.041995.04.12死亡死亡374男男5531999.08.202001.09.21死于其他死于其他25+5女女5882001.03.102001.12.31存活存活9+346男男46122000.08.122001.12.12存活存活16+表表22-1 10年间年间346例手术后的大肠癌患者生存资料记录表例手术后的大肠癌患者生存资料记录表随访过程示意图随访过程示意图910一、生存分析中的基本概念一、生存分析
7、中的基本概念 1. 起始事件、终点事件2. 生存时间3. 死亡概率、死亡率4. 生存概率、生存率、生存函数5. 生存率曲线6. 中位生存期7. 危险率函数 11基本概念基本概念 (一)起始事件、终点事件(一)起始事件、终点事件l起始事件起始事件(initial event):反映研究对象生存过程的起始特征的事件。如癌症患者接受某种特定的治疗、铅作业工人开始职业性铅接触等。l终点事件终点事件(endpoint event):又称失效事件失效事件(failure event),指研究者所关心的研究对象的特定结局。如患者死于癌症、工人出现重症铅中毒症状等。12基本概念基本概念 (二)生存时间(二)生
8、存时间l定义:定义: 广义的 生存时间生存时间(survival time):也称失效时间失效时间(failure time),指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。13疾病确诊 死亡疾病确诊 痊愈治疗开始 死亡治疗开始 痊愈症状缓解 疾病恶化接触毒物 出现毒性反映接触危险因素 发病出生 出现第一颗乳牙开始戒烟(毒) 再次吸烟(毒)起始事件起始事件终点事件终点事件随访时间随访时间 生存时间生存时间14基本概念基本概念 (二)生存时间(二)生存时间l特点:特点: 1. 分布类型不易确定。分布类型不易确定。 一般不服从正态分布,有时近似服从指数分布、Weibull分布、
9、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。 2. 生存时间的影响因素多而复杂且不易控制。生存时间的影响因素多而复杂且不易控制。15基本概念基本概念 (二)生存时间(二)生存时间l特点:特点: 3. 根据研究对象的结局,生存时间数据可分为:根据研究对象的结局,生存时间数据可分为: (1) 完全数据完全数据(complete data):研究对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。 (2) 截尾数据截尾数据(截尾值、删失数据,censored data):观察期内尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停
10、止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。 表示为表示为“” 16基本概念基本概念 (二)生存时间(二)生存时间l特点:特点: 3. 根据研究对象的结局,生存时间数据可分两种类型:根据研究对象的结局,生存时间数据可分两种类型: (1) 完全数据 (2) 截尾数据截尾数据u截尾的原因截尾的原因 失访:失访:生存但中途失访,包括拒绝访问、失去联系等。 退出:退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。 终止:终止:指观察期结束时仍未出现结局。 17随访资料常见形式随访资料常见形
11、式终点终点始点始点 死亡(结局事件) 失访、退出 终止18基本概念基本概念 (二)生存时间二)生存时间l生存时间资料的收集与整理:生存时间资料的收集与整理: 对于随访资料,需记录的原始数据包括开始观察的时点(起始事件发生的时间)、终止观察的时点、研究对象的结局、考虑的影响因素等。 生存时间生存时间t为反映时间长短的指标,属数值变量: 生存时间(t)= 终止观察的时点开始观察的时点; 结局变量结局变量反映终点事件是否发生,为二分类的变量。 通常用(t , )完整地表示一个观察对象的随访结果。1920基本概念基本概念 (三)死亡概率、死亡率(三)死亡概率、死亡率l死亡概率死亡概率(mortalit
12、y probability):是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。u若某时段内有删失,则分母用校正人口数:若某时段内有删失,则分母用校正人口数:该时段期初观察人数某单位时段内死亡数q删失数期初观察人数校正人口数2121基本概念基本概念 (三)死亡概率、死亡率(三)死亡概率、死亡率l死亡率死亡率(mortality rate):指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人等)中的死亡人数。l 平均人口数= (该时段期初人口数+期末人口数)/2 该时段平均人口数某单位时段内死亡数1000m22基本概念基本概念 (四)生存概率、生存率、生存函数(四)生存概
13、率、生存率、生存函数l生存概率生存概率(survival probability):表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。u若该时段内有删失,则分母用校正人口数。若该时段内有删失,则分母用校正人口数。qp-1该时段期初观察人数活满某时段的人数删失数期初观察人数校正人口数2123基本概念基本概念 (四)生存概率、生存率、生存函数(四)生存概率、生存率、生存函数l生存率生存率(survival rate):指研究对象经历 t 个时段后仍存活的概率,即生存时间大于等于 t 的概率,用P(T t)表示。l生存函数生存函数(survival function):生存率随时间 t
14、 变化而变化,即生存率是相对于时间 t 的函数,记为S(t)。 生存函数在某时点的函数值就是生存率。2425基本概念基本概念 (五)生存率曲线(五)生存率曲线l生存率曲线生存率曲线(survival curve):指以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。 阶梯形:小样本资料用直接法估计的生存曲线; 折线形:大样本资料用频数表法估计的生存曲线。262728基本概念基本概念 (六)中位生存期(六)中位生存期l中位生存期中位生存期(median survival time):也称半数生存期,即生存时间的中位数,表示生存率等于50%时的时间。反映生存时间的平均水平。l由于生
15、存时间并非正态分布,故常用中位生存期作为某人群生存过程的概括性描述指标。中位生存期越长,表示疾病预后越好;中位生存期越短,表示疾病预后越差。l利用生存曲线图或线性内插法估计29基本概念基本概念 (七)危险率函数(七)危险率函数l危险率函数危险率函数(hazard function):指 t 时刻尚存活的研究对象死于t时刻后一瞬间的概率,为条件概率。即活到t时刻的条件下在tt+t这一微时段内死亡的概率,用h(t)表示。uT为观察对象的生存时间u危险率函数也称为死亡力(force of mortality)、瞬时死亡率(instantaneous failure rate)等。ttTttTtPth
16、t)()(0lim30危险率函数与生存函数的关系危险率函数与生存函数的关系31nh1(t)是一种上升的曲线,表示危险率随时间变化而增加危险率随时间变化而增加,如急性白血病患者治疗无效其危险率随时间呈增加趋势;nh2(t)的曲线为下降趋势,表示危险率逐渐减小危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;nh3(t)为一种稳定的危险率函数稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。nh4(t)为一种山峰型曲线,表示危险率先增大后降低危险率先增大后降低。 图 不同形式的危险率函数曲线h(t)0th1(t)h2(t)h3(t)h4(t)32二、生存分析对资料的
17、基本要求二、生存分析对资料的基本要求1. 样本由随机抽样方法获得,要有一定的数量。2. 完全数据所占的比例不能太少,即截尾值不宜太多。3. 截尾值出现的原因无偏性。为防止偏性,常需对截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析。4. 生存时间尽可能精确。因为许多常用的生存分析方法都在生存时间排序的基础上作统计处理,即使小小的舍入误差也可能改变生存时间顺序而影响结果。5. 缺项要尽量补齐。33三、生存分析的方法三、生存分析的方法1非参数法:非参数法:其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。2参数法:参数法:其特
18、点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存时间的因素进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。3半参数法:半参数法:兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,典型方法为Cox模型分析法。u乘积极限法乘积极限法(product-limit method):小样本未分组资料 u寿命表法寿命表法(life table method):大样本分组资料342 生存率估计的非参数法生存率估计的非参数法l乘积极限法乘积极限法(product-limit method)是由K
19、aplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)。l该法主要适用于样本含量较小的资料。35一、乘积极限法一、乘积极限法u例例: : 用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。试分别估计两组的生存率并绘制生存率曲线。l中药组(n=16):10 2+ 12+ 13 18 6+ 19+ 26 9+ 8+l 6+ 43+ 9 4 31 24l对照组(n=10): 2+ 13 7+ 11+ 6 1 11 3 17 7l乘积极限法估计生存率的步骤:乘积极限法估计生存率的步骤: 1. 将n个样本观察值(生存时间t
20、)由小到大依次排列,秩次i=1,2,n。如非截尾值与截尾值相同,将非截尾值排在前面。 2. 列出各时点(实为一短的时间单位)的死亡例数。截尾值对应的死亡数为0。 3. 列出各时点(实为一短的时间单位)开始时的存活数,即期初观察单位数ni。36乘积极限法乘积极限法l乘积极限法估计生存率的步骤:乘积极限法估计生存率的步骤: 4. 计算各时点死亡概 率q及生存概率p。 5. 求活过各时点的生 存率S(ti),等于从 开始观察时点到ti 时点各生存概率的 连乘积。37乘积极限法乘积极限法l生存率的区间估计:生存率的区间估计: 以上计算出的样本生存率是总体生存率的点估计,进一步求得各生存率的标准误,即可
21、按照近似正态分布原理估计总体生存率的可信区间。38乘积极限法乘积极限法39 11inintStSSEii0949. 0) 1110)(110(19000. 0) 11)(1(1)()(11nntStSSE1340. 0) 1310)(310(1) 1110)(110(17875. 0)(3tSSE1551. 0) 1410)(410(1) 1310)(310(1) 1110)(110(16750. 0)(4tSSE1651. 0) 1510)(510(1) 1410)(410(1) 1310)(310(1) 1110)(110(15625. 0)(5tSSE40l绘制生存率曲线绘制生存率曲线
22、常绘制成阶梯形的曲线。 方法是将各非截尾值及其对应的生存率标在直角坐标纸上,然后将各点垂直向下再水平向右连成阶梯形。41乘积极限法乘积极限法图图16-2 两种疗法治疗后白血病患者的生存率曲线两种疗法治疗后白血病患者的生存率曲线 4210.900.7930.686 70.56110.42130.21 1. 曲线阶梯形曲线阶梯形 不能用直线或曲线连接相邻的两个生存率散点。随着死亡时点增多,曲线的阶梯形逐渐不明显。 2. 曲线左连续曲线左连续 每一级台阶的右端为断点,当前死亡时点处的纵坐标值在下一个台阶。 3. 曲线尾部不稳定曲线尾部不稳定 随着时间的增加,观察例数越来越少,误差越来越大,曲线尾部极
23、不稳定。在多组比较时,常发生曲线尾部交叉现象,这很可能是因误差大而出现的一种假象。此时可适当提前终止日期,使得最后一个死亡时点仍有一定的观察例数。43生存率曲线特点生存率曲线特点 (乘积极限法)440表示截尾数据1表示完全数据Pl为乘积极限法,life为寿命表法 t为横坐标,S为纵坐标指定时间变量和截尾变量45生存率死亡率生存率的标准误死亡例数 生存例数46描述性统计量4748完整数据截尾数据4950二、寿命表法二、寿命表法l如果随访人数很多,原始资料可以按照生存时间分成不同组段得到各组段频数,这种大样本的分组数据通常可以用寿命表法寿命表法来描述生存过程。l寿命表法寿命表法(life tabl
24、e method):采用编制定群寿命表的原理来计算生存率,首先求出患者在治疗后或健康者在预防措施后各时期的生存概率,然后根据概率的乘法法则,将各时期的生存概率相乘,即可得到自观察开始到各时点的生存率。 51寿命表法寿命表法l例例: : 某人对食管癌患者手术后随访的资料如下表(1)(4)栏,用寿命表法估计生存率。(1) 术后年数术后年数t:以术后为观察起点, 按术后年数划分组段, 如“0”组段指术后不满1年。(2) 期内死亡人数期内死亡人数d:表示相应时段 内出现结局事件(如死亡)的人数。(3) 期内删失人数期内删失人数c:表示相应时段 内出现截尾(失访、死于它病或 研究结束时尚存活等)的人数。
25、(4) 年初观察人数年初观察人数n0:表示各组段 下限对应时点的观察人数。52寿命表法寿命表法(5) 校正期初观察人数校正期初观察人数n:n=n0-c/2 (6) 死亡概率死亡概率q : q=d/n (7) 生存概率生存概率p: p=1-q 53 (8) 生存率生存率S(t+1): 表示各组段上限对应时点的生存率,即研究对象活满t+1年的概率。 (9) 生存率的标准误生存率的标准误SES(t+1): t+1年生存率的标准误为:112111011npppptSiiitinpqtStSSE1111寿命表法寿命表法54iiitinpqtStSSE1111030192. 02297031. 02969
26、. 07031. 0) 1 ()1 (111npqSSSE033201. 05 .1536026. 03974. 02297031. 02969. 04237. 0)2(SSE029273. 05 .875657. 04343. 05 .1536026. 03974. 02297031. 02969. 02397. 0)3(SSE025427.05 .476632.03368.05 .875657.04343.05 .1536026.03974.02297031.02969.01589.0)4(SSEl本例结果分析:本例结果分析:(1) 动态变化动态变化:从死亡概率一栏看,前3年死亡危险性逐年
27、增加,而后呈下降趋势,生存概率从反面说明了这一结果。(2) 累积情况累积情况:从第(9)列看,生存率的标准误都很小,说明生存率具有代表性;再看第(8)列的生存率,半数以上的病人术后活不到2年,提示此恶性肿瘤对生命威胁大。可按用正态近似法估计总体生存率的置信区间。如,本例手术后5年生存率的95%可信区间为: 0.11791.960.0226=(0.0736,0.1622)。55寿命表法寿命表法56寿命表法寿命表法o用寿命表法计算的频数表资料的生存率,绘制生存率曲线时应绘制成线图,即相邻两个时点的生存率之间用线段连接。 生存率曲线特点:生存率曲线特点:1. 曲线折线形曲线折线形 因不知道时段内生存
28、率的变化规律,故用直线连接各端点,形成一条折线。 2.曲线连续曲线连续 可估计任意时点的纵坐标值(生存率)。 3.曲线尾部稳定性好曲线尾部稳定性好 寿命表法用于大样本,通常最后一个时段仍有一定的观察例数,故曲线尾部稳定性比K-M法好。data AA16;do c=0 to 1; do i=1 to 6; input t f ; output; end;end;cards;0 68 1 61 2 38 3 16 4 8 5 23 0 8 1 7 2 3 3 1 4 0 5 0;proc lifetest method=life width=1 plots=(s);time t*c(1);freq
29、 f;run; 57计算生存率的规定时间区间为1t为横坐标S为纵坐标 The LIFETEST Procedure Life Table Survival Estimates Conditional Effective Conditional Probability Interval Number Number Sample Probability Standard Lower, Upper) Failed Censored Size of Failure Error Survival Failure 0 1 68 8 229.0 0.2969 0.0302 1.0000 0 1 2 61 7
30、 153.5 0.3974 0.0395 0.7031 0.2969 2 3 38 3 87.5 0.4343 0.0530 0.4237 0.5763 3 4 16 1 47.5 0.3368 0.0686 0.2397 0.7603 4 5 8 0 31.0 0.2581 0.0786 0.1589 0.8411 5 . 23 0 23.0 1.0000 0 0.1179 0.882158死亡条件概率及其标准误期初观察人数生存率 死亡率 Summary of the Number of Censored and Uncensored Values Percent Total Failed
31、Censored Censored 233 214 19 8.1559603 生存率的比较生存率的比较o生存率比较的假设检验方法有: 参数法、半参数法和非参数法参数法、半参数法和非参数法o非参数法非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。o常用的非参数法有:log-rank 检验检验(时序检验时序检验) 似然比检验(likelihood ratio test) wilcoxon检验(又称Breslow检验)。61log-rank 检验检验(时序检验时序检验)o时序检验由Mantel等人于1966年提出。该法不指定生存时间服从某种特定的分布,所比较的
32、是整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率。o基本思想:在无效假设成立的前提下,根据两种处理不同生存时间的期初观察人数和理论死亡概率计算出的理论死亡数(期望死亡数),应该与实际死亡数相差不大;如果相差较大,则无效假设不成立,可以认为两条生存曲线间的差异有统计学意义。 可用于两组或多组生存率曲线的比较。62log-rank 检验检验(时序检验时序检验)l例例: : 用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。试比较两组患者总体生存率。l中药组:10 2+ 12+ 13 18 6+ 19+ 26 9+ 8+l 6+ 43+ 9
33、4 31 24l对照组:2+ 13 7+ 11+ 6 1 11 3 17 763log-rank 检验检验(时序检验时序检验)H0:两组总体生存率曲线分布相同H1:两组总体生存率曲线分布不同=0.05(1) 将两组资料的生存时间混合后统一排序,并按K-M法计算合并的死亡概率(第6栏);(2) 分别统计两组在各时点的期初观察人数(第7和9栏);(3) 分别计算各单位时段内,H0假设成立下两组的预期死亡人数(第8和10栏),即用合并的死亡概率乘以相应的期初观察人数。6465续表续表66 data AA16; do c=1 to 2; input n; do i=1 to n; input time
34、 censor ; output; end; end; cards; 16 10 1 2 0 12 0 13 1 18 1 6 0 19 0 26 1 9 0 8 0 6 0 43 0 9 1 4 1 31 1 24 1 10 2 0 13 1 7 0 11 0 6 1 1 1 11 1 3 1 17 1 7 1 ; proc lifetest plots=(s); time time*censor(0); strata c; run; 定义分组变量67两条生存曲线的比较结果两条生存曲线的比较结果68生存曲线图生存曲线图o对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生
35、存率然后进行比较,其基本原理与上述方法相同。o例例 203例急性脑血栓患者出院后随访资料如下,试比较3个年龄组脑血栓患者的总体生存率是否相同。69log-rank 检验检验(时序检验时序检验)70log-rank 检验检验(时序检验时序检验) H0:3个年龄组总体生存率曲线相同 H1:3个年龄组总体生存率曲线不同或不全相同 =0.05 列计算表,表中预期死亡人数 。 如4059岁组的“0”组段: 。71iiiiNANT3350. 48820310T6344.188582. 78582. 7172631.142631.14178786.188786.18722222TTA按自由度k-1=2查2界
36、值表,得P0,说明该个体死亡风险高于平均水平;l若PIj0,说明该个体死亡风险低于平均水平。1 122jjjmmjPIb xb xb xibiiiisbb ijx101(3) 通过估计生存率,对群体定量地进行预后评价。通过估计生存率,对群体定量地进行预后评价。 l由于生存率与基础生存率相关,故只要估计出基础生存率,再结合各因素的偏回归系数就可以估计出生存率, 即 XtttSdtXthdtXthXtSexp0000expexp,exp,5. Cox模型拟合优度模型拟合优度o可将研究对象按个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系
37、内进行比较,若两种曲线具有一致性,说明模型拟合较理想。102103三、三、Cox回归分析的应用实例回归分析的应用实例o为探讨某恶性肿瘤的预后,收集了63名该病病人的生存时间、结局及影响因素。104105data AA16;input x1-x6 t d ;cards;54 00010521 62 00112160;proc phreg;model t*d(1)=x1-x6/ selection=stepwise sls=0.05 sle=0.05 alpha=0.05 risklimits;run;计算因素RR及其95CI调用Cox模型分析模块建立生存时间为t ,截尾指示变量为d 的Cox模型
38、,d 取值为1时表示截尾106数据集信息的简单描述107逐逐步步回回归归法法筛筛选选变变量量108逐逐步步回回归归法法筛筛选选变变量量109最大似然估计结果筛选过程总结治疗方式治疗方式(x4):相对危险度为:相对危险度为5.820,说明传统的治疗方式和新的治疗方式相比,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为病人死亡的风险为5.820倍,相对危险度的倍,相对危险度的95%的可信区间为的可信区间为1.98917.031;淋巴结是否转移淋巴结是否转移(x5)的的RR值的含义与治疗方式相同。值的含义与治疗方式相同。四、四、Cox模型的适用范围及注意事项模型的适用范围及注意事项1. 适用
39、范围适用范围oCox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。oCox模型能分析具有截尾数值的生存时间。oCox模型可以分析多种因素对疾病预后的影响,使其更适合于临床的随访研究。Cox模型使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。110Cox模型的适用范围及注意事项模型的适用范围及注意事项2. 注意事项注意事项(1) 设计阶段应注意的问题设计阶段应注意的问题 样本的代表性要好。要注意资
40、料的代表性及研究资料的可靠性;样本含量不宜过小,一般在40例以上。随着协变量的增加,观察的样本应适当的增加,要求样本的含量为观察协变量的5-20倍。如果比较两组治疗的效果,要使两组的样本例数基本一致,避免相差悬殊。 所有危险因素要在设计时考虑全面,避免漏掉重要因素和加入无关因素。 生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。111Cox模型的适用范围及注意事项模型的适用范围及注意事项2. 注意事项注意事项(1) 设计阶段应注意的问题设计阶段应注意的问题 研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难。 在设计时要注意时间-效应因素。如研究吸烟对肺
41、癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。 112Cox模型的适用范围及注意事项模型的适用范围及注意事项2. 注意事项注意事项(2) 模型拟合时应注意的问题模型拟合时应注意的问题 多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响。 应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则
42、不能用Cox模型进行分析。 113Cox模型的适用范围及注意事项模型的适用范围及注意事项2. 注意事项注意事项(3) 模型应用时应注意的问题模型应用时应注意的问题 结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。 Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。114Cox模型的适用范围及注意事项模型的适用范围及注意事项3. Cox模型的
43、局限性模型的局限性oCox模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这个问题在理论上尚不完善。oCox模型对异常值较为敏感,所以在进行模型拟合时要注意Cox模型拟合优度的检验。oCox模型估计参数时,不是利用精确的生存时间,而是利用生存时间的顺序统计量,这损失了一定的样本信息。当引进的协变量随时间的变化剧烈时,偏似然函数损失的信息也增多。o如果得到的生存时间重复较多,用偏似然函数估计偏回归系数有一定的困难,学者们提出了一些解决的办法,但仍需进一步完善。115扩展的扩展的Cox回归模型回归模型u伴时协变量Cox回归模型u分层Cox回归模型u分组数据的Cox回归模型u多状态Cox回归模型u116117