1、主要用于生存分析主要用于生存分析宁波大学医学院 沈其君第一节第一节 基本概念基本概念一、随访研究与生存时间一、随访研究与生存时间1.随访研究随访研究 在队列研究中,对一批研究对象进行追踪观察所获得的有关结局以及出现这种结局所经历的时间等方面的研究。目的目的: a 估计生存率和生存时间长短,进行疗效考核和预后评价。 b 对生存状况进行简单客观的统计描述(生存概率、生存率、中位生存期等)。 c 探讨影响疗效和预后的“危险因素”及“保护因素”。随访研究的三个因素(两点一线)随访研究的三个因素(两点一线)起点事件起点事件:反映研究对象生存过程的起始特征的事件。终点事件:终点事件:研究者所关心的特定结局
2、。生存时间:生存时间:从某个起始事件开始到某个终点事件的发生所经历的时间。也称失效时间。生存时间举例(小孩智齿除外?)生存时间举例(小孩智齿除外?) 起始事件起始事件 终点事件终点事件 服药 痊愈 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。2.2.可能出现的随访结局(仅以死亡为终点为可能出现的随访结局(仅以死亡为终点为例)例)1.出现规定的结局(失效failure)2.死于其他疾病3.失访(只要未能观察到事先规定的终点事件)4.随访结束时病人尚存活等生存时间的类型1. 完全数据
3、(complete data) 从起点至死亡(死于所研究疾病)所经历的时间。2. 截尾数据(删失数据,censored data) 从起点至截尾点所经历的时间。 【尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。】截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。3.生存时间与截尾时间生存时间与截尾时间生存时间(survial、failure、waiting time) 从某个起始事件开始到某个终点事件的发生所经历的时间。截尾时间(截尾时间(censoredcensored):研究对象某一时间进入随
4、访到出现失访。真实的生存时间未知,只知道比观察到的截尾生存真实的生存时间未知,只知道比观察到的截尾生存时间要长。时间要长。二、生存数据特点二、生存数据特点 1.数据的分布为独特分布,不规则,未知分布。通常不服从正态分布。有时近似服从指数分布、weibull分布、gompertz分布、对数logistic。 2.不可避免地包含有截尾数据。三、生存时间分布三、生存时间分布1.生存函数-任意时刻生存率 s s(t t)=p=p(TTt t) 0t0t中位生存期:中位生存期:又称半数生存期,表示恰好有50的个体尚存活的时间。特定的生存函数都有特定的生存分布。特定的生存函数都有特定的生存分布。2.2.危
5、险率函数(危险率函数(harzard fuctionharzard fuction) 危险率:危险率:患者已活到t时刻,到t+ t这段时间内死亡的(广义的死亡)可能性。(条件概率)(条件概率) 生存概率:生存概率:单位时段开始存活的个体到该时段结束时仍存活的可能性。 h(t)=tttTtPlim0t)(3.生存函数s(t)与危险率函数h(t)的关系t为任意时刻的危险率S S(t t)= =t0duuh e)(h h(t t)= =du uh t0)(累积危险概率第二节第二节 COX模型结构及流行病学意义模型结构及流行病学意义一、问题提出1、组间比较2、多因素(协变量):回归 y=b0+b1x1
6、+b2x2+bnxn 例如,恶性黑色素瘤的预后影响因素有部位、病程、治疗、恶性程度、形态大小、是否转移等。3、生存分析如何构建回归模型?二、生存分析回归模型的一般构造二、生存分析回归模型的一般构造1、构造思想(1)自变量x-影响因素 因变量y-生存时间(2)x与y之间的表现形式 若是未知分布或有缺失值数据,存在一定的问题和难度(3)预后因素对生存时间的影响 即x对s(t)、h(t)的影响,也就是 x与s(t)、h(t)之间可建立回归模型。 2、模型构造的两大部分:基本部分和修改部分 假定x1,x2,xp为协变量或影响因素;h(t)为具有协变量x1xp的个体在t时刻的风险函数或死亡率,表示生存时
7、间已达t的人在t时刻的瞬时死亡率;h0(t)为t的未知函数,即x=0时t时刻的风险函数,称为基准风险函数。h(t)是h0(t)受所有协变量修改的结果。3、生存分析的回归模型、生存分析的回归模型Cox模型的基本形式为 h(t)=h0(t)exp( b1x1+b2x2+bnxn ) 称此模型为比例风险模型。自变量x可以是各种预后影响因素,也可以是这些因素的交互作用项;b1bn为各协变量所对应的回归系数。4、参数估计方法(1)全参数法 h0(t)分布要明确,极大似然法(2)半参数法 cox模型的贡献在于可对h0(t)不作要求(3)非参数法 h0和自变量的估计形式都未知三、流行病学意义三、流行病学意义
8、假设cox模型为 h(t)=h0(t)exp( b1x1+b2x2+bnxn )1、b1bn为回归系数当n=1时,x1= exp(bx)= 当b0,则eb1,h(t,1)h(t,0) 当b0,则eb1,h(t,1)h(t,0) 两组病人的危险性比值为 RRt= = eb1 0新疗法 常规疗法eb e0h(t,1)=h0(t)eb h(t,0)=h0(t)e0),(),(0th1th在某一时刻新疗法对于常规疗法的危险性有多大当n=2时,x1= x2= h(t,11)=h0(t)eb1+b2 h(t,10)=h0(t)eb1 h(t,01)=h0(t)eb2 h(t,00)=h0(t)e0当x为连
9、续性变量时, RRt=e(x-x*)2、RRt=eb= 称为比例风险模型比例风险模型 (proportional hazards model)1010),(),(0th1th第三节第三节 cox模型的参数估计与统计推断模型的参数估计与统计推断一、极大似然法估计二、cox模型的似然函数(部分似然法) partial likelihood function1、无截尾数据的资料例i=14,tj=t1t4,(无截尾,无重合ties)危险集 rist set R(t1)=1,2,3,4 R(t2)=2,3,4 R(t3)=3,4 R(t4)=4 似然函数的构造思想 L( )= 条件危险概率 各死亡各死亡
10、 时点上各死亡之概率的乘积时点上各死亡之概率的乘积 = = = 41i tjRi t1R1 ttth2111hh bxtbxtexphexphk010 tbxbx1Rkk1expexp tbxbx2Rkk2expexp = = =1所以 L( )= 一般地,设有病人i=1n,死亡点为tj,经排序后得t1t2tj(i=j) tbxbx3Rkk3expexp tbxbxjRkkjexpexp41j t2R2 t3R3 t4R4 2、有截尾数据的资料例i=14,其中i=4为截尾数据,t1t2t3,t4+,无ties 分析i=4,假设A、B、C三段互斥,(重新排序后和无截尾数据分析一样)。L( )=L
11、( )A+L( )B+L( )C =偏似然函数与一般似然函数和全似然函数不同偏似然函数与一般似然函数和全似然函数不同偏似然函数具有一般似然函数的性质偏似然函数具有一般似然函数的性质 tbxbxjRkkjexpexp41j三、参数估计与假设检验 h(t)=h0(t)exp(bx)当h0(t)未知分布时,Cox提出通过构建部分似然函数,应用最大似然法对回归系数进行估计(可参考logistic模型中介绍的参数估计方法)。对回归系数的检验方法有Score检验、Wald检验和似然比检验三种。可用于模型中不显著变量的剔除和新变量的引入,或用于包含不同变量数的模型之间的比较。可对样本结果、每个变量及所有变量
12、总的效果或回归效果进行检验或推断。由检验问题而引出的分析:因素分析预测:先求得回归系数,估计s0(t),进而估计h0(t);把h(t)当作s(t)进行预测。四、cox模型的前提条件与推广1、cox模型的三个假定: (1)生存时间是连续分布; (2)模型中的协变量不随时间变化; (3)生存时间准确记录,无重合(ties)数据。2、有重合数据时 (1)tie不多时,可用Peto、Breslow等提出的方法进行估计。 L( )= 为ti时刻tie的个数 (2)tie较多或生存数据为离散资料时,可用logistic模型的思想进行估计 。3、有时变协变量时 可用带时变协变量的cox扩展模型进行估计。i1
13、jijxi)()(th1th4、 的形式 exp(bx) 线性(1+ bx ) (1+exp(bx) 扩大的模型族 = (1+kbx )Yk当k0时,用乘法;当k1时,用加法。 x x第四节第四节 cox模型算前准备及变量筛选模型算前准备及变量筛选一、资料的形式与要求1、有指示变量2、不能有缺项3、关于生存数据的比例60% 样本量n 参数个数;每一种计算总有一定的n、参数;n为参数个数的510倍(保险);有效的生存数据达到一定量( 2倍参数个数)二、变量的设置1、计量资料(原始数据、数据转换、中心化、标准化、尺度化、离散化等)2、二分类资料(0,1)3、无序多分类资料(0,1作为因素进入)4、
14、有序多分类资料(0,1或等级)三、算前变量考察1、计量资料计量资料 频数分布如何?有无离群值?在剔除其他变量的影响下,其与应变量的关系?2、分类资料分类资料 各类分类分布如何?之间有无相关性?3、当变量多时当变量多时 相关性如何?四、变量筛选1、单因素单因素 因素一个个进入或剔除,可用方法有x2检验、t检验、方差分析、logistic模型等2、多因素多因素 同时进入,当变量不多时刻直接作多因素分析,方法有聚类分析、逐步回归、因子分析等五、因素的分析1、交互作用 如x1x5(乘积后进入模型)2、深入分析 (1)在引进前可先作一定变量的转换处理 (2)离散化后,行多个0,1变量,综合分析x与y的关系六、SAS代码 DATA EX14_3; INPUT X1-X4 T STATUS; CARDS; 3 0 1 1 12.4 1 1 0 0 0 14.1 1 17 0 1 0 6.8 1 18 1 1 1 3.6 1 ; PROC PHREG; MODEL T*STATUS(0)=X1-X4/TIES=EFRON SELECTION=STEPWISE SLE=0.05 SLS=0.05 RL; RUN;