1、生存分析生存分析的概念n 在临床疗效的评价研究中常常需要进行病例随访研究。对该类研究所得到的资料有一种将随访结局、时间、影响因素同时结合起来考虑的统计分析方法,称为生存分析(survival analysis)。n 生存分析是队列研究和临床试验的重要分析方法之一。生存时间资料的特点 n生存时间资料常因失访等原因造成观察不完全,因而在资料搜集、统计分析和质量控制等方面均有其显著的特点。n生存时间资料有如下显著特点:(1)效应变量有2个 一是生存时间(天数),二是结局(死亡与否、是否阳性等)。(2)存在截尾数据 如有些病人未观察到底,不知他们究竟能活多长时间。(3)分布类型复杂 生存时间资料常通过
2、随访获得,因观察时间长且难以控制混杂因素,故其分布常呈偏态,影响因素较多,规律难以估测。n因此,生存时间资料不宜简单地计算死亡率,也不能简单地计算生存时间的平均数,必须将两者结合起来分析才能准确地反映疗效和预后的好坏程度,即必须用生存分析方法作统计分析。病例随访资料分析 基本概念 小样本未分组资料分析 大样本分组资料分析基本概念 生存时间 完全数据 截尾数据 死亡概率 生存概率 生存率生存时间n生存时间(survival time)是任何两个有联系事件之间的时间间隔,常用符号t表示。狭义的生存时间是指患某种疾病的病人到死亡所经历的时间跨度,而广义的生存时间可定义为从某种起始事件到某种终点事件所
3、经历的时间跨度。n生存分析中最基本的一点就是计算生存时间,要明确规定事件的起点、终点及关于时间的测度单位,否则就无法分析比较。完全数据n完全数据(complete data):是指从观察的起始事件一直达到观察的终点事件。是生存分析最重要的资料,即观察对象完整的生存时间。截尾数据n截尾数据(censored data)在随访工作中,由于某种原因未能观察到病人的明确结局(即终止事件),所以不知道该病人的确切生存时间,它所提供关于生存时间的信息是不完全的。n产生截尾现象的原因:病人失访 病人的生存期超过了研究的终止期 在动物实验中,达到了事先规定的终止事件 各种生存数据的表示o1994 1995 1
4、996 1997 1998 1999 年份XXXO各种生存数据的表示o1994 1995 1996 1997 1998 1999 2000 年份XXXX死亡概率n死亡概率(mortality probability)记为q,是指死于某时段内的可能性的大小。n 若有截尾数据,上式按下式计算时段内校正例数:某时段初观察例数某时段内死亡数q截尾例数时段初例数校正例数21生存概率n生存概率(survival probality):记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。若有截尾数据,则分母用校正例数。某时段初观察例数活满某时段的例数qp1生存率n生存率(survival
5、 rate):记为S(tk),是指观察对象经历tk个时间单位后仍存活的概率。n若有截尾数据,则分母必须用分时段的校正例数。观察总例数时刻仍存活的例数kkkttTPtS)()(生存率与生存概率的关系kkkppptTPtS21)()(生存分析研究的主要内容 n描述生存过程 n比较生存过程 n分析影响生存时间的因素生存分析的基本方法 n非参数法 乘积极限法 n参数法 指数分布法 Weibull分布法 对数正态回归分析分布法 对数logistic回归分析法 n半参数法 Cox模型分析法 统计描述 n一般的统计描述属于空间分布范畴,侧重于集中趋势(如平均数、死亡率)和离散趋势(如标准差)。n生存时间资料
6、的分布属于时间分布,强调时间过程和截尾数据,故死亡强度必须用概率表示,生存时间不能计算均数,此外还要有时间与死亡结合在一起的指标。n手术治疗40例肝癌病人,术后3年中每年死亡数10例,无截尾。试描述其分布的基本特征。死亡概率、生存概率 生存率及其标准误 生存曲线 n生存曲线(survival curve):是指将各个时点的生存率连接在一起的曲线图。式(12-5)估计的生存率是间断性的,曲线形状分两种类型:阶梯型:小样本资料用直接法估计的生存曲线(图12-3);折线型:大样本资料用频数表法估计的生存曲线(图12-4)。(a)研究终止在475天 (b)研究终止在474天图12-3 乘积极限法生存曲
7、线(阶梯形)及其半数生存期(Md=158天)0100200300400500t(day)0.00.20.40.60.81.0S(t)S(132)=0.50100200300400500t(day)0.00.20.40.60.81.0S(t)Md=158半数生存期及其四分位数间距 半数生存期(median survival time):又称中数生存期,记为T50,其定义为:T50 生存率为0.5时所对应的时间它表示有并且只有50%的个体可活这么长时间,它反映生存期的平均水平。四分位数间距:记为Q,表示中间半数病人生存期的分布范围,它反映生存期的离散程度,其定义为:QT25T75式中T25和T75
8、分别是25百分位数和75百分位数,其估计方法同半数生存期。生存分析的资料要求 1.死亡例数和比例不能太少 这类资料的样本大小主要看死亡例数和比例,而不是总例数,因其信息主要由死亡病例提供,死亡病例少则信息量小,死亡比例小则易出现偏性。2.截尾原因无偏性 例如,老年患者常因不重视随访而失访,由此可能使估计的生存率偏高。为防止截尾偏性,常需对被截尾者的年龄、职业和地区等构成情况进行分析。3.生存时间尽可能精确 因为多数生存分析方法都是在生存时间排序的基础上进行的,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果。对于随访资料,生存时间最好精确到天数。小样本未分组资料分析n 生存率与标准误n
9、生存率曲线n 总体生存率的估计生存率及其标准误n小样本资料(通常为不分组资料),直接采用概率乘法原理估计生存率,称乘积极限法。又称Kaplan-Meier(KM)法。是一种非参数法。n例 一组病人的存活时间(天数)如下:90,150,210,540,150,270+。用乘积极限法估计生存曲线。计算步骤1.列出序号;2.将死亡时间从大到小排列;3.计算出t时刻初的例数;4.列出t时刻的死亡数;5.计算t时刻的死亡概率;6.计算t时刻的生存概率。生存率的标准误计算公式:kjjjjkknpqtStSSE1)()(乘积极限法估计生存率计算表序号存活时间(天)T 初例数T时刻死亡数死亡概率生存概率生存率
10、标准误ktndQ=dnP=1-qS(t)SE(S(t)12345678190611/65/60.8333 0.15212150522/53/50.5000 0.20413210311/32/30.3333 0.19254540111/10/10.0000 0生存曲线1.00.80.60.40.20.00 90 180 270 360 450 5400.5大样本分组资料分析生存率与标准误生存率曲线总体生存率的估计寿命表法计算步骤1.列出序号2.整理数据3.计算期初例数4.校正期初例数5.计算死亡概率6.计算生存概率7.计算生存率及其标准误寿命表法估计生存率计算表序号术后年数期内死亡数期内截尾人数
11、期初观察人数校正期初人数死亡概率生存概率K年生存率生存率标准误ktdcn0ncdpS(tk)SE(S(tk)12345678910106882332290.29690.70310.70310.030221617157153.50.39740.60260.42370.0332323838987.50.43430.56570.23970.0293431614847.50.33680.66320.15890.02545458031*210.25810.74190.11790.0226两个生存率曲线的比较 对数秩检验(log rank test)是以生存时间的对数为基础推导出来的,其基本思想是实际死亡
12、数与期望死亡数之间的比较。统计检验的基本步骤 n将两组资料混合后统一排序 n计算在每个生存时间上各组的期望死亡数 n分别对期望死亡人数求和 n计算卡方值 n某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间(周)如表23-2 表表23-2 20例脑瘤患者两种疗法的生存时间(周)例脑瘤患者两种疗法的生存时间(周)甲疗法组57+1313233030+38424245+乙疗法组13371015152330 脑瘤患者甲、乙两疗法组生存曲线脑瘤患者甲、乙两疗法组生存曲线 甲疗法组甲疗法组乙疗法组乙疗法组比较甲乙两疗法组脑瘤患者的生存率有无差别?生存分析中注意点:n应用条件 除了生存资料的基本要求之外,还
13、要求各组生存曲线不能交叉。若出现这种交叉,则提示可能存在混杂因素,应采用多因素方法来校正混杂作用或分段作统计分析。Cox比例风险回归模型比例风险回归模型 Cox回归实例回归实例 n346例手术后的大肠癌患者随访资料可以了解影响术后生存情况的因素。为简单说明问题,从中抽取30例数据见表23-8。其中术后生存时间time以月为单位,status表示随访结局(其值为0表示相应的术后生存时间为删失值)。三个协变量分别为:性别sex(其值为0表示女性,1表示男性),年龄age(岁),确诊到进行手术治疗的时间dtime(月)。试对此数据作Cox回归分析。将原始数据录入计算软件,首先对每个备选的自变量作单因
14、素Cox回归模型,得到表23-9所示结果。由表23-9可见,在水准上,有统计学意义的因素为年龄和确诊到手术时间。Cox回归应用中的注意事项回归应用中的注意事项 n1Cox回归分析结论的正确性要以科学的设计、有代表性的抽样为前提。如果样本例数过少(多因素分析中死亡例数一般应在自变量个数的10倍以上),或者抽样不随机而使得某些变量在其各个水平上分布极偏,很难得到真正的结果。有时回归分析得到的相对危险度与专业知识相悖,并非是什么专业上的新发现,而是设计上的缺陷造成。通过计算机软件进行模型拟合只能保证计算上的准确,不合理的设计得到的数据计算出的结果只能是错得更复杂。另外,虽然它可以利用删失数据的信息,
15、但过多的删失很可能会带来分析结果的偏倚。n2数据的编码可能会严重地影响结论的可解释性。对于某些数值型协变量,根据专业上的考虑转换为等级编码更恰当一些,否则会得到譬如红细胞每减小一个,患者的死亡率会增加若干倍的夸大解释;对于无序的多分类协变量,应设置哑变量进入模型,例如4种血型可转换为3个0-1型变量拟合模型,并且这3个变量应作为一个因素整体进出模型,人为地将血型编码为1,2,3,4会造成回归系数或相对危险度解释上的困难。n3本章介绍的Cox回归必须满足PH假定,如果某个协变量不同水平的Kaplan-Meier曲线有明显交叉,或者协变量与时间的交互作用项在Cox回归模型中有统计学意义,则不能使用
16、本章介绍的比例风险模型,可考虑拟合各种扩展Cox模型,如分层Cox模型或含时协变量的Cox模型等。n4自变量的筛选事实上是一个复杂的建模过程,除了考虑以上问题,需要指出的是各种逐步方法只是一个计算手段,并不能保证总是得到最好的模型。变量筛选时首先要进行专业上的充分考虑,很重要的自变量不能遗漏,专业上无关的变量不参与计算。待选变量较多时可以首先进行单因素分析,将具有统计学意义的变量再进行逐步筛选,以避免总的样本例数不够多而使结果不稳定。必要时可以更换筛选变量的方法并调整检验水准,多数情况下总在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断,有时甚至可提供1、2个模型备选。小小
17、 结结 n1生存分析是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法,其主要特点是考虑了每个研究对象出现某一结局所经历的时间长短。生存时间定义为终点事件与起始事件之间的时间间隔。终点事件不限于死亡,可以是疾病的发生、一种处理(治疗)的反应、病情复发等。而起始事件是反映研究对象生存过程起始特征的事件。含有删失数据是生存资料的主要特点。另外,生存时间的分布也和常见的统计分布有明显不同,因此需有能分析这类数据的特殊的统计方法。n2生存率与生存概率不同。生存概率是单个时段的结果,而生存率实质上是累积生存概率,是多个时段的累积结果。生存率的非参数估计法有乘积限法(Kaplan-Mei
18、er法)和寿命表法,乘积限法适用于小样本或大样本未分组资料,寿命表法适用于观察例数较多的分组资料。生存曲线是以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。分析时应注意曲线的高度和下降的坡度。中位生存期表示恰有50%的个体尚存活的时间。中位生存期的长短可直观反映预后的好坏。估计中位生存期可用图解法或线性内插法。n3 log-rank test是生存率比较的非参数方法之一,由于该检验能对各组的生存率作整体比较,实际工作中应用较多。多组生存率比较时,如分组变量是等级变量,在log-rank检验有统计学意义后还可分析危险率是否有随分组等级而变化的趋势,称为趋势检验。n4Cox比例风险回归模型主要用于生存资料的影响因素分析、多变量生存预测和调整其它影响因素后的组间生存比较。Cox模型属比例风险模型、乘法模型。模型中回归系数的统计学意义是,调整其它变量后,变量每变化一个单位所引起的相对危险度的自然对数改变量,或使风险函数增至倍。预后指数,预后指数越大,则风险函数越大,预后越差。另外可据Cox模型估计具有协变量的个体t时刻的生存率,进行多变量生存预测。