1、 参赛选手:*24l生存分析的基本概念疾病的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短;这类资料一般通过随访收集,常见的随访起点是确诊日期、治疗日期等;最明确的阳性结局是死亡,此外还有复发、致残、痊愈等。随访资料常因失访等原因造成某些数据观察不完全,要用专门的方法进行统计处理,这类方法起源于对寿命资料的统计分析,故称为生存分析(survival analysis)。5l常用的生存分析方法寿命表法Kaplan-Meier法Cox Regression法 Cox w/Time-Dep Cov法l用于生存分析的资料的共同特点:用于生存时间的分析,不受分类的影响;生存时间变
2、量多不符从正态分布,且常含有删失值,不适于用传统的数据分析方法;根据不同的研究目的和资料类型,可采用上述不同的分析方法。6l 生存资料的基本要求 样本由随机抽样方法获得,要有一定的数量;死亡例数不能太少;截尾比例不能太大,否则结果将存在较大偏倚;生存时间尽可能精确到天数,因为多数生存分析方法都在生存时间排序的基础上作统计处理的,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果;缺项要尽量补齐。l用于生存分析的数据的特点:因变量有2个,即生存时间和结局(死亡与否);生存时间存在观察不完全的数据,7l生存分析的几个基本概念:完全数据(complete data):指从起点至死亡所经历的时间,
3、即死者的存活时间。删失值(也叫做截尾数据):就是因各种原因对随访对象的随访可能失访或终检(censoring)。造成截尾数据的几种情况:l研究对象由于其他原因死亡;l研究者与病人失去了联系;l直到对资料作总结时随l访对象还活着但尚未发生所规定的事件;8l(3)生存概率(survival probability),记为p,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。l生存率(survival rate)记为S(tk),是指病人经历tk个单位时间之后仍存活的概率。S(tk)实质上是累积生存概率(cumulative probability of survival)。l 生存曲线
4、(survival curve),是指将各个时点的生存率连接在一起的曲线图或表。9l寿命表法与乘积极限法的关系:当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法。寿命表法先于乘积极限法,但实质上是乘积极限法的一种近似(频数表法)。l寿命表(Life Table)法的范围与应用:制作寿命表;绘制各种曲线如生存函数、风险函数曲线等;对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间进行两两比较;10l例题:某临床试验对20名第或第期黑色素瘤患者进行随访研究,截至研究期结束,记录的生存资料见表1。试计算1
5、00周生存率(1个研究因素1个水平)。12.8 15.6 24.0+26.4 29.2 30.8+39.2 42.0 58.4+72.0+77.2 82.4 87.2+94.4+97.2+106.0+114.8+117.2+140.0+168.0+注:数据后跟符号“+”表示该数据为删失数据。11l又称乘积极限法(product-limit method)l应用估计某研究因素不同水平的中位生存时间;比较该研究因素不同水平的生存时间有无差异;控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层因素的不同水平对研究因素对生存时间的影响分别进行分析)。是一种非参数法,主要用于小样本,也适用于
6、大样本。l例题:123 3种疗法治疗种疗法治疗6666例白血病患者的缓解时间(天),比例白血病患者的缓解时间(天),比较三种方法的中位缓解时间及有无差异(较三种方法的中位缓解时间及有无差异(1 1因素因素3 3水平)。水平)。A 疗法4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269,B疗法8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,245+C疗法8,10,11,23,25,28,28,31,31,40,48,89
7、,124,143,12+,159+,190+,196+,197+,205+,219+注:数据后跟符号“+”表示该数据为删失数据。13三:三:Cox Regl应用用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考察其他因素对生存时间的影响,及各因素之间的交互作用。l例题 分析50例急性白血病人外周血白细胞数量(X1)、淋巴结浸润程度(分级表示X2)、及缓解后有无巩固治疗(X3)对缓解时间(time)的影响。14X1X2X3TIME STATESX1X2X3TIME STATES2.50003.4014.700011.0011.20203.7316.000011.771173.0020
8、3.731 128.002111.8313.50003.8313.500111.831119.00204.00135.000011.971397.70004.03162.200013.16110.00204.1712.000014.83162.00004.20110.800115.171502.20204.2018.500118.2312.40005.00121.600118.2314.00005.2712.002119.16034.70005.6712.000120.17014.40017.0712.000120.17015X1X2X3TIME STATESX1X2X3TIME STATES
9、28.40207.2613.402120.1702.00207.3314.300120.571.90017.5315.100121.00140.00207.531 244.802121.87130.60207.6012.400023.7716.60007.6714.000126.0016.80017.6711.700128.33121.40218.3015.100131.3316.10018.3311.100137.7712.80008.33132.000166.8312.70218.80112.800173.5712.50009.2311.4001 124.20016l关于回归系数i i=l
10、nRRi意义:其他因素不变时,某个因素改变1个单位时,相对危险度的自然对数改变i个单位。lCox回归法公式:h(t)=h0(t).expiXi自变量X不受限制。17l应用:用于风险比例可能会随时间变化而变化(即有些危险因素作用的强度随时间而变化)的资料(此法称时间依存协变量模型,也称为非比例风险模型)。.用到Cox w/Time-Dep Cov过程的另一种情况是:有些变量虽然在不同的时间点取不同的值但与时间并非系统地相关,在这种情况下,需用逻辑表达式定义一个分段时间依存协变量,逻辑表达式取值1时为真,取0时为假。18(续)用一系列的逻辑表达式,你可以从一系列观测记录中建立自己的时间依存变量。例
11、如:对病人血压每周观察一次,共观察4次,(变量名为BP1至BP4)。时间依存协变量可以这样定义:(T_=1&T_=2&T_=3&T_ 5并且总样本量N40,用Pearson卡方进行检验(四表格法);如例1、2。l如果理论数T1,并且N40,用连续性校正的卡方进行检验(四表格法)。l如果有理论数T1或N40,则用Fishers检验(精确概率法),如例3。多个样本率或构成比的比较:l多个样本率的比较,如例4。l各样本内部构成比的比较,如例5。26l关联性检验,如例6。双向有序列联表资料的一致性检验。频数分布的拟合优度检验。l例题例1:甲、乙两种方法治疗胃溃疡患者,治疗结果如下表,比较两种方法的治愈
12、率有无差别。27例2:甲、乙两种方法检验某年级学生血清HBsAg阳性情况,结果如下,比较两种方法的检验结果有无差别。例3:两型慢性布氏病患者血清PHA反应情况如下表,比较其反应的阳性率有无差别。28例4:用免疫酶法测NPC患者(甲组)、头颈部其他肿瘤患者(乙组)及正常人(丙组)血清EB病毒抗体的反应情况,结果如下,问检出阳性率有无差别。29例5:甲、乙两医院抽样分析颅内出血患者出血部位的分布情况,结果如下表,问两院颅内出血患者出血部位的构成是否相同。各格的理论频数不能太少,理论频数少于5的格子数不能超过总数的1/5。例6:某地5801人血型情况结果如下表,问ABO血型系统与MN血型系统有无关联
13、。3031l概念:是一种用来检验在给定的落入二项式的第一项概率值的前提下,数据来自二项分布的无效假设的方法。是检验二分类变量资料是否是来自概率为P的二项分布。l应用条件:二分类变量资料,其中一种结果发生的概率为,另一种结果发生的概率为1-,且发生的概率要求稳定。各次实验结果相互独立,互不影响。32l应用:总体率的区间估计:l查表法:n50。l正态近似法:n50,n、n(1-)5。样本率与已知总体率的比较:l直接计算概率法:多用于单侧检验,x比较靠近某一端。l正态近似法:n50,n、n(1-)5。两样本率的比较:l正态近似法:n1、n250,n1p1、n1(1-p1)5,n2p2、n2(1-p2
14、)533l基本思想:通过对数据从小到大的排序(即排队),并由数据的大小排序号(排队号)代替原始数据进行统计分析。其中该排序号(排队号)在统计学上称为秩(Rank)。l应用条件:数值变量资料非正态或方差不齐的情况下。l应用Two-Independent-Samples Tests;34Tests for Several Independent Samples;Two-Related-Samples Tests;Tests for Several Related Samples;36l内容:线性回归;曲线拟合;Logistic回归;COX回归;概率单位回归(计算半数效量ED50的常用方法)37l线
15、性回归的概念:是描述一个因变量(Dependent variable)Y与一个或多个自变量(Independent variable)X之间的线性依存关系。根据自变量的多少分为一元线性回归和多元线性回归。l一元线性回归:应用条件:l两变量的变化趋势为直线趋势。l因变量为一正态随机变量。l自变量取不同值时,因变量服从正态分布且方差齐。l各观察单位相互独立。38直线回归分析的步骤:l绘制散点图,确定两个变量间有无直线趋势。l求直线回归方程,绘制回归直线。l回归方程的假设检验(样本服从此方程,总体是否服从此方程)。l总体回归系数或其他的区间估计。判定系数R2:l用于判定一个线性回归直线的拟合优度的好
16、坏。即体现了回归模型所能解释的因变量变异的百分比。l调整的R2:消除了自变量个数影响的R2,能更准确的反应的反应模型的拟合优度。39l多元线性回归:概念:根据多个自变量的最优组合建立回归方程来预测因变量的回归分析方法。偏回归系数bi:多元回归方程的回归系数称为偏回归系数,他表示其他自变量不变时,某个自变量变化引起因变量变化的比率,即在排除了其他变量的影响后,自变量Xi与因变量Y之间的相关程度。复相关系数R:表示自变量X与其他自变量Xi之间的线性相关的密切程度。部分相关:在排除了其他自变量对Xi的影响后,当一个自变量进入回归方程模型后,复相关系数的平方的增加量。40例题:29例儿童血液中血红蛋白
17、(y.克)与钙(x1)、镁(x2)、铁(x3)、锰(x4)、铜(x5)的含量资料如下,用逐步回归的方法筛选对血红蛋白含量有显著作用的微量元素(ug)。YX1X2X3X4X5YX1X2X3X4X513.5054.8930.86 448.70.012 1.0107.00 47.31 28.55 294.70.005.83813.0072.4942.61 467.30.008 1.640 10.25 70.08 36.80 409.80.012 1.99013.7553.8152.86 425.61.004 1.220 10.00 63.05 35.07 384.10.000.85314.0064.
18、7439.18 469.80.005 1.2209.75 48.75 30.53 342.90.018.92414.2558.8037.67 456.55.012 1.0109.50 52.28 27.14 326.29.004.81712.7543.6726.18 395.78.001.5949.25 52.21 36.18 388.54.024 1.02012.5054.8930.86 448.70.912 1.0109.00 49.70 25.43 331.10.012.89712.2586.1243.79 440.13.017 1.7708.75 61.02 29.27 258.94.
19、016 1.19012.0060.3538.20 394.40.001 1.4408.50 53.68 28.79 292.60.048 1.32011.7554.0434.23 405.60.008 1.3008.25 50.22 29.17 292.60.006 1.04011.5061.2337.35 446.00.022 1.3808.00 65.34 29.99 312.80.006 1.03011.2560.1733.67 383.20.001.9147.80 56.39 29.29 283.00.016 1.35011.0069.6940.01 416.70.012 1.3507
20、.50 66.12 31.93 344.20.000.68910.7572.2840.12 430.80.000 1.2007.25 73.89 32.94 312.50.064 1.15010.5055.1333.02 445.80.012.91841l概念:他是以疾病死亡、治愈等结果发生的概率(或发生与否)为因变量,以影响疾病发生和预后的因素为自变量建立的回归模型。l资料特点和模型特点特别适用于因变量为二分类或多分类的资料,可以定量的分析和研究各因素 对因变量影响的大小。对自变量的要求不严,可以是分类(有序或无序)和数值变量,但需对自变量合理的数量化。Logistic回归拟合常用逐步回归进
21、行变量筛选。Logistic回归适用于各类流行病学研究。42l应用:病因学分析、预后分析。也可以用于鉴别诊断,评价治疗措施和其他方面的研究。l求回归模型的步骤:回归系数的参数估计;假设检验;l对方程中的各自变量逐一进行检验,剔除对因变量无影响的因因素。l对所拟合的模型的效果进行检验。43l分类:二分类资料Logistic回归:l条件Logistic回归:主要用于配对资料。l非条件Logistic回归:用于成组设计资料,流行病学研究中队列资料的研究。多分类资料Logistic回归:l例题:某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽
22、取26例资料作为示例进行logistic回归分析 44IX1X2X3X4X5YIX1X2X3X4X5Y159243.402101431147.80210236157.201101536331.603113612 190.002101642166.202104583 128.0043117143 138.60331555380.0034118321 114.00230661194.402101935140.20210738176.0011020703 177.204318421 240.003202165251.60441950174.0011022452 124.002401058368.60
23、22023683 127.2033111683 132.8042024312 124.802301225294.6043125581 128.004301352156.0011026603 149.8043145l概念:是计算半数效量ED50的常用方法之一。l功能与应用:通过此过程可完成剂量-效应关系的分析。通过概率单位使剂量-效应的S型曲线关系转化成直线,从而利用回归方程推算各效应水平的相应剂量值。l资料要求:一般要有5-8剂量组,要求死亡率在50%上下的约各有一半的剂量组。各剂量组之间可用等级级数,但更多的采用等比级数。46l例题:研究抗疟药环氯胍对小白鼠的毒性,资料如下,计算环氯胍的半数
24、致死剂量。48l内容:Bivariate过程:计算两个指定的变量的相关系数,有Pearson相关(积乘相关)、Spearman等级相关、Kendall三种相关分析方法供选择,并进行相关系数的假设检验。Partial过程:如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的,如例1。49Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析(即相似或不相似程度的一种测度),前者可用于检测观测值的接
25、近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。l直线相关的应用条件:两变量服从双变量正态分布。两变量之间有线性变化趋势。l偏相关分析功能:在此过程中,系统可根据用户的要求对两相关变量以外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。50l偏相关分析的用途:判断那些自变量对因变量的影响较大,而选择作为必须考虑的自变量。l例题:例1:某地29名13岁男童身高(X1)、体重(X2)、肺活量(Y)的数据如下,试对该资料作控制体重影响后,身高与肺活量的相关关系。分析:身高、体重、肺活量之间的关系若用Pearson相关分析计算相关系数,可见三者
26、间均存在较强线性相关性,但实际上并非如此,对于体重相同的人,身高与肺活量间并非存在相关性,造成这一结果的原因是身高与体重之间存在相关性,体重与肺活量之间也存在相关性。51X1X2YX1X2Y135.1032.00 1750.00153.0047.201750.00139.9030.40 2000.00147.6040.502000.00163.6046.20 2750.00157.5043.302250.00146.5033.50 2500.00155.1044.702750.00156.2037.10 2750.00160.5037.502000.00156.4035.50 2000.001
27、43.0031.501750.00167.8041.50 2750.00149.4033.902250.00149.7031.00 1500.00160.8040.402750.00145.0033.00 2500.00159.0038.502500.00148.5037.20 2250.00158.2037.502000.00165.5049.50 3000.00150.0036.001750.00135.0027.60 1250.00144.5034.702250.00153.3041.00 2750.00154.6039.502500.00152.0032.00 1750.00156.5
28、032.001750.00160.5047.20 2250.0053l内容Univariate过程:l单因素方差分析l两因素方差分析l协方差分析Multivariate过程:当结果变量(应变量)不止一个时,用此过程来分析。Repeted Measures过程:重复测量的数据用此过程来分析,这一点我可能要强调一下,用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对。54l单或二因素方差分析的应用条件:各样本均数来自正态总体;各总体的方差相等;各样本相互独立;l用途:两个或多个样本均数是否相等;回归(包括多元回归)方程是否成立(回归系数的假设检验)。两
29、个或多个因素有无交互作用。两样本的方差齐性检验。55l协方差分析的应用条件:因变量Y服从正态分布且方差齐;各观察单位相互独立;Y与协变量X之间存在直线关系,且每组都是如此(即各组i0)。要求各组的总体回归系数都相等(即各回归直线平行)。l协方差分析的步骤:因变量Y的正态性检验及方差齐性检验;求各组的直线回归系数并进行假设检验;各回归直线是否平行;若平行,比较各组Y的总体修正均数是否相等。56lSPSS过程中其他较简单的方差分析问题:需要分析的影响因素可以都选入fixed factor框,如果不是复杂的模型,一般分析结果不会有误。方差分析模型多数情况下要选model III,但这在数据存在缺失值
30、、设计不平衡等情况下要慎重考虑,因为此时往往会要求模型进行详细的设置。model的设置对分析是非常重要的,如果设置不正确,可能什么都做不出来,比如无重复数据的方差分析纳入了交互作用、析因设计的方差分析纳入了设计中不存在的因素,就会做不出结果。57l例题1(两因素方差分析):对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?组号 A营养 B营养 C营养
31、 组号 A营养 B营养 C营养 1 50.10 58.20 64.50 2 47.80 48.50 62.40 3 53.10 53.80 58.60 4 63.50 64.20 72.50 5 71.20 68.40 79.30 6 41.40 45.70 38.40 7 61.90 53.00 51.20 8 42.20 39.80 46.2058原始数据的整理:group food weight 1 1 50.01 1 2 58.20例2(协方差分析):某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关,资料见下表。原始数据的整理:group age ach
32、ol 1 48 3.5 1 51 5.859(原始数据)正常组 超重组 正常组 超重组 年龄 胆固醇 年龄 胆固醇 年龄 胆固醇 年龄 胆固醇(x1)(y1)(x2)(y2)(x1)(y1)(x2)(y2)48 3.5 58 7.3 33 4.6 41 4.7 51 5.8 71 8.4 43 5.8 76 8.8 44 4.9 49 5.1 63 8.7 33 4.9 49 3.6 54 6.7 42 5.5 65 6.4 40 4.9 39 6.0 47 5.1 52 7.5 41 4.1 45 6.4 41 4.6 58 6.8 56 5.1 67 9.260l多元方差分析概念:就是说存
33、在着不止一个应变量,而是两个以上的应变量共同反映了自变量的影响程度。比如要研究某些因素对儿童生长的影响程度,则身高、体重等都可以作为生长程度的测量因子,即都应作为应变量。l例题:如下资料:假设tear_res、gloss和opacity都使反应橡胶质量的指标,现在要研究extrusn和additive对橡胶的质量影响如何,则应采用多元方差分析。61EXTRUSNADDITIVETEAR_RESGLOSSOPACITYEXTRUSNADDITIVETEAR_RESGLOSSOPACITY116.59.54.4216.79.12.8116.29.96.4216.69.34.1115.89.63.0
34、217.28.33.8116.59.64.1217.18.41.6116.59.2.8216.88.53.4126.99.15.7227.19.28.4127.210.02.0227.08.85.2126.99.93.9227.29.76.9126.19.51.9227.510.12.7126.39.45.7227.69.21.962三、RepetedMl例题如下资料,anxiety和tension对实验结果(即trial1trial4)有无影响;四次试验间有无差异;试验次数和两个变量有无交互作用?63SUBJECT ANXIETY TENSION TRIAL1 TRIAL2 TRIAL3 TRIAL411118141262111912843111410624121612104512128626121810517211610848211884192116126210221916108112216141091222161288