1、临床科研中常用的统计分析方法临床科研中常用的统计分析方法2022-10-72022-10-71 1主要内容主要内容一一如何正确抉择统计方法如何正确抉择统计方法二二常用的统计方法常用的统计方法三三中医领域的应用中医领域的应用2 2一、如何正确抉择统计方法一、如何正确抉择统计方法1 1 分析集分析集2 2 研究目的研究目的3 3 资料类型资料类型4 4 设计类型设计类型5 5方法的应用方法的应用/适用条件适用条件3 31 1 分析集(分析集(ANALYSIS SETANALYSIS SET)分析集应在分析集应在研究设计阶段研究设计阶段确定,建立规则。确定,建立规则。意向性分析集(意向性分析集(in
2、tention to treat,ITT)intention to treat,ITT)全分析集(全分析集(Full analysis setFull analysis set,FASFAS)符合方案集(符合方案集(per protocol setper protocol set,PPSPPS)安全集(安全集(safety setsafety set,SSSS)4 4使用适宜、正确的统计分析方法是统计结论真实可靠的重使用适宜、正确的统计分析方法是统计结论真实可靠的重要保证。要保证。统计分析包括:统计分析包括:统计描述:选择什么样的指标,选用统计表还是图取决于资料统计描述:选择什么样的指标,选用
3、统计表还是图取决于资料的性质及研究目的等的性质及研究目的等统计推断:方法的正确抉择与研究目的、资料类型、设计类型、统计推断:方法的正确抉择与研究目的、资料类型、设计类型、样本大小、资料分布类型、数据结构、特定条件综合分析等有样本大小、资料分布类型、数据结构、特定条件综合分析等有关。关。5 52 2 研究目的研究目的研究目的通常有:研究目的通常有:估计估计参数的点估计和区间估计参数的点估计和区间估计筛选主要影响因素筛选主要影响因素回归回归相关分析相关分析各种相关各种相关建立临床医学参考值范围建立临床医学参考值范围校正与控制混杂因素校正与控制混杂因素协方差分析、协方差分析、CMHCMH因果关系分析
4、因果关系分析通径分析通径分析预测、预报分析预测、预报分析回归。回归。等等等等6 63 3 资料类型资料类型资料类型包括三个方面资料类型包括三个方面数据性质数据性质定量资料定量资料定性资料定性资料资料分布类型资料分布类型正态分布正态分布偏态分布偏态分布分布类型不清分布类型不清结局变量的类型结局变量的类型数值变量数值变量分类变量分类变量二分类二分类无序多分类无序多分类有序分类有序分类7 7统计设计的类型取决于研究目的,实际上是为了更统计设计的类型取决于研究目的,实际上是为了更好地达到研究目的而采取的设计方案好地达到研究目的而采取的设计方案从统计学上来讲,临床上常用的有:从统计学上来讲,临床上常用的
5、有:完全随机设计完全随机设计配对设计配对设计随机区组设计随机区组设计交叉设计交叉设计序贯设计序贯设计重复测量设计重复测量设计8 85 5 统计方法的应用统计方法的应用/使用条件使用条件对样本量的要求对样本量的要求对应变量、自变量分布类型的要求对应变量、自变量分布类型的要求对数据缺失程度的要求对数据缺失程度的要求9 9二、常用的统计分析方法二、常用的统计分析方法v差异性检验差异性检验v疗效性检验疗效性检验v优效性v等效性v非劣效性10101111121213131414申杰主编申杰主编.中医统计学中医统计学.北京:科学出版社北京:科学出版社,2009:P33.,2009:P33.15152.2
6、2.2 临床试验的优效性、等效性、非劣效性检验方法临床试验的优效性、等效性、非劣效性检验方法差异性检验:通常所用的统计分析方法都是进行的差异差异性检验:通常所用的统计分析方法都是进行的差异性检验性检验临床试验的三种检验,确切的说是为三种设计而进行的临床试验的三种检验,确切的说是为三种设计而进行的分析方法分析方法金丕焕.临床试验.复旦大学出版社.p861616统计分析方法同差异性检验方法,但是单侧检验。统计分析方法同差异性检验方法,但是单侧检验。须在研究设计阶段确定。须在研究设计阶段确定。17171818191920202121可信区间估计可信区间估计22223.3.中医领域的应用中医领域的应用
7、232324242525协方差分析的概念协方差分析的概念协方差分析模型协方差分析模型协方差分析举例协方差分析举例2626一、协方差分析的概念2727定义2828 考察某因素对因变量考察某因素对因变量Y Y的影响,布置了一单项分类资料的试的影响,布置了一单项分类资料的试验,其方差分析模型为:验,其方差分析模型为:yij=i+ij i该因素第该因素第i个水平的效应,个水平的效应,ij为随机误差为随机误差 同时收集到与同时收集到与y y有密切回归关系的变量有密切回归关系的变量x x,其方差分析模型变其方差分析模型变为:为:yij=i+b(xij-x)+dij b为y对x的回归系数,dij为随机误差二
8、、协方差分析模型29291 1、比较三种猪饲料、比较三种猪饲料 A1A1,A3A3,A3A3对猪催肥的效对猪催肥的效果,测得每头猪增加的重量(果,测得每头猪增加的重量(y y)与初始重量与初始重量(x x)与数据如表。试测定三种饲料对猪的催肥与数据如表。试测定三种饲料对猪的催肥有无显著的不同?初始重量与猪的增加重量之间有无显著的不同?初始重量与猪的增加重量之间有无明显的关系?有无明显的关系?三、协方差举例水平水平观察值观察值A1x 15 13 11 12 12 16 14 17 y 85 83 65 76 80 91 84 90A2x 17 16 18 18 21 22 19 18 y 97
9、90 100 95 103 106 99 94A3x 22 24 20 23 25 27 30 32 y 89 91 83 95 100 102 105 11030301 1、平方和、平方和2 2、回归关系的显著性检验、回归关系的显著性检验协方差举例变异来源变异来源 自由度自由度 平方和平方和均方均方F值值回归回归误差误差1201010.76 227.6151010.76 11.3888.8*31313 3、纠正后的处理间方差分析、纠正后的处理间方差分析4 4、用回归纠正每处理的平均增重、用回归纠正每处理的平均增重协方差举例变异来源变异来源 自由度自由度 平方和平方和均方均方F值值处理处理误差
10、误差220707.218 227.615353.609 11.38131.07*总变异总变异22934.833yi=i+b(xi-x)32321 1、统计资料应服从正态分布,否则要做适当的统计代换。、统计资料应服从正态分布,否则要做适当的统计代换。2 2、做一般方差分析时处理间差异显著,而做协方差分析时,、做一般方差分析时处理间差异显著,而做协方差分析时,处理间差异反而不显著,说明所谓的差异是由于初始的试验处理间差异反而不显著,说明所谓的差异是由于初始的试验条件造成的,并非处理间真正的差异。条件造成的,并非处理间真正的差异。3 3、做一般方差分析时处理间差异不显著,而做协方差分析时,、做一般方
11、差分析时处理间差异不显著,而做协方差分析时,处理间差异反而显著,说明除去试验条件的影响后处理间有处理间差异反而显著,说明除去试验条件的影响后处理间有真正的差异。真正的差异。注意的问题33333434重复测量设计重复测量设计一、重复测量资料的数据特征一、重复测量资料的数据特征当对同一受试对象在不同时间重复测量次数当对同一受试对象在不同时间重复测量次数p3p3时,称为重时,称为重复测量设计或重复测量数据。复测量设计或重复测量数据。测测 量量 时时 间间 点点受试者受试者 1 2 p 1 2 p1 y1 y1111 y y1212 y y1p1p2 y2 y2121 y y2222 y y2p2p:
12、n yn yn1n1 y yn2n2 y y n pn p3535图例3636重复测量资料重复测量资料是同一受试对象的同一观察指标在不同时间点上进行多次测量是同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,所得的资料,常用来分析该观察指标在不同时间点上的变化。常用来分析该观察指标在不同时间点上的变化。有时是从同一个体的不同部位(或组织)上重复测量获得的有时是从同一个体的不同部位(或组织)上重复测量获得的指标的观测值。指标的观测值。目的:就是比较不同时间点动态变化趋势的特征目的:就是比较不同时间点动态变化趋势的特征3737问题?问题?想一想?同一观察单位具有多个观察值,而想一想?
13、同一观察单位具有多个观察值,而这些观察值来自同一受试对象的不同时点这些观察值来自同一受试对象的不同时点(部位等)(部位等),这类数据间往往有这类数据间往往有相关性存在相关性存在,违背了方差分析要求违背了方差分析要求数据满足独立性数据满足独立性基本条基本条件。件。3838在这种情况下:在这种情况下:若若使用一般的方差分析使用一般的方差分析,就不能充分揭示出,就不能充分揭示出内在的特点,有时甚至会得出错误结论。内在的特点,有时甚至会得出错误结论。所以重复测量资料需要采用专门所以重复测量资料需要采用专门的统计分析方法,该方法是近代的统计分析方法,该方法是近代统计学研究的热点之一。统计学研究的热点之一
14、。3939实际中:重复测量资料比独立资料更多见。实际中:重复测量资料比独立资料更多见。临床研究中,需要观察病人在不同时间的某些生理、临床研究中,需要观察病人在不同时间的某些生理、生化或病理指标的变化趋势,研究不同时间或疗程生化或病理指标的变化趋势,研究不同时间或疗程的治疗效果。的治疗效果。流行病学研究中,观察队列人群在不同时间上的发流行病学研究中,观察队列人群在不同时间上的发病情况。研究不同职业、性别人群实施某种控制后,病情况。研究不同职业、性别人群实施某种控制后,不同时间的多次效果考察。不同时间的多次效果考察。卫生学研究中,纵向观察儿童生长发育规律等,不卫生学研究中,纵向观察儿童生长发育规律
15、等,不同地区和环境营养状况。同地区和环境营养状况。4040提醒大家提醒大家重复测量数据在医学研究中十分常见,在重复测量数据在医学研究中十分常见,在医学类杂志上约占四分之一,而且统计医学类杂志上约占四分之一,而且统计表达和分析误用情况严重。表达和分析误用情况严重。4141主要优点主要优点减少样本含量减少样本含量控制个体变异控制个体变异非实验因素(干扰因素)非实验因素(干扰因素)4242 单变量重复测量方差分析单变量重复测量方差分析1.1.单组重复测量单组重复测量指同一组内(或接受同一种处理)的多个受试者,在多个时指同一组内(或接受同一种处理)的多个受试者,在多个时间点上的反应变量所作的测量,又称
16、为单变量重复测量。间点上的反应变量所作的测量,又称为单变量重复测量。测测 量量 时时 间间 点点受试者受试者 1 2 p 1 2 p1 y1 y1111 y y1212 y y1p1p2 y2 y2121 y y2222 y y2p2p:n yn yn1n1 y yn2n2 y y n pn p43432.2.多组重复测量多组重复测量(多组并不等于多因素)(多组并不等于多因素)指将受试者按处理的不同水平分为几个组,对这些组内的每一受指将受试者按处理的不同水平分为几个组,对这些组内的每一受试者,都在不同时间点对他们的反应变量进行测量。试者,都在不同时间点对他们的反应变量进行测量。表3.1(余松林
17、)44441.1.单组重复测量数据方差分析单组重复测量数据方差分析2.2.两组重复测量数据方差分析两组重复测量数据方差分析 单变量重复测量方差分析单变量重复测量方差分析4545二、重复测量资料分析的前提条件和基本步骤二、重复测量资料分析的前提条件和基本步骤1.1.前提条件:前提条件:首先要求样本是随机的,首先要求样本是随机的,除了满足一般方差分析除了满足一般方差分析条件外,特别强调条件外,特别强调满足满足协方差阵协方差阵(covariance covariance matrixmatrix)球形性球形性。222212222222121212211aaaaaaSSSSSSSSSVspherici
18、tysphericity4646概念:概念:协方差阵的球对称性是指该对角线元素(方差)协方差阵的球对称性是指该对角线元素(方差)相等、非主对角线元素(协方差)为零相等、非主对角线元素(协方差)为零方差指在某一时点上测定值变异的大小,而协方差是方差指在某一时点上测定值变异的大小,而协方差是指在两个不同时点上测定值相互变异的大小。如果在指在两个不同时点上测定值相互变异的大小。如果在某个时点上的取值不影响其它时点上的取值。则协方某个时点上的取值不影响其它时点上的取值。则协方差为差为0 0,相反,则不为,相反,则不为0 0。由协方差构成的矩阵称为协方差阵。由协方差构成的矩阵称为协方差阵。2222122
19、22222121212211aaaaaaSSSSSSSSSV0 00 04747若球对称性得不到满足,方差分析的若球对称性得不到满足,方差分析的F F值是有偏的,值是有偏的,会增大会增大类错误的概率类错误的概率2.2.用用MauchlyMauchly法检验协方差阵的球形性质法检验协方差阵的球形性质如果如果P P值大于值大于,说明协方差阵的球对称性质得,说明协方差阵的球对称性质得到满足。否则,必须对与时间有关的到满足。否则,必须对与时间有关的F F统计量统计量的分子和分母的分子和分母自由度自由度进行调整,减少进行调整,减少类错误类错误的概率。调整系数为:的概率。调整系数为:(读:(读:epsil
20、onepsilon)48483.3.自由度常用调整方法自由度常用调整方法Greenhouse-Geisser Greenhouse-Geisser 法,简称:法,简称:G-GG-G法法Huynh-Feldt Huynh-Feldt 法,简称:法,简称:H-FH-F法法Lower-boundLower-bound法,简称:法,简称:L-BL-B下界法下界法以上前两种方法较复杂,采用软件计算。以上前两种方法较复杂,采用软件计算。49494.4.举例:举例:单组重复测量数据的方差分析单组重复测量数据的方差分析观察观察1010名慢性乙型肝炎患者治疗前、治疗名慢性乙型肝炎患者治疗前、治疗1212周、周、
21、2424周、周、3636周四个时间点上谷丙转氨酶(周四个时间点上谷丙转氨酶(ALTALT)水平的变化趋)水平的变化趋势,结果见下表,试进行统计推断。势,结果见下表,试进行统计推断。5050分析分析:数据结构上与完全区组设计相似数据结构上与完全区组设计相似但实质不同但实质不同各观测点时间顺序是固定的,不能随机分配;不同观测各观测点时间顺序是固定的,不能随机分配;不同观测点数据彼此不独立或不完全独立,存在一定的相关性。点数据彼此不独立或不完全独立,存在一定的相关性。5151SASSAS结果中包括偏相关阵结果中包括偏相关阵5252例题例题 1.1.建立假设,确定检验水准建立假设,确定检验水准 0.0
22、10.012.2.进行球对称性检验进行球对称性检验球对称性通常采用球对称性通常采用Mauchlys testMauchlys test检验标准来判断检验标准来判断53533.3.调整时间点调整时间点F F值的自由度值的自由度调整原则:调整原则:当资料满足当资料满足“球对称球对称”(Sphericity)(Sphericity)条件时(条件时(PP),不,不作调整。作调整。当资料不满足当资料不满足“球对称球对称”条件时(条件时(PP27BMI27的肥胖患者的肥胖患者4040名随机等分成名随机等分成7777表9-137878可以看出重复测量资料中同一受试对象可以看出重复测量资料中同一受试对象(看成
23、区组)的数据高度相关(看成区组)的数据高度相关无论哪位受试对象服用曲明片剂或是胶囊,其服药后无论哪位受试对象服用曲明片剂或是胶囊,其服药后8 8周、周、1616周和周和2424周的体重均和前面时间点(含服药前的周的体重均和前面时间点(含服药前的0 0周)的体重相关。不同时点数据其相关性较强。周)的体重相关。不同时点数据其相关性较强。7979重复测量资料方差分析的基本步骤重复测量资料方差分析的基本步骤分为三步:分为三步:8080计算检验统计量:使用统计软件进行计算结果如下计算检验统计量:使用统计软件进行计算结果如下 :8181确定确定P P值,做出推断结论:值,做出推断结论:根据专业知识和假设检
24、验,直接由计算机所给根据专业知识和假设检验,直接由计算机所给 P P值做出推值做出推断结论。断结论。按按=0.05=0.05水准,减肥药剂型水准,减肥药剂型k k(片剂和胶囊),剂型(片剂和胶囊),剂型k k与时间与时间i i的交互效应的交互效应kiki均不拒绝均不拒绝HH0 0,无统计学意义,还不能认为曲明不同剂型的减肥效果不同,无统计学意义,还不能认为曲明不同剂型的减肥效果不同,也还不能认为剂型也还不能认为剂型k k与时间与时间i i间有交互效应。而时间因素间有交互效应。而时间因素i i拒绝拒绝HH0 0,接受,接受HH1 1,有统计学意义,可认为服用减肥药盐酸西市曲明前后不同时间(有统计
25、学意义,可认为服用减肥药盐酸西市曲明前后不同时间(8 8周、周、1616周和周和2424周)的平均体重不全相同。周)的平均体重不全相同。8282重复测量资料方差分析的前提条件重复测量资料方差分析的前提条件重复测量资料的方差分析,除了满足一般方差分析的条件外,重复测量资料的方差分析,除了满足一般方差分析的条件外,还要满足协方差阵的球形性或复合对称性。若条件不能满足,还要满足协方差阵的球形性或复合对称性。若条件不能满足,F F值有偏性,通常采用值有偏性,通常采用MauchlyMauchly检验来判断,通过软件选参数计算。检验来判断,通过软件选参数计算。8383校正后的结果:校正后的结果:8484两
26、组重复两组重复测量数据测量数据结构结构8585SAS程序显示该资料不满足球对称性,参看校正结果。显示该资料不满足球对称性,参看校正结果。8686结果表明经结果表明经G-GG-G和和H-FH-F调整后,按调整后,按 0.050.05检验水准,检验水准,A A(不同药物)和(不同药物)和A A与与TIMETIME(时间)无统计学意义,后者无交互作用,而时间因素间有统计学意义。(时间)无统计学意义,后者无交互作用,而时间因素间有统计学意义。8787例例4 4 用丹参注射液治疗用丹参注射液治疗7 7例慢性肾功能衰竭患者,治例慢性肾功能衰竭患者,治疗前后不同时间各患者的血尿素氮(疗前后不同时间各患者的血
27、尿素氮(BUNBUN)的变化,)的变化,如表所示。试比较治疗前后不同时间各患者血尿素氮如表所示。试比较治疗前后不同时间各患者血尿素氮的变化是否不同?的变化是否不同?表表4-5 4-5 丹参注射液治疗慢性肾衰患者丹参注射液治疗慢性肾衰患者 不同时间的不同时间的BUNBUN(mg/dlmg/dl)变化)变化 治 疗 后不同患者 治疗前 第2周 第4周 第6周 1 60.7 41.0 34.5 36.21 60.7 41.0 34.5 36.2 2 65.2 44.7 41.2 39.4 2 65.2 44.7 41.2 39.4 3 66.3 42.4 40.5 37.7 3 66.3 42.4
28、40.5 37.7 4 67.1 49.1 43.3 40.2 4 67.1 49.1 43.3 40.2 5 62.8 38.5 40.1 35.8 5 62.8 38.5 40.1 35.8 6 72.5 52.3 44.6 37.6 6 72.5 52.3 44.6 37.6 7 58.0 35.0 38.6 37.2 7 58.0 35.0 38.6 37.28888题意分析:题意分析:本题要探讨治疗前后本题要探讨治疗前后“不同时间不同时间”,又要研究又要研究“不同患者不同患者”的血尿素氮的变化,是属于的血尿素氮的变化,是属于按两因素分组的多个均数间比较的重复测量方差分按两因素分组的多
29、个均数间比较的重复测量方差分析析 首先在首先在InsightInsight中建立数据集,本题变量中建立数据集,本题变量FLFL为不同治疗时间为不同治疗时间的分组变量,如治疗前为的分组变量,如治疗前为1 1,治疗后第,治疗后第2 2周为周为2 2,第,第6 6周为周为4 4。X X为为BUNBUN的测定值。建好结构录入数据,格式如图的测定值。建好结构录入数据,格式如图4-174-17所示,所示,数据集名为数据集名为L2,L2,存入存入SASUSERSASUSER库中,备用。库中,备用。8989如图所示:如图所示:90909191何为生存分析9292传统方法在分析随访资料时的困难传统方法在分析随访
30、资料时的困难时间和生存结局都成为了要关心的因素时间和生存结局都成为了要关心的因素 除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效 如果将两者均作为应变量拟和多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难9393传统方法在分析随访资料时的困难传统方法在分析随访资料时的困难存在大量失访的资料存在大量失访的资料失去联系(病人搬走,电话号码改变)无法观察到结局(死于其他原因)研究截止 显然,将失访数据无论是算作死亡还是存活似乎都不大合理9494第一节 概述9595一、基本概念(一)生存时间(
31、survival time):1定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failure time)。2特点:(1)分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任 何规则的分布类型。9696(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:完全数据完全数据(complete data):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。截尾数据截尾数据(截尾值、
32、删失数据,censored data):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号常用符号“”表示。表示。9797截尾值(截尾值(CENSORED VALUECENSORED VALUE)出现的)出现的原因原因截尾的原因主要有3种:失访:失访:生存但中途失访:包括拒绝访问、失去联系等。退出:退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。终止:终止:指观察期结束时仍未出现结局。9898关于截尾或删失随访开始事件失
33、访失访失访失访研究截止时仍存活研究截止时仍存活研究截止时点患者进入期间删失的模式图删失的模式图9999100100101101102102103103104104105105106106风险函数与生存函数的关系107107108108109109110110第二节 生存率估计的非参数法 111111112112113113114114图图16-2 16-2 两种疗法治疗后白血病患者的生存率曲线两种疗法治疗后白血病患者的生存率曲线 10.900.7930.686 70.56110.42130.2111511511611611711711811811911912012012112112212212
34、3123124124第三节 生存率的比较 生存率比较的假设检验方法有参数法、半参数法和非参数法,因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有log-rank 检验(时序检验)、Gehan比分检验和Breslow检验等。125125126126127127128128129129130130续表续表131131132132133133对于大样本资料生存率的比较,可以将其整理成对于大样本资料生存率的比较,可以将其整理成频数表形式,采用寿命表法计算生存
35、率然后进行频数表形式,采用寿命表法计算生存率然后进行比较,其基本原理与上述方法相同。比较,其基本原理与上述方法相同。134134第四节第四节 COXCOX比例风险回归模型比例风险回归模型 135135136136一、一、COXCOX比例风险回归模型的基本形式比例风险回归模型的基本形式 看下面例子看下面例子137137如果分析x1-x6这6个因素对生存时间t的影响,能否用线性回归分析建立时间t与影响因素间的线性回归方程?或建立生存函数S(t)与影响因素间的线性回归方程?t=b0+b1x1+b2x2+b6x6?S(t)=b0+b1x1+b2x2+b6x6?1、生存时间t一般不服从正态 分布;2、生
36、存时间t中含有截尾值。138138 )exp(0000expexp,exp,XtttSdtXthdtXthXtSbb-利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出 较好的解决截尾值的问题 反映了协变量X与生存函数的关系 Cox模型的基本形式 139139所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。14014014114114214214
37、3143144144145145二、二、COXCOX回归分析的步骤:回归分析的步骤:确定自变量和因变量参数估计,拟和模型对模型的假设检验模型的解释及应用对模型的拟和优度检验 146146模型的参数估计(一)参数估计-偏似然估计 147147代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体 将n个病人死亡的 条件概率相乘 148148模型的假设检验 149149150150151151COXCOX回归分析的应用实例回归分析的应用实例 152152153153调用调用CoxCox模型分析模块模型分析模块 ,分析数据集为,分析数据集为coxcox建立生存时间为建立生存时间为t t,截尾指示变
38、,截尾指示变量为量为d d 的的CoxCox模型,模型,d d 取值为取值为1 1时时表示截尾表示截尾 选入和剔出水平均为选入和剔出水平均为0.050.05计算筛选因素的相对危险计算筛选因素的相对危险度及其度及其95%95%的可信区间的可信区间 154154Summary of Stepwise Selection Variable Number Score Wald Step Entered Removed In Chi-Square Chi-Square Pr ChiSq 1 x4 1 13.0399 .0.0003 2 x5 2 4.7039 .0.0301筛选过程总结筛选过程总结Ana
39、lysis of Maximum Likelihood EstimatAnalysis of Maximum Likelihood Estimat Parameter Standard Hazard Parameter Standard Hazard 95%HR 95%HR Variable DF Estimate Error Chi-Square PrChiSq Ratio Confidence Variable DF Estimate Error Chi-Square PrChiSq Ratio Confidence LimitsLimits x4 1 x4 1 1.761281.7612
40、8 0.54785 10.3356 0.0013 0.54785 10.3356 0.0013 5.820 5.820 1.989 1.989 17.03117.031 x5 1 x5 1 0.931330.93133 0.44455 4.3890 0.0362 0.44455 4.3890 0.0362 2.5382.538 1.062 1.062 6.0666.066最大似然估计结果最大似然估计结果治疗方式(治疗方式(x4x4):相对危险度为:相对危险度为5.8205.820,说明传统的治疗方式和新的治疗方式相,说明传统的治疗方式和新的治疗方式相比,病人死亡的风险为比,病人死亡的风险为5.
41、8205.820倍,相对危险度的倍,相对危险度的95%95%的可信区间为的可信区间为1.98917.0311.98917.031;淋巴结是否转移(淋巴结是否转移(x5x5)的)的RRRR值的含义与治疗方式相同。值的含义与治疗方式相同。155155四、四、COXCOX模型的适用范围模型的适用范围Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型能分析具有截尾数值的生存时间。Cox模型在临床流行病学分析中,使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。156156五、五、COXCOX模型的适用范围及注意事项模型的适用范围及注意事项 1 1设计阶段应注意的问题设计阶段应注意的问题 2 2模型拟合时应注意的问题模型拟合时应注意的问题 3 3模型应用时应注意的问题模型应用时应注意的问题 157157The end!The end!Thanks!Thanks!158158此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!159