1、文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。例例1 从某单位从某单位1999年的职工体检资料中获得年的职工体检资料中获得101名正常成年女子的血清总胆固醇名正常成年女子的血清总胆固醇(mmol/L)的测量结果)的测量结果 2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.5
2、33.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26单变量资料单变量资料文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。例例对10例肺癌病人和12例矽肺(硅沉着病)0期工人用X
3、线片测量肺门横径右侧距RD值(cm),结果见下表。问肺癌病人的RD值是否高于矽肺0期工人的RD值?肺癌病人矽肺0期工人RD值RD值2.78 3.23 3.23 3.50 4.20 4.04 4.87 4.15 5.12 4.28 6.21 4.34 7.18 4.47 8.05 4.64 8.56 4.75 9.60 4.82 4.95 5.10 单单变变量量资资料料文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。表2 12只大白鼠的进食量与体重增加量序号进食量(g)体重增加量(g)1305.723.62188.614.73277.219.24364.827.75
4、285.318.96244.716.17255.917.28149.812.99268.918.310247.617.711168.813.712200.615.6合计2957.9215.6变变量量y变变量量x双变量资料双变量资料医学上,还有许多现象之间也都有类似的或强或弱的相互依存变化的关系,如:身高与体重、体温与脉搏、年龄与血压、胰岛素与血糖水平、癌症病人术后的生存时间和肿瘤级别与年龄等等多变量资料多变量资料文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。预测型知识预测型知识l 预测型知识指的是预测连续值,是预测型知识指的是预测连续值,是根据时间序列型根据时间
5、序列型数据数据,由,由历史的和当前的数据历史的和当前的数据去去推测推测未来的数据未来的数据。l 这类知识可以被认为是以这类知识可以被认为是以时间时间为关键属性的为关键属性的关联知关联知识识,因此关联知识挖掘方法可以应用到以时间为关,因此关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘中。键属性的源数据挖掘中。l 分类知识挖掘分类知识挖掘:分类通常用来预测对象的:分类通常用来预测对象的类标号类标号。然而,在某些应用中,人们可能希望预测某些遗漏然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的的或不知道的数据值数据值,而不是类标号。,而不是类标号。当被预测的当被预测的值是值是数值数值数
6、据时,通常称之为预测。数据时,通常称之为预测。预测用于预测数据对象的连续取值,如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。预测型知识的挖掘预测型知识的挖掘l 预测型知识的挖掘可以利用预测型知识的挖掘可以利用统计学中的回归方法统计学中的回归方法,通过历史数据直接产生连续的对未来数据的预测值;通过历史数据直接产生连续的对未来数据的预测值;l 也可以借助于经典的统计方法、神经网络和机器学也可以借助于经典的统计方法、神经网络和机器学习等技术。习等技术。l 无论如何,经典的统计学方法是挖掘预测知识的基无论如
7、何,经典的统计学方法是挖掘预测知识的基础。础。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。挖掘预测型知识l 线性回归线性回归(Linear Regression)一元线性回归一元线性回归 多元线性回归多元线性回归l Cox回归回归(Cox Regression)l logistic回归回归(logistic Regression)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。目的目的:作出以:作出以多个自变量多个自变量估计估计应变量应变量的多元线性的多元线性回归方程。回归方程。资料资料:应变量为定量指标应变量为定量指标;自变量全
8、部或大部分;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。为定量指标,若有少量定性或等级指标需作转换。用途用途:解释和预报。:解释和预报。意义意义:由于事物间的联系常常是多方面的,:由于事物间的联系常常是多方面的,一个一个应变量的变化可能受到其它多个自变量的影响应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。的影响。线性回归线性回归(Linear Regression)文档仅供参考,不能作为科学依据,请勿模仿;
9、如有不当之处,请联系网站或本人删除。l 表 多元线性回归分析的数据结构实验对象 y X1 X2 X3 .XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是服从正态分布文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。表 27名糖尿病人的血糖及有关变量的测量结果 文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。缺失值及处理缺失值及处理l 多元线性回归中,由于观察变量较多,容多元线性回归中,由于观察变量较
10、多,容易造成缺失(易造成缺失(20%以内)以内)l 处理处理:剔除缺失过多的研究对象或变量剔除缺失过多的研究对象或变量 用均数替代缺失值用均数替代缺失值文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。-4 -2 0 2 4 42-2-4极端值造成回归线上抬删除该极端值极端值及处理极端值及处理l剔除极端值剔除极端值1.1.赋值错误赋值错误2.2.单个极端值影响结果明显单个极端值影响结果明显3.3.明显违背理论与常规机制明显违背理论与常规机制l 保留极端值保留极端值1.1.极端值较多极端值较多2.2.非强影响值非强影响值文档仅供参考,不能作为科学依据,请勿模仿;如有不
11、当之处,请联系网站或本人删除。线性回归线性回归l 两变量间两变量间存在某种内在联系存在某种内在联系,且某一变量,且某一变量Y 随着另随着另一变量一变量X 的变动而变动,其散点图呈的变动而变动,其散点图呈直线趋势直线趋势,则,则统计上把这种描述两变量间依存变化的数量关系的统计上把这种描述两变量间依存变化的数量关系的现象称为现象称为直线回归直线回归33.730.516YX文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。直线回归方程的一般表达式直线回归方程的一般表达式X:自变量:自变量(independent variable),通常也称为,通常也称为“解释变解释变量量
12、”(explanatory variable)*只有一个自变量,称简单回归只有一个自变量,称简单回归(simple regression)*多个自变量,称多元回归多个自变量,称多元回归(multiple regression)Y:应变量:应变量(dependent variable),通常也称为,通常也称为“反应变反应变量量”(response variable)bXaY a为截距为截距(intercept),b为回归系数为回归系数(regression coefficient)回归系数回归系数b的统计学意义:的统计学意义:X每增加(或每增加(或减少)一个单位,减少)一个单位,Y平均改变平均改
13、变b个单位个单位文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。求解回归直线求解回归直线YabX最小二乘法最小二乘法(least square method)原理原理文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。2.2.若纵、横坐标无折断号时,将回归直线延长与纵轴若纵、横坐标无折断号时,将回归直线延长与纵轴相交,交点的纵坐标必然等于截距相交,交点的纵坐标必然等于截距a a1.1.通过点通过点),(YXbXaY )()()(YYYYYY 总离均差平方和的分解:总离均差平方和的分解:2)(YY 2)(YY 2)(YY回回残残总总SSSS
14、SS 文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。b0原因:由于抽样误差引起,总体回归系数 b=0 存在回归关系,总体回归系数 b0(一)回归方程的假设检验(一)回归方程的假设检验YabX文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 一元线性回归的统计量计算一元线性回归的统计量计算l 多元线性回归的统计量计算多元线性回归的统计量计算/(1)SSSSmFSSSSnm回归回归回归残差残差残差1 12 2 YY m m Y jj YS Sb lb l b lb l m 回归 1S S S SS Snm总残 差回 归21 n,残残回
15、回残残回回残残残残回回回回 MSMSvSSvSSF/文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。应用条件(应用条件(lineline):):线性线性(l linear)inear)独立性独立性(i independence)ndependence)残差残差e e服从正态分布服从正态分布(0,(0,)()(n normality)ormality)等方差性等方差性(e equity of variance)quity of variance)多元线性回归分析的注意事项多元线性回归分析的注意事项(1)Y与mXXX,21之间具有线性关系。(2)各例观测值之间具有线性
16、关系。(2)各例观测值),2,1(niYi相互独立。(3)残差 e 服从均数为 0、方差为的正态分布,它等价于对任意一组自变量值,应变量 Y 具有相同方差,并且服从正态分布。值,应变量 Y 具有相同方差,并且服从正态分布。的正态分布,它等价于对任意一组自变量的正态分布,它等价于对任意一组自变量mXXX,21值,应变量 Y 具有相同方差,并且服从正态分布。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l非线性处理非线性处理:结合专业知识,考虑回归方:结合专业知识,考虑回归方程中加入变量多次方项。程中加入变量多次方项。=a=a1 1+b+b1 1 x x1 1+b+
17、b2 2 x x1 1 2 2l对变量数据进行转换对变量数据进行转换对数变换、对数变换、log变换变换 文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 等方差性:等方差性:绘制残差绘制残差 的散点图考察的散点图考察模型形式及方差齐性。模型形式及方差齐性。绘制残差的直方图或正态概率图:绘制残差的直方图或正态概率图:判断残差分布正态性及发现异常值;判断残差分布正态性及发现异常值;绘制残差与因变量预测值的散点图:绘制残差与因变量预测值的散点图:残差图呈曲线残差图呈曲线,提示加入非线性项或做合适的变,提示加入非线性项或做合适的变量变换;量变换;残差呈喇叭形残差呈喇叭形
18、,则提示方差不齐;,则提示方差不齐;残差与时间呈依赖关系残差与时间呈依赖关系,考虑时间变量或样本的,考虑时间变量或样本的独立性。独立性。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。00000000a.二元正态b.y的标准差随x递增c.y关于x的回归是非线性的d.非线性,且方差不等yyyyyyyyyyyyxxxxxxx文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Matlab实现线性回归实现线性回归b,bint,r,rint,stats=regress(Y,X)l b-a p-by-1 vector of coefficient
19、estimates for a multilinear regression bint-a p-by-2 matrix bint of 95%confidence intervals for the coefficient estimatesl n-by-1 vector r of residuals an n-by-2 matrix rint of intervals that can be used to diagnose outliers.l 1-by-4 vector statsthe R2 statistic,the F statistic its p-valuean estimat
20、e of the error variance文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。表 27名糖尿病人的血糖及有关变量的测量结果 文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Matlab实现线性回归实现线性回归l load(line_regression_data.mat)%总胆固醇(总胆固醇(X1)、甘油三酯()、甘油三酯(X2)、胰岛素()、胰岛素(X3)、)、糖化血红蛋白(糖化血红蛋白(X4)、血糖()、血糖(Y)l b,bint,r,rint,stats=regress(Data(:,5),ones(27,1),
21、Data(:,1:4)b=5.9433 0.1424 0.3515 -0.2706 0.6382stats=0.520713.4713 0.00004.6378the R2 statistic,the F statistic its p-valuean estimate of the error variance文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Matlab实现线性回归实现线性回归l b,bint,r,rint,stats=regress(Data(:,5),ones(27,1),Data(:,1,4)%总胆固醇(总胆固醇(X1)、糖化血红蛋白()、
22、糖化血红蛋白(X4)、血糖()、血糖(Y)l scatter3(Data(:,1),Data(:,4),Data(:,5),filled)l hold onl x1fit=min(Data(:,1):0.2:max(Data(:,1);l x2fit=min(Data(:,4):0.5:max(Data(:,4);l X1FIT,X2FIT=meshgrid(x1fit,x2fit);l YFIT=b(1)+b(2)*X1FIT+b(3)*X2FIT;l mesh(X1FIT,X2FIT,YFIT)l xlabel(总胆固醇总胆固醇)l ylabel(糖化血红蛋白糖化血红蛋白)l zlabel
23、(血糖血糖)l view(30,60)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。挖掘预测型知识l 线性回归线性回归(Linear Regression)一元线性回归一元线性回归 多元线性回归多元线性回归l Cox回归回归(Cox Regression)l logistic回归回归(logistic Regression)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox比例风险回归模型比例风险回归模型l 在医学中,一方面要看治疗结局的好坏,另一方面
24、在医学中,一方面要看治疗结局的好坏,另一方面还要看生存时间的长短还要看生存时间的长短l 随访研究随访研究(follow-up study)是医学中常用是医学中常用前瞻性前瞻性研研究。该类数据通过随访得到,称为究。该类数据通过随访得到,称为随访资料随访资料 不同方法对某病人不同方法对某病人(癌症、反复发作疾病)癌症、反复发作疾病)生存时间生存时间(缓解缓解时间时间)与与结局结局(生存率生存率)比较比较 两种方法肾移植病人术后肾的生存时间和结局两种方法肾移植病人术后肾的生存时间和结局(生存率生存率)比比较较文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 生存时间生
25、存时间:从:从起始事件起始事件到到终点事件终点事件之间所经历的时之间所经历的时间跨度称为生存时间间跨度称为生存时间l 结局事件结局事件:指结局出现的特征,如疾病的死亡、复:指结局出现的特征,如疾病的死亡、复发、发生发、发生(y=1或或0)l 时间间隔变量时间间隔变量 记为(记为(t)t=结局事件出现日期结局事件出现日期 事件的起始日期事件的起始日期 疾病确诊疾病确诊 随访时间随访时间 死亡死亡 治疗开始治疗开始 随访时间随访时间 死亡死亡/治愈治愈文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。生存数据生存数据l 完全和不完全数据完全和不完全数据 一部分研究对象可
26、观察到死亡,从而得到准确的生存时一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为间,所提供的信息是完全的,称为完全数据完全数据 另一部分病人由于失访、意外事故或到观察结束时仍存另一部分病人由于失访、意外事故或到观察结束时仍存活等原因,无法知道确切的生存时间,提供了不完全的活等原因,无法知道确切的生存时间,提供了不完全的信息,称为信息,称为不完全数据(截尾数据、删失数据:不完全数据(截尾数据、删失数据:consor data)时间(时间(t)=截尾事件日期截尾事件日期 起始事件日期起始事件日期记为记为t+。(例:。(例:10+月)月)l 生存数据的结果变量(生存数据
27、的结果变量(Y)有两个:)有两个:时间(时间(t)值)值,t0 结局状态(结局状态(y)=“如死亡或截尾值如死亡或截尾值”文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。随访的方式随访的方式1.全部观察对象同时接受不同处理(起点相同)随访方式:多见于动物实验文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。随访的方式随访的方式2.观察对象在不同时间接受处理因素(起点不同)随访方式:临床试验研究文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox比例风险回归模型比例风险回归模型l 生存时间的长短不仅与治疗措
28、施有关,还可能与病生存时间的长短不仅与治疗措施有关,还可能与病人的体质、年龄、病情的轻重等多种因素有关。人的体质、年龄、病情的轻重等多种因素有关。如何找出其中那些因素与生存时间有关、哪些无关呢?如何找出其中那些因素与生存时间有关、哪些无关呢?l 生存资料的特点生存资料的特点 生存时间的分布一般为非正态分布生存时间的分布一般为非正态分布 含有截尾数据(含有截尾数据(consored data),信息不完全),信息不完全l 截尾数据提供的信息虽然是不完全的,但也很有价截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删除。由于存在不完全数据,不能用值,不应随便删除。由于存在不完全数据,不能用
29、多元线性回归分析多元线性回归分析l 1972年英国统计学家年英国统计学家Cox DR.提出了一种能处理多提出了一种能处理多因素生存分析数据的比例危险模型因素生存分析数据的比例危险模型(Coxs proportional harzard model)。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。设含有p个变量x1,x2,xp及时间T和结局C的 n个观察对象.其数据结构见表3。表3 COX模型数据结构实验对象 t C X1 X2 X3 .XP 1 t1 1 a11 a12 a13 a1p 2 t2 0 a21 a22 a23 a2p 3 t3 0 a31 a32
30、a33 a3p n tn 1 an1 an2 an3 anp数据结构数据结构文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox回归模型的应用条件回归模型的应用条件l 自变量可以为定量资料也可为分类资料自变量可以为定量资料也可为分类资料l 自变量取值不随时间变化自变量取值不随时间变化l 样本含量要足够大,且截尾数据不能过多,死亡数样本含量要足够大,且截尾数据不能过多,死亡数不能过少,因素各水平的例数也不能过少不能过少,因素各水平的例数也不能过少 样本量目前尚无公认的方法。一般要求样本含量是要研样本量目前尚无公认的方法。一般要求样本含量是要研究因素个数的究因素个数
31、的520倍。倍。样本量少于研究因素个数的样本量少于研究因素个数的5倍,或样本含量少于倍,或样本含量少于50例,例,不宜做多变量分析不宜做多变量分析文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox比例风险回归模型比例风险回归模型l 在分析在分析单个因素单个因素或同时分析或同时分析2个或个或2个以上因素个以上因素对对生生存时间存时间影响的时候,我们需要通过影响的时候,我们需要通过Cox比例风险模比例风险模型来解决这些问题。型来解决这些问题。l 借助于多元线回归及借助于多元线回归及Logistic模型构造的思想模型构造的思想 Logistic模型:模型:lnP/(
32、1-P)=0+1X1+2X2+pXp多元线回归多元线回归 Y 0+1X1+2X2+pXp 等式右边不变。能不能左边直接用时间等式右边不变。能不能左边直接用时间T代替代替Y或者或者P?文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。设不存在因素设不存在因素X1X1、X2 X2、XpXp的影响下,病人的影响下,病人t t 时刻时刻死亡的风险率为死亡的风险率为h0(t)h0(t),存在因素存在因素X1X1、X2 X2、Xp tXp t的影响下,的影响下,t t时时刻死亡的风险率为刻死亡的风险率为h(t)h(t)。COXCOX提出:用死亡风险率的比提出:用死亡风险率的比
33、h(t)/h0(t)h(t)/h0(t)代替代替P/P/(1-P1-P)即得。)即得。h(t,x)=h0(t)exp(-0.7169X3b -1.0077X3c+0.3585X4+0.1603X5+0.7019X8c+0.2703X9)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox比例风险回归模型比例风险回归模型l 当当事件发生时间事件发生时间与与多个影响因素多个影响因素有关时,可用有关时,可用Cox比例风险回归分析影响因素对自变量的影响情况。比例风险回归分析影响因素对自变量的影响情况。可用于研究各种因素对于可用于研究各种因素对于生存期长短生存期长短的关系
34、,进行单因的关系,进行单因素或多因素分析。素或多因素分析。l 以以风险函数(风险函数(hazard function)作为作为应变量应变量,以各,以各影响因素作为影响因素作为自变量自变量,做,做自然指数回归方程自然指数回归方程。l 回归方程的表达式为回归方程的表达式为01122()()exp()mmh th tXXX X1,X2,Xm是协变量 1,2,m是回归系数,由样本估计而得。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox比例风险回归模型比例风险回归模型l Cox回归分析是生存分析的一种半参数分析方法回归分析是生存分析的一种半参数分析方法 h0(t)是
35、未知的是未知的 由于由于Cox 比例风险模型不是直接利用时间比例风险模型不是直接利用时间t的全部信息,的全部信息,而只是利用了时间而只是利用了时间t所提供的顺序统计量的信息,故称之所提供的顺序统计量的信息,故称之为半参数方法为半参数方法l 优点:优点:多因素分析方法多因素分析方法 不考虑生存时间分布不考虑生存时间分布 利用截尾数据利用截尾数据文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。风险函数(风险率)l h(t,x)表示当各协变量值表示当各协变量值X固定时的风险函数,它固定时的风险函数,它和和h0(t)成比例成比例,所以该模型又称为,所以该模型又称为比例风险
36、模型比例风险模型(proportional hazard model)l 表示已生存到时间表示已生存到时间 t 的观察对象,从生存时间的观察对象,从生存时间 t 到到 t+t 这一非常小的区间内这一非常小的区间内死亡的概率极限死亡的概率极限,即生存,即生存时间已达到时间已达到 t 的一群观察对象在的一群观察对象在时刻时刻 t 的瞬时死亡的瞬时死亡率率。l 用来估计死亡风险的大小。用来估计死亡风险的大小。01 12 2()()e x p()m mh th tX XX 01122()()exp()mmh th tXXXtttttth时刻尚存的病人数在的病人数死于区间),()(文档仅供参考,不能作为
37、科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 表示所有协变量表示所有协变量Xi均为均为0时的危险率,时的危险率,一般是未知的一般是未知的。l 基础风险率是未知数,但它和风险函数呈比例。基础风险率是未知数,但它和风险函数呈比例。l H0(t)与时间有关的任意函数,其分布和形状无明确与时间有关的任意函数,其分布和形状无明确的假定,是的假定,是非参数的部分非参数的部分。01122()()exp()mmh th tXXX01 12 2()()e x p()m mh th tX XX 基础风险函数(率)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l j j
38、表示自变量变化一个单位,引起的死亡风险改变倍表示自变量变化一个单位,引起的死亡风险改变倍数的自然对数值。数的自然对数值。l j j是是模型中参数部分模型中参数部分,通过样本观察值估计,通过样本观察值估计,j j的计的计算采用算采用偏似然函数偏似然函数。01122()()exp()mmh th tXXX回归系数的意义参数部分参数部分文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l j0,表示当Xj增大时,h(t)也增大,即病人死亡的风险增大,越大使生存时间越短,说明该自变量是死亡的危险因素。l j0,表示Xj的变化不会引起病人死亡风险的改变。l j0,表示当Xj增
39、大,h(t)则减小,即病人死亡的风险减小,越大使生存时间越长,说明该自变量是死亡的保护因素。l j j的假设检验可用的假设检验可用最大似然比检验最大似然比检验、WaldWald检验检验和和计分检验计分检验,并以此作为筛选变量的依据。并以此作为筛选变量的依据。01122()()exp()mmh th tXXX回归系数的意义文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Cox回归模型的检验l 对Cox模型的检验采用似然比检验。l 假设为H0:所有的i 为0,l H1:至少有一个 i 不为0。l 将Ho和H1条件下的最大部分似然函数的对数值分别记为 和l 可以证明在H
40、0成立的条件下,统计量l 2-2 -服从自由度为p的2分布。)(1HLLP)(1HLLP)(1HLLP)(0HLLP文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。CoxCox模型中回归系数的检验模型中回归系数的检验l 假设为假设为 H H0 0:,其它参数,其它参数固定;固定;l H H1 1:,其它参数,其它参数固定。固定。l H H0 0成立时,统计量成立时,统计量 Z Z b bk kSE(bSE(bk k)服从标准正态服从标准正态分布。分布。SE(bSE(bk k)是回归系数是回归系数b bk k的标准误。的标准误。0k0k文档仅供参考,不能作为科学依据
41、,请勿模仿;如有不当之处,请联系网站或本人删除。因素的筛选和最佳模型的建立因素的筛选和最佳模型的建立l 通过单变量分析筛选有价值的自变量。通过单变量分析筛选有价值的自变量。l 采用前进法、后退法和逐步回归法筛选采用前进法、后退法和逐步回归法筛选进入模型的自变量,建立最佳模型。进入模型的自变量,建立最佳模型。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。相对危险度相对危险度l 表示表示其他自变量不变其他自变量不变的情况下,某自变量从某个值的情况下,某自变量从某个值变化为另一个值时,风险函数的变化情况。变化为另一个值时,风险函数的变化情况。l 这是一个与时间无关的统
42、计量。这是一个与时间无关的统计量。l 计算公式为:计算公式为:l 假定自变量假定自变量Xj的取值为的取值为0和和1时,其相对危险度为时,其相对危险度为exp()jjjRRXXexp()jRRexp()jRRb文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。变量变量x xj j暴露水平时的风险率与非暴露暴露水平时的风险率与非暴露水平时的风险率之比称为水平时的风险率之比称为风险比HR(hazard ratio)hr=eii hr风险比相对危险度RR风险比风险比HR如果如果HR/RR接近接近1,说明该自变量不会影响危险函数;,说明该自变量不会影响危险函数;如果大于如果大
43、于1,则是危险因素;如果小于,则是危险因素;如果小于1,则是保护因素。,则是保护因素。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。COX回归的应用回归的应用1)因素分析)因素分析 分析哪些因素(协变量)对生存期的长短有显著作用。分析哪些因素(协变量)对生存期的长短有显著作用。l 对各偏回归系数作显著性检验,如显著,则说明在对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与生存期的长短有排除其它因素的影响后,该因素与生存期的长短有显著关系。显著关系。(2)求各因素在)求各因素在排除其它因素的影响后,对于死亡的排除其它因素的影响后,对于死亡
44、的相对危险度(或比数比)相对危险度(或比数比)如某因素Xi的偏回归系数为bi,则该因素Xi对于死亡的相对危险度为exp(bi)当Xi为二值变量时,如转移(1=转移,0=不转移),exp(bi)为转移相对于不转移对于死亡的相对危险度(或比数比)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 当Xi为等级变量时,如淋巴结转移,分0,1,2,3,4五个等级。exp(bi)为每增加一个等级,死亡的相对危险度,如等级3相对于等级0其死亡的相对危险度为:exp(3bi)l 当Xi为连续变量时,如年龄(岁)exp(bi)为每增加一岁时,死亡的相对危险度 如60岁相对于35岁
45、其死亡的相对危险度为exp(25bi)01122()()exp()mmh th tXXX文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。l 3)比较各因素对于生存期长短的相对重要性)比较各因素对于生存期长短的相对重要性 比较各标准化偏回归系数bi 绝对值的大小,绝对值大的对生存期长短的作用也大。l(4)考察因素之间的交互作用考察因素之间的交互作用 如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK=XL*XK,如其偏回归系数bLK显著,则XL和XK之间的交互作用显著。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Matl
46、ab实现实现cox回归回归l Coxphfit%Cox proportional hazards regressionl b,logL,H,stats=coxphfit(x,y)logL is the log likelihood H is a two-column matrix containing y values in the first column the estimated baseline cumulative hazard in the second column.stats is a structure that contains the fields:beta Coeffi
47、cient estimates(same as b)se Standard errors of coefficient estimates bz z statistics for b(b divided by standard error)p p-values for bcovb Estimated covariance matrix for b文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Matlab实现实现cox回归回归l data=importdata(临床数据临床数据.xls);文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除
48、。Matlab实现实现cox回归回归l data=importdata(临床数据临床数据.xls);%Sample ID、亚型(数、亚型(数字表示)、字表示)、age、sex、IDH1 mutation、Overall survival、Sensor l%基于单变量基于单变量cox回归分析回归分析 识别风险因素识别风险因素l result=;l for i=1:4%亚型、亚型、age、sex、IDH1 mutation l result(i,1)=i;b,logl,H,stats=coxphfit(data.data(:,1+i),data.data(:,6),censoring,data.d
49、ata(:,7);l result(i,2)=stats.beta;%回归系数回归系数l result(i,3)=exp(stats.beta);%HRl result(i,4)=stats.p;%回归显著性回归显著性 l clear b logl H stats se l end 文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。回归系数回归系数HRP值值亚型亚型-0.07970.92330.5932age0.01551.01560.1370sex0.41211.5100.0569IDH1 mutation0.29761.34670.4196文档仅供参考,不能作为
50、科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。生存分析总流程生存分析总流程l 1.筛选影响生存的风险因素筛选影响生存的风险因素通过单变量分析筛选有价值的自变量,然通过单变量分析筛选有价值的自变量,然后通过多变量后通过多变量cox回归考虑因素的独立性回归考虑因素的独立性采用前进法、后退法和逐步回归法筛选进采用前进法、后退法和逐步回归法筛选进入模型的自变量,建立最佳模型。入模型的自变量,建立最佳模型。l 2.生存率的估计与生存曲线生存率的估计与生存曲线估计生存函数。估计生存函数。比较各组的生存函数。比较各组的生存函数。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本