医学精品课件:18-Logistic回归(省医).ppt

上传人(卖家):罗嗣辉 文档编号:5253912 上传时间:2023-02-26 格式:PPT 页数:103 大小:3.77MB
下载 相关 举报
医学精品课件:18-Logistic回归(省医).ppt_第1页
第1页 / 共103页
医学精品课件:18-Logistic回归(省医).ppt_第2页
第2页 / 共103页
医学精品课件:18-Logistic回归(省医).ppt_第3页
第3页 / 共103页
医学精品课件:18-Logistic回归(省医).ppt_第4页
第4页 / 共103页
医学精品课件:18-Logistic回归(省医).ppt_第5页
第5页 / 共103页
点击查看更多>>
资源描述

1、1818 Logistic Logistic 回归回归回归分析回归分析1个因变量个因变量Y1个自变量个自变量X 2个以上自变量个以上自变量XY是数值是数值变量变量Y是分类是分类型变量型变量两个因变量两个因变量(结局分类变量(结局分类变量+时间)时间)生存分析生存分析Cox回归回归简单回归简单回归Simple regression Logistic 回归回归Logistic regression 多重回归多重回归Multiple regression 常用的回归分析中分类:常用的回归分析中分类:曲线回归线性回归线性回归回归回归分析分析简单线性:简单线性:多重线性:多重线性:logistic回归回

2、归线性回归线性回归iiXXX.22110kkkkxxxxkkeexXX1101101.1ln22110或110011)-1Ln(-)-1Ln()(LneORORX只只1个个X:(简单简单)多个多个X:XXeeX0011ln0或问题:问题:当因变量是分类变量时,如何建立回归方程?如当因变量是分类变量时,如何建立回归方程?如何作影响因素的分析?何作影响因素的分析?医学研究中以医学研究中以分类变量作为结局指标分类变量作为结局指标的情况非常普遍的情况非常普遍n 二分类变量二分类变量(Y):):生存与死亡、发病与不发病、有效生存与死亡、发病与不发病、有效与无效、感染与未感染等与无效、感染与未感染等。n

3、有序多分类资料有序多分类资料(Y):):疾病程度(轻度、中度、重度)疾病程度(轻度、中度、重度)、治疗效果(治疗、显效、好转、无效)等、治疗效果(治疗、显效、好转、无效)等。n 多项无序分类变量多项无序分类变量(Y):血型,某种疾病的病理类型。:血型,某种疾病的病理类型。60年代初学者提出用年代初学者提出用Logistic回归模型回归模型解决解决因变量因变量分类分类问题,而计算机技术的发展促进其发展。问题,而计算机技术的发展促进其发展。因变量因变量 Y 是是连续连续且服从且服从正态分布正态分布的变量,自变的变量,自变量和因变量呈量和因变量呈线性线性关系关系线性回归模型线性回归模型logisti

4、c回归回归属属非线性回归非线性回归模型的一种,主要适用于因变模型的一种,主要适用于因变量为分类变量的回归分析;它非常巧妙地避开了分类量为分类变量的回归分析;它非常巧妙地避开了分类变量的分布问题,补充完善了线性回归模型的缺陷。变量的分布问题,补充完善了线性回归模型的缺陷。因变量因变量Y是是分类变量分类变量,且自变量与因变量呈且自变量与因变量呈非非线性线性联系联系logistic回归模型回归模型 分类:分类:1.根据根据Y的分类,的分类,logistic回归模型可分为:回归模型可分为:二分类资料多项无序分类资料有序分类资料此处只能进行非条件logistic非条件非条件Logistic回归:回归:用

5、于分析用于分析成组的数据成组的数据或者或者非非匹配的匹配的病例对照研究,通常简称为病例对照研究,通常简称为logistic回归回归。2.2.根据设计中病例和对照是否匹配根据设计中病例和对照是否匹配/配对,分为:配对,分为:条件条件Logistic回归:回归:用于分析用于分析匹配的匹配的病例对照研究病例对照研究Logistic Logistic 回归回归18.1 18.1 几个基本概念几个基本概念 .。18.2 Logistic回归模型简介回归模型简介。18.3 Logistic回归模型的拟合回归模型的拟合 。18.4 Logistic回归模型用途和注意事项回归模型用途和注意事项 18.1 几个

6、基本概念几个基本概念例例18-1:为了解某非甾体抗炎药引发临床上消化道为了解某非甾体抗炎药引发临床上消化道出血症状。因此,出血症状。因此,1980年年Strom和和Carson开展了开展了大样本上市后安全性再评价。回顾性跟踪调查大样本上市后安全性再评价。回顾性跟踪调查的的47136例服用该药的患者中,有例服用该药的患者中,有155例上消化例上消化道出血;同期没有服用该药的道出血;同期没有服用该药的44634例对照中,例对照中,有有96例上消化道出血。例上消化道出血。.abcd155469819644538三个基本概念:三个基本概念:优势、优势、优势比、优势比、相对危险度相对危险度 在服药组(在

7、服药组(X=1),事件发生(),事件发生(Y=1)即)即出血的出血的优势优势为:为:0022.0100dcPPOdds正常组样本估计值:在对照组(在对照组(X=0),也可算出),也可算出出血的优势出血的优势:0033.01111baPPOdds样本估计值:优势(优势(odds):通常把出现某种结果的概率与不出现:通常把出现某种结果的概率与不出现的概率之比称为的概率之比称为,或称比值,即:,或称比值,即:1odds优势比优势比(Odds Ratio,OR):):即服药组出血的优势与非即服药组出血的优势与非服药组出血的优势之比,具有概率风险的含义。服药组出血的优势之比,具有概率风险的含义。5306

8、.11/1/0011bcadPPPPRO样本估计值含义:含义:服药组出血服药组出血的优势是不服药组出血优势的的优势是不服药组出血优势的1.5306倍。倍。0011011/1/oddsoddsOR相对危险度相对危险度(Relative Risk,RR):):即病例组的死亡率即病例组的死亡率与对照组的死亡率之比。与对照组的死亡率之比。529.1471369644634155dccbaaRR非服药组出血率服药组出血率样本估计值含义:服药组出血率是不服药组的含义:服药组出血率是不服药组的1.529倍。倍。RROR OR值和值和RR值的关系:值的关系:当研究出现阳性结果的概率较小时(当研究出现阳性结果的

9、概率较小时(0.1),),反之当概率很大(反之当概率很大(0.9)时,)时,OR值和值和RR值非常接值非常接近,这时可用近,这时可用OR值近似地表示值近似地表示RR的大小。的大小。18.2 Logistic回归模型简介回归模型简介因变量因变量:分类变量,包括二分类、有序多分类及无序:分类变量,包括二分类、有序多分类及无序多分类(即名义变量)多分类(即名义变量)自变量自变量:1.数值型连续变量,如年龄;数值型连续变量,如年龄;2.顺序型分类变量,如年龄组;顺序型分类变量,如年龄组;3.名义变量(需要转换成哑变量)。名义变量(需要转换成哑变量)。可有可有 1 个自变量:单自变量个自变量:单自变量L

10、ogistic回归回归 也可多个自变量:多自变量也可多个自变量:多自变量Logistic回归回归1.Logistic回归适用条件回归适用条件:Y=1 出现阳性结果(患病、有效、死亡等)出现阳性结果(患病、有效、死亡等)0 出现阴性结果(未患病、无效、存活等)出现阴性结果(未患病、无效、存活等)如:如:2.建模思路:建模思路:建立函数建立函数Y=f(x)用来近似地描述用来近似地描述Y 和和X之间关系!之间关系!Y=1 阳性结果(患病、有效、死亡等)阳性结果(患病、有效、死亡等)0 阴性结果(未患病、无效、存活等)阴性结果(未患病、无效、存活等)能否建立类似于线性回归的模型?能否建立类似于线性回归

11、的模型?ppXbXbXbbY.22110困难:很难找到一个函数方程困难:很难找到一个函数方程Y=f(X),当,当X 变化时,对变化时,对应应Y 仅取两个或几个有限值。仅取两个或几个有限值。如因变量(如因变量(Y)是)是二分类变量二分类变量的情况:的情况:新思路:新思路:不直接分析不直接分析Y与与X的关系,分析的关系,分析Y取某值(如阳性取某值(如阳性事件)的概率事件)的概率与与X的关系,其对应的函数值的关系,其对应的函数值介于介于0,1间。间。困难:依旧存在困难:依旧存在 等号两边等号两边取值范围、取值范围、曲线关联的问题曲线关联的问题1970年,年,Cox引入了常用于人口学领域的引入了常用于

12、人口学领域的Logit变换:变换:Logit变换变换:将:将 odds 取以取以e为底的对数,即称为底的对数,即称。)1ln(lnodds优势优势(odds):出现某种结果的概率与不出现的概率之比。:出现某种结果的概率与不出现的概率之比。1oddsiiXXX.22110概率函数公式的变化及意义:概率函数公式的变化及意义:等式左边(因变量)的取值范围等式左边(因变量)的取值范围 :发病概率 0 1 1-:不发病概率 0 1-1 :优势(odds):优势的对数值10)1ln(1)1ln(logistic 回归模型回归模型:线性线性关系关系截距截距(常数(常数 constant)偏回归系数偏回归系数

13、ppXXXodds.)1ln()ln(22110Logit模型是最早的离散选择模型,也是目前应用最广的模型。Logit模型衍生发展出了其他离散选择模型,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。logistic回归分析的基本原理:回归分析的基本原理:就是利用一组样本数据拟合一个就是利用一组样本数据拟合一个logistic模型,然模型,然后借助于这个模型来提示总体中后借助于这个模型来提示总体中若干个自变量若干个自变量与一个与一个因变量的因变量的某个结果事件出现概率之间某个结果事件出现概率之间的依存关系,或的依存关系,或者用来评价者用来评价若干

14、个自变量若干个自变量对对一个因变量一个因变量可能存在的影可能存在的影响关系。响关系。可推导出关于概率可推导出关于概率的方程的方程为为:数学变换数学变换 或或称:称:Y 取值为取值为1或或0时,关于某个自变量的时,关于某个自变量的Logistic回归模型回归模型iiXXX.)oddsln(1ln22110).(2211011iiXXXeiiiiXXXXXXee.22110221101i0时,呈拉长的时,呈拉长的S形曲线,形曲线,随随X的增大而单调增加,的增大而单调增加,称称X为自变量发生的危险因素。为自变量发生的危险因素。i=0时,时,随随X没有关系。没有关系。i0时,呈拉长的反时,呈拉长的反S

15、形曲线,形曲线,随随X的增大而单调递减,的增大而单调递减,称称X为自变量发生的保护因素。为自变量发生的保护因素。概率概率与偏回归系数与偏回归系数 i 之间的关系之间的关系例例18-1 为了解某药引发临床上消化道出血情况,回顾为了解某药引发临床上消化道出血情况,回顾性调查性调查47136例服用该药的患者中,有例服用该药的患者中,有155例上消化道例上消化道出血;同期没有服用该药的出血;同期没有服用该药的44634例对照中,有例对照中,有96例例上消化道出血。上消化道出血。X=1:服药:服药 X=0:未服药:未服药赋值:赋值:Y=1:有消化道出血:有消化道出血 Y=0:无消化道出血:无消化道出血e

16、为为 X 增加一个单位后(存在该危险因素),与增增加一个单位后(存在该危险因素),与增加前(不存在危险因素)相比,阳性事件(加前(不存在危险因素)相比,阳性事件(Y=1)发)发生生优势比(优势比(OR),反映了,反映了该因素该因素X与疾病的关联程度与疾病的关联程度。00)0(0eeoddsX=0,未服药组:未服药组:X=1,服药组:服药组:)()1(100eeoddsXeodds0服药组对未服药组的优势比:服药组对未服药组的优势比:(odds ratio,OR)eeeoddsoddsOR0001Xodds0)1ln()(lneOR 值值OR值值 含含 义义01 X 增大是疾病的危险因素增大是疾

17、病的危险因素=0=1 X 的变化与疾病无关的变化与疾病无关01 X 增大是疾病的保护因素增大是疾病的保护因素 在在Logistic 回归模型中回归模型中,自变量,自变量X每增加每增加1个个单位,对应的优势比为单位,对应的优势比为 回归模型的解释:回归模型的解释:0(常数项)(常数项):表示在模型中所有自变量表示在模型中所有自变量X均为均为0 时的时的ln(odds)值,效应事件发(值,效应事件发(Y=1)生)生优势(优势(odds)的自然对数值的自然对数值。实际意义:实际意义:在不存在任何潜在危险保护因素条在不存在任何潜在危险保护因素条件下,即在基线状态下效应事件发生件下,即在基线状态下效应事

18、件发生优势(优势(odds)的的自然对数值自然对数值,或指效应指标,或指效应指标Y 发生与不发生的概率之发生与不发生的概率之比的自然对数值比的自然对数值。iiXXXodds.)ln()1ln(22110i 为为自变量自变量Xi 的的Logistic回归系数回归系数,表示在其它自变量,表示在其它自变量取值不变的情形下,取值不变的情形下,Xi 每变化一个单位后与增加前相比每变化一个单位后与增加前相比较,事件较,事件优势比的自然对数值优势比的自然对数值。1101000110)(-1)()-1Ln(-)-1Ln()(LnORiiXXXodds.)ln()1ln(22110线性回归模型线性回归模型log

19、istic回归模型回归模型模型对数据资料的要求:模型对数据资料的要求:Y,X1、X2、Xi.22110XXY.1ln22110XXkkkkxxxxee1101101模型解释模型解释0、i回归模型回归模型回归模型回归模型110011)-1Ln(-)-1Ln()(LneOROR模型的解释模型的解释0、i及及ie18.2 单个自变量单个自变量Logistic回归回归例例18-1:为了解某非甾体抗炎药引发临床上消化道为了解某非甾体抗炎药引发临床上消化道出血症状。因此,出血症状。因此,1980年年Strom和和Carson开展了开展了大样本上市后安全性再评价。回顾性跟踪调查大样本上市后安全性再评价。回顾

20、性跟踪调查的的47136例服用该药的患者中,有例服用该药的患者中,有155例上消化例上消化道出血;同期没有服用该药的道出血;同期没有服用该药的44634例对照中,例对照中,有有96例上消化道出血。例上消化道出血。.研究目的:研究目的:分析上消化道出血症状与非甾体抗炎药分析上消化道出血症状与非甾体抗炎药的关系;的关系;因变量的因变量的类型:二值因变量,单个自变量;类型:二值因变量,单个自变量;资料收集方法:病例资料收集方法:病例-对照不匹配对照不匹配。【案例解析案例解析】非条件二项非条件二项 Logistic 回归模型回归模型 22 纵向数据纵向数据X=1:服药:服药 X=0:未服药:未服药上消

21、化道出血与否上消化道出血与否(Y)是否服药是否服药(X)频数频数(f)11 155014698110 960044538赋值:赋值:Y=1:有消化道出血:有消化道出血 Y=0:无消化道出血:无消化道出血logistic回归模型拟合步骤:回归模型拟合步骤:估计参数:估计参数:0、回归方程的假设检验回归方程的假设检验回归方程的统计应用回归方程的统计应用极大似然法极大似然法列出回归方程列出回归方程xxee001回归系数的区间估计回归系数的区间估计1.检验整个模型检验整个模型 似然比检验似然比检验2.检验单个自变量检验单个自变量 X0)1ln(先建立似然函数或对数似然函数,求似然函数或对数似先建立似然

22、函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的极大似然估然函数达到极大时参数的取值,称为参数的极大似然估计值。计值。通过比较包含与不包含某一个或几个待检验观察因素的通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为两个模型的对数似然函数变化来进行,其统计量为 G(又称(又称Deviance)。)。回归系数的估计回归系数的估计极大似然估计(极大似然估计(Maximum likelihood estimate,MLE)似然比检验(似然比检验(likelihood Ratio)Wald 检验:样本量大时可用,常用于对回检验:样本

23、量大时可用,常用于对回归系数进行假设检验,计算简单,但结果偏于归系数进行假设检验,计算简单,但结果偏于保守。保守。得分检验(得分检验(Score)回归模型和系数的假设检验回归模型和系数的假设检验:MLE举例:举例:某同学与一位猎人一起外出打某同学与一位猎人一起外出打猎。忽然,一只野兔从前方窜猎。忽然,一只野兔从前方窜过,只听一声枪响,野兔应声过,只听一声枪响,野兔应声倒下倒下 。若让你推测一下,若让你推测一下,是谁击中是谁击中的野兔的野兔,你会怎样想你会怎样想?你会想:只一枪便击中你会想:只一枪便击中,一般情况下猎人击中的概率比同一般情况下猎人击中的概率比同学击中的概率大。学击中的概率大。故这

24、一枪极大可能是猎人打的。故这一枪极大可能是猎人打的。你的这一想法中就已经包含了最大似然原理的基本思想你的这一想法中就已经包含了最大似然原理的基本思想 再看一个例子:再看一个例子:例:例:有一事件有一事件A,它发生的概率,它发生的概率只可能只可能是是P=0.1,0.3 或或0.6若一次观测中,事件若一次观测中,事件A竟然发生了,试推想一下竟然发生了,试推想一下P应取何值应取何值?你自然会认为事件你自然会认为事件A发生的概率是发生的概率是0.6。最大似然原理:最大似然原理:概率大的事件在一次观测中更容易发生概率大的事件在一次观测中更容易发生。在一次观测中发生了的事件其概率应该大。在一次观测中发生了

25、的事件其概率应该大。似然比检验和似然比检验和Wald 检验,二者都是基于检验,二者都是基于MLE,就大,就大样本而言二者是渐进等价的。样本而言二者是渐进等价的。l 似然比检验的思想是:似然比检验的思想是:如果参数约束是有效的,那么如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度加上这样的约束不应该引起似然函数最大值的大幅度降低。降低。l wald检验的思想是:检验的思想是:如果约束是有效的,那么在没有如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条约束情况下估计出来的估计量应该渐进地满足约束条件,因为件,因为MLE是一致的。是一致的。回归方程和

26、系数的假设检验回归方程和系数的假设检验:通过比较包含与不包含某一个或几个待检验观察通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计因素的两个模型的对数似然函数变化来进行,其统计量为量为G。样本量较大时,样本量较大时,G近似服从自由度为待检验因素近似服从自由度为待检验因素个数的个数的 分布。分布。【电脑实现电脑实现】SPSS1.数据录入数据录入Logistic 回归分析:回归分析:注意:注意:SPSS拟合模型默认取值水平高的为阳性结果拟合模型默认取值水平高的为阳性结果一般将阳性事件定义为一般将阳性事件定义为1;阴性事件定义为;阴性事件定义为0。2.数字加权

27、数字加权3.SPSS过程过程【Method】(自变量的选入方法)(自变量的选入方法)1.Enter2.Forward:Conditional3.Forward:LR4.Forward:Wald5.Backward:Conditional6.Backward:LR7.Backward:WaldModel SummaryModel Summary3452.912a.000.003Step1-2 LoglikelihoodCox&SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 9 becausepara

28、meter estimates changed by less than.001.a.3.结果及结果输出:结果及结果输出:Enter:强制进入法:强制进入法两个两个伪决定系数伪决定系数:从不同:从不同角度反应当前模型中自变角度反应当前模型中自变量解释反应变量总变异的量解释反应变量总变异的比例。比例。Variables in the EquationVariables in the Equation.426.13010.7141.0011.531-6.140.1023611.0831.000.002服药ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)e

29、ntered on step 1:服药.a.回归系数回归系数回归系数的回归系数的Wald x2检验检验回归系数回归系数的标准误的标准误 Enter:强制进入法回归方程的参数估计强制进入法回归方程的参数估计OR值值X426.0140.61ln列入方程:列入方程:XXee426.0140.6426.0140.61或或 回归模型的解释:回归模型的解释:常数项常数项是未服用该药品人群是未服用该药品人群“发生出血症状发生出血症状”优势估优势估计值的自然对数计值的自然对数,自变量自变量X的回归系数的回归系数是是优势比估计值的自然对数优势比估计值的自然对数。1.估计未服用该药品人群估计未服用该药品人群“发生

30、出血症状发生出血症状”的优势为:的优势为:Odds=exp(-6.140)=0.0022;2.样本优势比:样本优势比:exp(0.426)=1.5306;3.总体总体OR的的95%置信区间为:置信区间为:1.1861.975,置信区间下限大于置信区间下限大于1,因此服用非甾体抗炎药是上消化,因此服用非甾体抗炎药是上消化道出血症状的危险因素。道出血症状的危险因素。X426.0140.61ln例例18-1 结果报告结果报告 为评价服用非甾体类药物是否引起消化道出血的症状,为评价服用非甾体类药物是否引起消化道出血的症状,用回顾性调查的跟踪调查了用回顾性调查的跟踪调查了47136例服药患者的消化道出血

31、情例服药患者的消化道出血情况,另外用况,另外用44634例未服药的患者作为对照。例未服药的患者作为对照。logistic 回归分析显示:服用非甾体类药物与消化道出血的回归分析显示:服用非甾体类药物与消化道出血的症状有关(症状有关(P0.001),服药组对非服药组的优势比为),服药组对非服药组的优势比为1.513,其其95%置信区间为置信区间为1.1861.975。variableCoefficient Stand errorWald x2POdd ratio95%CIalimentary tract hemorrhage0.4260.13010.7140.0011.5131.1861.975C

32、onstant-6.1400.1023611.0830.0000.002附表附表 非甾体类药物与消化道出血的非甾体类药物与消化道出血的logistic回归分析结果回归分析结果思考:思考:上述资料看起来和前边学上述资料看起来和前边学过的四格表没有区别,能否用四过的四格表没有区别,能否用四格表的卡方检验来分析呢?格表的卡方检验来分析呢?说明:当解释变量只有一个时,用说明:当解释变量只有一个时,用logistic模型的结果和卡模型的结果和卡方检验的结果等价,只是方检验的结果等价,只是logistic提供的信息更多些。提供的信息更多些。18.4 多自变量的多自变量的Logistic回归回归ORi 表示

33、在其它自变量取值不变的情形下表示在其它自变量取值不变的情形下,Xi 每变化一个每变化一个单位后与增加前相比较,阳性事件的优势比。单位后与增加前相比较,阳性事件的优势比。iiXXXodds.)ln()1ln(22110多自变量多自变量logistic回归回归n 校正混杂因素校正混杂因素n 筛选影响因素筛选影响因素n 疾病预测与预后疾病预测与预后例例2 为研究鼻咽癌发病的危险因素,某研究人员对为研究鼻咽癌发病的危险因素,某研究人员对某医院肿瘤防治中心某医院肿瘤防治中心105例鼻咽癌新发病例与例鼻咽癌新发病例与130名名健康人进行病例对照研究,收集如下资料:健康人进行病例对照研究,收集如下资料:编号

34、 性别X1年龄X2肿瘤家族史X3慢性鼻炎史X4职业有害接触X5吸烟 X6饮茶X7锻炼X8工作压力X9组别Y1068000000102022001011102340331000000123514401111011X1 性别性别男:男:1,女:,女:0X2 年龄年龄(岁)(岁)X3 肿瘤家族史肿瘤家族史否:否:0,是:,是:1X4 慢性鼻炎史慢性鼻炎史否:否:0,是:,是:1X5 职业接触有毒物质职业接触有毒物质否:否:0,是:,是:1X6 吸烟吸烟否:否:0,是:,是:1X7 饮茶饮茶否:否:0,是:,是:1X8 长期锻炼长期锻炼否:否:0,是:,是:1X9 生活工作压力生活工作压力否:否:0,

35、是:,是:1Y 分组分组男:男:1,女:,女:0变量:变量:研究目的:研究目的:分析上分析上“多因素多因素”与与“疾病发生疾病发生”的的关系;关系;因变量的因变量的类型:二分类的因变量,单个自变量;类型:二分类的因变量,单个自变量;资料收集方法:病例资料收集方法:病例-对照不匹配对照不匹配。【案例解析案例解析】非条件二分类非条件二分类 Logistic 回归回归logistic回归模型拟合的基本步骤:回归模型拟合的基本步骤:估计参数:估计参数:b0、b1、b2、bi回归方程的假设检验回归方程的假设检验回归方程的统计应用回归方程的统计应用极大似然法极大似然法列出回归方程列出回归方程kkkkxxx

36、xeeP1101101回归系数的区间估计回归系数的区间估计1.检验整个模型检验整个模型 似然比检验似然比检验2.检验单个自变量检验单个自变量 Wald检验检验Logistic回归模型的假设检验回归模型的假设检验检验整个模型,即检验因变量与自变量之间的检验整个模型,即检验因变量与自变量之间的关系能否用所建立的回归方程来表示。关系能否用所建立的回归方程来表示。用似然比检验(用似然比检验(likelihood Ratio)检验单个回归系数是否为检验单个回归系数是否为0,即检验单个自变量,即检验单个自变量对因变量的影响是否存在。对因变量的影响是否存在。用用 Wald 检验检验2【电脑实现电脑实现】SP

37、SS1.数据录入数据录入2.SPSS过程过程自变量的选入方法自变量的选入方法1.Enter2.Forward:Conditional3.Forward:LR4.Forward:Wald5.Backward:Conditional6.Backward:LR7.Backward:Wald注意:基于条件参数估计(注意:基于条件参数估计(Condional)和偏最大似然估计)和偏最大似然估计(LR)的筛选方法都)的筛选方法都 比较可靠,尤以后者为佳;比较可靠,尤以后者为佳;但基于但基于Wald检验的结果,因未考虑各因素的综合作用,当因素间存检验的结果,因未考虑各因素的综合作用,当因素间存在共线性时要不

38、可靠,应慎用。在共线性时要不可靠,应慎用。【Method】1.Enter:所有自变量强制进入回归方程;:所有自变量强制进入回归方程;2.Forward-Conditional:基于条件参数的向前:基于条件参数的向前逐步回归法;逐步回归法;3.Forward-LR:基于最大似然估计的向前逐步:基于最大似然估计的向前逐步回归法;回归法;4.Forward-Wald:基于:基于Ward统计量的向前逐步统计量的向前逐步回归法;回归法;5.Backward-Conditional:基于条件参数的向后:基于条件参数的向后逐步回归法;逐步回归法;6.Backward-LR:基于最大似然估计的向后逐:基于最大

39、似然估计的向后逐步回归法;步回归法;7.Backward-Wald:基于:基于Ward统计量的向后逐统计量的向后逐步回归法;步回归法;【Option】:Removal:设为设为0.05(和课本保持一致)(和课本保持一致)3.结果输出:(结果输出:(Backward LR Method)变变 量量 赋赋 值值X纳入模型的方式纳入模型的方式X1 性别性别男:男:1,女:,女:0直接纳入直接纳入X2 年龄年龄(岁)(岁)直接纳入直接纳入X3 肿瘤家族史肿瘤家族史否:否:0,是:,是:1直接纳入直接纳入X4 慢性鼻炎史慢性鼻炎史否:否:0,是:,是:1直接纳入直接纳入X5 职业接触有毒物质职业接触有毒

40、物质否:否:0,是:,是:1直接纳入直接纳入X6 吸烟吸烟否:否:0,是:,是:1直接纳入直接纳入X7 饮茶饮茶否:否:0,是:,是:1直接纳入直接纳入X8 长期锻炼长期锻炼否:否:0,是:,是:1直接纳入直接纳入X9 生活工作压力生活工作压力否:否:0,是:,是:1直接纳入直接纳入Y 分组分组男:男:1,女:,女:0直接纳入直接纳入结果报告一:结果报告一:指标赋值指标赋值结果报告二:结果报告二:为研究鼻咽癌发病的危险因素,对某医院为研究鼻咽癌发病的危险因素,对某医院105例鼻咽癌新例鼻咽癌新发病例与发病例与130名健康人进行病例对照研究,采用非条件名健康人进行病例对照研究,采用非条件logi

41、stic回归分析,向后逐步筛选变量(进入标准回归分析,向后逐步筛选变量(进入标准=0.05,剔除标准,剔除标准=0.05),结果显示:肿瘤家族史、职业有害接触、吸烟是,结果显示:肿瘤家族史、职业有害接触、吸烟是其发病的危险因素;长期体育锻炼是其发病的保护因素,其发病的危险因素;长期体育锻炼是其发病的保护因素,4变变量有统计学意义,量有统计学意义,P0.001,其,其OR值的估计值等见下表示。值的估计值等见下表示。解释变量解释变量POR及及95CI 鼻咽癌家族史鼻咽癌家族史 2.202 0.451 23.879 0.001 9.043(3.73921.870)职业有害接触职业有害接触0.892

42、0.364 5.985 0.014 2.439(1.1944.982)吸烟吸烟1.421 0.337 17.742 0.0014.143(2.1388.027)锻炼锻炼-1.368 0.350 15.291 0.0010.255(0.1280.505)常数项常数项-0.855 0.246 12.108 0.001)(SE2aldW表2 鼻咽癌发病危险因素的logistic 回归分析结果 性别性别 X1 年龄年龄 X2 年人均收入年人均收入 X3 医疗保障医疗保障 X4 距就近医疗点时间距就近医疗点时间 X5 自感疾病严重程度自感疾病严重程度 X6 发病时间发病时间 X7 就诊就诊 Y 例例2

43、为研究居民两周患病为研究居民两周患病未治疗未治疗的影响因素,采用的影响因素,采用多阶段分层整群抽样,对某地多阶段分层整群抽样,对某地11,790名农村居民进行名农村居民进行了入户调查。了入户调查。11,790名居民中,调查前二周患病者名居民中,调查前二周患病者1649人,其中未就医者人,其中未就医者720人,有关资料如下。人,有关资料如下。变变 量量 赋赋 值值X1 性别性别男:男:0,女:,女:1X2 年龄年龄5岁岁:1,5岁岁:2,15岁岁:3,45岁岁:4,65岁岁:5X3 年人均收入年人均收入不低于平均水平不低于平均水平:0,低于平均水平,低于平均水平:1X4 医疗保障医疗保障有有:0

44、,无,无:1X5 距就近医疗点时间距就近医疗点时间10min:1,10min:2,30min:3X6 自感疾病严重程度自感疾病严重程度不严重不严重:1,一般,一般:2,严重,严重:3X7 发病时间发病时间急诊病两周内发生急诊病两周内发生:1,急诊病两周前发生延续到两周内急诊病两周前发生延续到两周内:2,慢性病持续到两周内慢性病持续到两周内:3Y 就诊就诊就诊就诊:0,未就诊,未就诊:1指标赋值:指标赋值:分类变量或分类变量或(名义变量)(名义变量)注意:注意:无序分类变量(或称名义变量)的哑变量化无序分类变量(或称名义变量)的哑变量化 该变量因各类别间没有顺序关系,在进行回归分析该变量因各类别

45、间没有顺序关系,在进行回归分析时(多重线性回归、时(多重线性回归、logistic回归、回归、Cox回归等),不能使回归等),不能使用原始的记录数据进行统计分析,必须进行哑变量化,即用原始的记录数据进行统计分析,必须进行哑变量化,即将这些变量转换为(水平数将这些变量转换为(水平数-1)的哑变量,再将这些新转)的哑变量,再将这些新转换的变量放入多因素模型进行分析。换的变量放入多因素模型进行分析。X7X71X72110201300“发病时间发病时间”的哑变量化的哑变量化【电脑实现电脑实现】SPSS1.数据录入数据录入2.SPSS过程过程自变量的选入方法自变量的选入方法1.Enter2.Forwar

46、d:Conditional3.Forward:LR4.Forward:Wald5.Backward:Conditional6.Backward:LR7.Backward:Wald注意:基于条件参数估计(注意:基于条件参数估计(Condional)和偏最大似然估计)和偏最大似然估计(LR)的筛选方法都)的筛选方法都 比较可靠,尤以后者为佳;比较可靠,尤以后者为佳;但基于但基于Wald检验的结果,因未考虑各因素的综合作用,当因素间存检验的结果,因未考虑各因素的综合作用,当因素间存在共线性时要不可靠,应慎用。在共线性时要不可靠,应慎用。【Method】1.Enter:所有自变量强制进入回归方程;:所

47、有自变量强制进入回归方程;2.Forward-Conditional:基于条件参数的向前:基于条件参数的向前逐步回归法;逐步回归法;3.Forward-LR:基于最大似然估计的向前逐步:基于最大似然估计的向前逐步回归法;回归法;4.Forward-Wald:基于:基于Ward统计量的向前逐步统计量的向前逐步回归法;回归法;5.Backward-Conditional:基于条件参数的向后:基于条件参数的向后逐步回归法;逐步回归法;6.Backward-LR:基于最大似然估计的向后逐:基于最大似然估计的向后逐步回归法;步回归法;7.Backward-Wald:基于:基于Ward统计量的向后逐统计量

48、的向后逐步回归法;步回归法;即:计算出来的即:计算出来的i是以该变量是以该变量的最后一个作为参照水平的最后一个作为参照水平【Categorical】如果自变量是无序分类变量(如血型等)如果自变量是无序分类变量(如血型等)和不等距有有序变量,须将其哑变量化,那么就要用该和不等距有有序变量,须将其哑变量化,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面按钮将该变量指定为分类变量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作为基础水的选择按钮进行详细的定义,如以哪个取值作为基础水平,默认的是以最大取值为基础水平。平,默认的是以最大取值为基础水平。【Option】:Rem

49、oval:设为设为0.05(和课本保持一致)(和课本保持一致)3.结果输出:(结果输出:(Backward LR Method)赋赋值结果:值结果:“发病时间发病时间”哑变量化结果:哑变量化结果:运行结果:运行结果:对回归模型对回归模型假设检验:假设检验:727162340.0500.0609.0233.0467.0)1ln(XXXXPP列方程:列方程:727162727162340.0500.0609.0233.0467.0340.0500.0609.0233.0467.01XXXXXXXXeeP或:或:结果报告:结果报告:为研究过去两周内患病居民未治疗率的影响因素,采用为研究过去两周内患病

50、居民未治疗率的影响因素,采用现况调查方法,调查了过去两周内患病者现况调查方法,调查了过去两周内患病者1 649人,采用非条人,采用非条件件logistic回归分析,向后逐步筛选(进入标准回归分析,向后逐步筛选(进入标准=0.05,剔除,剔除标准标准=0.05)变量,结果显示:年龄、自感疾病严重程度和)变量,结果显示:年龄、自感疾病严重程度和发病时间三个变量有统计学意义发病时间三个变量有统计学意义(P1,说明说明Xi的增大是疾病的危险因素;的增大是疾病的危险因素;ei 为零时,为零时,OR=1,说明说明Xi的变化与疾病无关;的变化与疾病无关;ei为为负值时,负值时,OR1,说明说明Xi的增大是疾

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(医学精品课件:18-Logistic回归(省医).ppt)为本站会员(罗嗣辉)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|