ImageVerifierCode 换一换
格式:PPT , 页数:102 ,大小:3.82MB ,
文档编号:443937      下载积分:6 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-443937.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(金钥匙文档)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(医科大学精品课件:Logistic回归(研).ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

医科大学精品课件:Logistic回归(研).ppt

1、18 Logistic 回归,回归分析,1个因变量Y,1个自变量X,2个以上自变量X,Y是数值变量,Y是分类型变量,常用的回归分析中分类:,问题:当因变量是分类变量时,如何建立回归方程?如何作影响因素的分析?,医学研究中以分类变量作为结局指标的情况非常普遍,二分类变量(Y):生存与死亡、发病与不发病、有效与无效、感染与未感染等。 有序多分类资料(Y):疾病程度(轻度、中度、重度) 、治疗效果(治疗、显效、好转、无效)等。 多项无序分类变量(Y):血型,某种疾病的病理类型。,60年代初学者提出用Logistic回归模型解决因变量分类问题,而计算机技术的发展促进其发展。,因变量 Y 是连续且服从正

2、态分布的变量,自变量和因变量呈线性关系,线性回归模型,logistic回归属非线性回归模型的一种,主要适用于因变量为分类变量的回归分析;它非常巧妙地避开了分类变量的分布问题,补充完善了线性回归模型的缺陷。,因变量Y是分类变量,且自变量与因变量呈非线性联系,logistic回归模型,分类:1.根据Y的分类,logistic回归模型可分为:,二分类资料,多项无序分类资料,有序分类资料,此处只能进行 非条件logistic,非条件Logistic回归:用于分析成组的数据或者非匹配的病例对照研究,通常简称为logistic回归。,2.根据设计中病例和对照是否匹配/配对,分为:,条件Logistic回归

3、:用于分析匹配的病例对照研究,18.1 几个基本概念 .。 18.2 Logistic回归模型简介。 18.3 Logistic回归模型的拟合 。 18.4 Logistic回归模型用途和注意事项,18.1 几个基本概念,例18-1: 为了解某非甾体抗炎药引发临床上消化道出血症状。因此,1980年Strom和Carson开展了大样本上市后安全性再评价。回顾性跟踪调查的47136例服用该药的患者中,有155例上消化道出血;同期没有服用该药的44634例对照中,有96例上消化道出血。 .,三个基本概念: 优势、 优势比、 相对危险度,在服药组(X=1),事件发生(Y=1)即出血的优势为:,在对照组

4、(X=0),也可算出出血的优势 :,优势(odds):通常把出现某种结果的概率与不出现的概率之比称为,或称比值,即:,优势比(Odds Ratio,OR):即服药组出血的优势与非服药组出血的优势之比,具有概率风险的含义。,含义: 服药组出血的优势是不服药组出血优势的1.5306倍。,相对危险度(Relative Risk ,RR):即病例组的死亡率与对照组的死亡率之比。,含义:服药组出血率是不服药组的1.529倍。,OR值和RR值的关系: 当研究出现阳性结果的概率较小时(0.1),反之当概率很大(0.9)时,OR值和RR值非常接近,这时可用OR值近似地表示RR的大小。,18.2 Logisti

5、c回归模型简介,因变量:分类变量,包括二分类、有序多分类及无序多分类(即名义变量) 自变量:1. 数值型连续变量,如年龄; 2. 顺序型分类变量,如年龄组; 3. 名义变量(需要转换成哑变量)。 可有 1 个自变量:单自变量Logistic回归 也可多个自变量:多自变量Logistic回归,1. Logistic回归适用条件:,如:,2. 建模思路: 建立函数Y=f (x) 用来近似地描述Y 和X之间关系!,能否建立类似于线性回归的模型?,困难:很难找到一个函数方程Y=f (X) ,当X 变化时,对 应Y 仅取两个或几个有限值。,如因变量(Y)是二分类变量的情况:,新思路:不直接分析Y与X的关

6、系,分析Y取某值(如阳性事件)的概率与X的关系,其对应的函数值介于0,1间。,困难:依旧存在 等号两边取值范围、曲线关联的问题,1970年,Cox引入了常用于人口学领域的Logit变换:,Logit变换:将 odds 取以e为底的对数,即称。,优势 ( odds ) :出现某种结果的概率与不出现的概率之比。,概率函数公式的变化及意义:,logistic 回归模型:,Logit模型是最早的离散选择模型,也是目前应用最广的模型。 Logit模型衍生发展出了其他离散选择模型,如Probit模型、NL模型(Nest Logit model)、Mixed Logit模型等。,logistic回归分析的基

7、本原理: 就是利用一组样本数据拟合一个logistic模型,然后借助于这个模型来提示总体中若干个自变量与一个因变量的某个结果事件出现概率之间的依存关系,或者用来评价若干个自变量对一个因变量可能存在的影响关系。,可推导出关于概率的方程为:,数学变换,或,称:Y 取值为1或0时,关于某个自变量的Logistic回归模型,i0时,呈拉长的S形曲线, 随X的增大而单调增加,称X为自变量发生的危险因素。 i =0时, 随X没有关系。 i0时,呈拉长的反S形曲线, 随X的增大而单调递减,称X为自变量发生的保护因素。,概率与偏回归系数 i 之间的关系,例18-1 为了解某药引发临床上消化道出血情况,回顾性调

8、查47136例服用该药的患者中,有155例上消化道出血;同期没有服用该药的44634例对照中,有96例上消化道出血。,X=1:服药 X=0:未服药,赋值: Y=1:有消化道出血 Y=0:无消化道出血,e为 X 增加一个单位后(存在该危险因素),与增加前(不存在危险因素)相比,阳性事件(Y=1)发生优势比(OR),反映了该因素X与疾病的关联程度。,X=0, 未服药组:,X=1, 服药组:,在Logistic 回归模型中,自变量X每增加1个单位,对应的优势比为,回归模型的解释: 0 (常数项):表示在模型中所有自变量X均为0 时的ln (odds)值,效应事件发(Y=1)生优势(odds)的自然对

9、数值。 实际意义:在不存在任何潜在危险保护因素条件下,即在基线状态下效应事件发生优势(odds)的自然对数值,或指效应指标Y 发生与不发生的概率之比的自然对数值。,i 为自变量Xi 的Logistic回归系数,表示在其它自变量取值不变的情形下,Xi 每变化一个单位后与增加前相比较,事件发生优势的自然对数值。,线性回归模型,logistic回归模型,模型对数据资料的要求:Y,X1、X2、 Xi,模型解释0、i,回归模型,回归模型,模型的解释0、i及,18.2 单个自变量Logistic回归,例18-1: 为了解某非甾体抗炎药引发临床上消化道出血症状。因此,1980年Strom和Carson开展了

10、大样本上市后安全性再评价。回顾性跟踪调查的47136例服用该药的患者中,有155例上消化道出血;同期没有服用该药的44634例对照中,有96例上消化道出血。 .,研究目的:分析上消化道出血症状与非甾体抗炎药的关系; 因变量的类型:二值因变量,单个自变量; 资料收集方法:病例-对照不匹配。,【案例解析】,非条件二项 Logistic 回归模型,22 纵向数据,X=1:服药 X=0:未服药,赋值: Y=1:有消化道出血 Y=0:无消化道出血,logistic回归模型拟合步骤:,估计参数:0、 ,logistic回归方程的假设检验,回归方程的统计应用,极大似然法,列出回归方程,回归系数的区间估计,先

11、建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的极大似然估计值。 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为 G (又称Deviance)。,回归系数的估计 极大似然估计(Maximum likelihood estimate, MLE), 似然比检验(likelihood Ratio) Wald 检验:样本量大时可用,常用于对回归系数进行假设检验,计算简单,但结果偏于保守。 得分检验(Score),回归模型和系数的假设检验:,MLE举例:,某同学与一位猎人一起外出打猎。忽然,一只野兔从前方窜过,只听一声枪响

12、,野兔应声倒下 。,若让你推测一下,是谁击中的野兔,你会怎样想?,你会想:只一枪便击中,一般情况下猎人击中的概率比同学击中的概率大。 故这一枪极大可能是猎人打的。 你的这一想法中就已经包含了最大似然原理的基本思想 再看一个例子:,例:有一事件A,它发生的概率只可能是P=0.1,0.3 或0.6,若一次观测中,事件A竟然发生了,试推想一下P应取何值?,你自然会认为事件A发生的概率是0.6。,最大似然原理:概率大的事件在一次观测中更容易发生 。 在一次观测中发生了的事件其概率应该大。,似然比检验和Wald 检验,二者都是基于MLE,就大样本而言二者是渐进等价的。 似然比检验的思想是:如果参数约束是

13、有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。 wald检验的思想是:如果约束是有效的,那么在没有约束情况下估计出来的估计量应该渐进地满足约束条件,因为MLE是一致的。,回归方程和系数的假设检验:,通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G。 样本量较大时,G近似服从自由度为待检验因素个数的分布。,【电脑实现】 SPSS,1. 数据录入,Logistic 回归分析:,注意:SPSS拟合模型默认取值水平高的为阳性结果 一般将阳性事件定义为1;阴性事件定义为0。,2. 数字加权,3. SPSS过程,【Method】 (自变量的选

14、入方法) Enter Forward: Conditional Forward: LR Forward: Wald Backward: Conditional Backward: LR Backward: Wald,3. 结果及结果输出:, Enter:强制进入法,两个伪决定系数:从不同角度反应当前模型中自变量解释反应变量总变异的比例。,回归系数,回归系数的Wald x2检验,回归系数的标准误, Enter: 强制进入法回归方程的参数估计,OR值,列入方程:,或,回归模型的解释: 常数项是未服用该药品人群“发生出血症状”优势估计值的自然对数, 自变量X的回归系数是优势估计值的自然对数。 1.估

15、计未服用该药品人群“发生出血症状”的优势为: Odds=exp(-6.140)=0.0022; 2.样本优势比:exp(0.426)=1.5306; 3.总体OR的95%置信区间为:1.1861.975, 置信区间下限大于1,因此服用非甾体抗炎药是上消化道出血症状的危险因素。,例18-1 结果报告,为评价服用非甾体类药物是否引起消化道出血的症状,用回顾性调查的跟踪调查了47136例服药患者的消化道出血情况,另外用44634例未服药的患者作为对照。 logistic 回归分析显示:服用非甾体类药物与消化道出血的症状有关(P0.001),服药组对非服药组的优势比为1.513,其95%置信区间为1.

16、1861.975。,附表 非甾体类药物与消化道出血的logistic回归分析结果,思考:上述资料看起来和前边学过的四格表没有区别,能否用四格表的卡方检验来分析呢?,说明:当解释变量只有一个时,用logistic模型的结果和卡方检验的结果等价,只是logistic提供的信息更多些。,18.4 多自变量的Logistic回归,i 表示在其它自变量取值不变的情形下,Xi 每变化一个单位后与增加前相比较,阳性事件发生优势的自然对数值 ORi 表示在其它自变量取值不变的情形下, Xi 每变化一个单位后与增加前相比较,阳性事件的优势比。,多自变量logistic回归,校正混杂因素 筛选影响因素 疾病预测与

17、预后,例2 为研究鼻咽癌发病的危险因素,某研究人员对某医院肿瘤防治中心105例鼻咽癌新发病例与130名健康人进行病例对照研究,收集如下资料:,变量:,研究目的:分析上“多因素”与“疾病发生”的关系; 因变量的类型:二分类的因变量,单个自变量; 资料收集方法:病例-对照不匹配。,【案例解析】,非条件二分类 Logistic 回归,logistic回归模型拟合的基本步骤:,估计参数:b0、 b1、 b2、 bi,logistic回归方程的假设检验,回归方程的统计应用,极大似然法,列出回归方程,回归系数的区间估计,Logistic回归模型的假设检验,【电脑实现】SPSS,1. 数据录入,2. SPS

18、S过程,自变量的选入方法 Enter Forward: Conditional Forward: LR Forward: Wald Backward: Conditional Backward: LR Backward: Wald,注意:基于条件参数估计(Condional)和偏最大似然估计(LR)的筛选方法都 比较可靠,尤以后者为佳; 但基于Wald检验的结果,因未考虑各因素的综合作用,当因素间存在共线性时要不可靠,应慎用。 。,【Method】,【Option】:,Removal: 设为0.05(和课本保持一致),3. 结果输出:( Backward LR Method),结果报告一:指标

19、赋值,结果报告二:,为研究鼻咽癌发病的危险因素,对某医院105例鼻咽癌新发病例与130名健康人进行病例对照研究,采用非条件logistic回归分析,向后逐步筛选变量(进入标准 =0.05,剔除标准=0.05) ,结果显示:肿瘤家族史、职业有害接触、吸烟是其发病的危险因素;长期体育锻炼是其发病的保护因素,4变量有统计学意义, P0.001 ,其OR值的估计值等见下表示。,表2 鼻咽癌发病危险因素的logistic 回归分析结果,性别 X1 年龄 X2 年人均收入 X3 医疗保障 X4 距就近医疗点时间 X5 自感疾病严重程度 X6 发病时间 X7 就诊 Y,例2 为研究居民两周患病未治疗的影响因

20、素,采用多阶段分层整群抽样,对某地11,790名农村居民进行了入户调查。11,790名居民中,调查前二周患病者1649人,其中未就医者720人,有关资料如下。,指标赋值:,注意:无序分类变量(或称名义变量)的哑变量化 该变量因各类别间没有顺序关系,在进行回归分析时(多重线性回归、logistic回归、Cox回归等),不能使用原始的记录数据进行统计分析,必须进行哑变量化,即将这些变量转换为(水平数-1)的哑变量,再将这些新转换的变量放入多因素模型进行分析。,“发病时间”的哑变量化,【电脑实现】SPSS,1. 数据录入,2. SPSS过程,自变量的选入方法 Enter Forward: Condi

21、tional Forward: LR Forward: Wald Backward: Conditional Backward: LR Backward: Wald,注意:基于条件参数估计(Condional)和偏最大似然估计(LR)的筛选方法都 比较可靠,尤以后者为佳; 但基于Wald检验的结果,因未考虑各因素的综合作用,当因素间存在共线性时要不可靠,应慎用。 。,【Method】,即:计算出来的i是以该变量的最后一个作为参照水平,【 Categorical】如果自变量是无序分类变量(如血型等)和不等距有有序变量,须将其哑变量化,那么就要用该按钮将该变量指定为分类变量,如果有必要,可用里面的

22、选择按钮进行详细的定义,如以哪个取值作为基础水平,默认的是以最大取值为基础水平。,【Option】:,Removal: 设为0.05(和课本保持一致),3. 结果输出:( Backward LR Method),赋值结果:,“发病时间”哑变量化结果:, 运行结果: 对回归模型假设检验:,列方程:,或:,结果报告:,为研究过去两周内患病居民未治疗率的影响因素,采用现况调查方法,调查了过去两周内患病者1 649人,采用非条件logistic回归分析,向后逐步筛选(进入标准 =0.05,剔除标准=0.05)变量,结果显示:年龄、自感疾病严重程度和发病时间三个变量有统计学意义( P0.001 ),OR

23、值的估计值分别为1.262、0.544、0.606(类别1与3相比)和0.712(类别2与3比),OR值的95%置信敬意分别为(1.128,1.412)、(0.468、0.632)、(0.480,0.766)和(0.495,1.022)。,18.5 Logistic回归模型的用途和注意事项,【Logistic回归分析的用途】,筛选危险因素,并确定其作用大小; 校正混杂因素; 预测:预测某个病例事件发生的概率。,2. 足够的样本量: 比较有把握的说法:每个结局至少需要10个样本。,【Logistic回归应用中需注意的问题】,1. 个体间的独立性: 不适合运用于研究个体间具有聚集性特征的资料分析。

24、,3. 变量的赋值:,3. 变量的赋值:,连续型变量:原数据形式、离散化有序分类变量,或离散化后用几个哑变量来描述。,有序多分类变量:,等距资料:如果有理由认为各水平之间是等距离的,或近似等距离,各测量结果可依次赋值1、2、3、4。 不等距资料:如受教育程度:文盲、小学、中学、大学及以上取作1、2、3、4。,1. 按照各水平间合理的、易解释的距离,分别赋于一定的数值,可以距离不相等。 2. 哑变量化,正确作法,无序多分类变量:哑变量化,有序多分类变量,整进整出,列方程:,或:,模型评价:即评价模型拟合效果,即评价模型的预测值和观测值是否一致,用拟合优度检验。 标准化回归系数:用来评价各自变量对

25、结局变量影响程度的大小关系。,小 结,Logistic回归适用于因变量为分类变量的研究问题,其自变量可是定时变量、有序或无序分类变量。常用于筛选危险因素、校正混杂因素、预测和控制等。 Logistic回归模型的参数估计采用极大似然法,求解回归系数估计值后,仍需进行假设检验,包括对回归方程的检验和回归系数的检验两个方面,前者一般可用似然比检验,后者用Wald x2检验。,Logistic回归模型的参数0表示在模型中所有自变量均为0 时,即在不接触任何潜在危险保护因素条件下,效应事件优势(odds)的对数值。 i 为Xi 的Logistic回归系数,表示在控制其它自变量时,自变量Xi 每变化一个单

26、位所引起 效应事件优势改变的对数值 。 在Logistic 回归模型中,自变量每增加1个单位,事件对应的优势比为OR=ei。 ei为正值时,OR1, 说明Xi的增大是疾病的危险因素; ei 为零时, OR=1, 说明Xi的变化与疾病无关; ei为负值时,OR1, 说明Xi的增大是疾病的保护因素。,回归分析,简单线性:,多重线性:,logistic回归,线性回归,只1个X: (简单),多个X:,简答题: 1.Logistic回归与线性回归有什么不同?两种方法各有什么特点?,参考答案:Logistic回归属于概率型非线性回归, Y是二值变量(服从二项分布) , 而线性回归Y连续变量 (正态分布)。

27、线性回归对资料要求比较细腻, 略小样本也可以, 有条件要求正态、线性、等方差和独立,实际中不容易能得到满足。Logistic对资料要求不是强调很严谨, 而参数具有明确的实际意义(得到OR值的估计值) ,但要求必须大样本。,案例分析,一项前瞻性队列研究中,欲研究某疾病与甲乙两因素的关系,数据见下表:,疾病发病与否是因变量Y(发病赋值1,未发病赋值0),甲、乙两个因素为两个自变量 和 ,采用logistic回归研究疾病与甲、乙两个因素的关系: (1)单变量模型 分析结果提示:疾病与甲因素有联系(回归系数Wald检验 44.766 ,P0.001);疾病与乙因素没有联系(回归系数Wald检验0.00

28、0,P1.000)。,(2)主效应模型 将甲、乙两个因素同时纳入模型,拟合结果见下表。提示疾病与甲因素有联系,与乙因素的联系仍然没有统计学意义。与单变量拟合结果比较,纳入乙因素后,甲因素的优势比只有微小改变。研究者据此得出结论:疾病与甲因素有联系,疾病与乙因素没有联系,乙因素也不是混杂因素。,(3)有交互效应的模型 根据专业知识判断,甲、乙两因素间可能存在交互效应,选用有交互效应的全模型,拟合结果见教材表18-15。结果提示:疾病与甲因素有联系,疾病与乙因素也有联系,甲、乙两因素间还有交互效应。甲、乙因素及其交互项的标准化回归系数分别为b10.229,b20.177,b3 0.546,因此,交

29、互效应对疾病发生与否的影响程度最强。,上述3种拟合模型,得出不完全一致的结论,你认为何者更合理?,答案: 三种做法所得结果不完全一致,这是很正常的,不能根据研究者的主观愿望去选择结果,应根据资料的实际情况、统计分析的结果及其与实际情况的吻合程度来决定应选取哪一种统计分析方法。,正确做法: 欲研究某疾病与甲、乙两因素的关系,可以采用Logistic 回归研究疾病的发生与否与甲、乙两个因素的关系。单变量模型分别将甲因素与乙因素引入 Logistic回归模型,由于可能存在其他混杂因素,单变量模型分析的结果并不可靠。将甲、乙两个因素同时纳入模型,若根据专业知识判断,甲、乙两因素间不存在交互效应,则建立主效应模型;若甲、乙两因素间可能存在交互效应,则应选用有交互效应的全模型,但不宜用标准化回归系数比较主效应与交互效应对疾病发生的影响程度,因为交互效应除依赖于乘积项的系数外,还依赖于两个变量的乘积。,THANK YOU!,

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|