卫生统计学:Logistic回归分析[精]课件.ppt

上传人(卖家):晟晟文业 文档编号:5180932 上传时间:2023-02-16 格式:PPT 页数:40 大小:825.50KB
下载 相关 举报
卫生统计学:Logistic回归分析[精]课件.ppt_第1页
第1页 / 共40页
卫生统计学:Logistic回归分析[精]课件.ppt_第2页
第2页 / 共40页
卫生统计学:Logistic回归分析[精]课件.ppt_第3页
第3页 / 共40页
卫生统计学:Logistic回归分析[精]课件.ppt_第4页
第4页 / 共40页
卫生统计学:Logistic回归分析[精]课件.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、v在疗效评价在疗效评价,发病因素研究中发病因素研究中,应变量应变量为分类指标为分类指标v 有效有效 治愈治愈 发生发生 阳性阳性v Y Yv 无效无效 死亡死亡 未发生未发生 阴性阴性v线性回归分析:线性回归分析:正态随机变量正态随机变量v医学数据的复杂、多样性医学数据的复杂、多样性连续型和离散型数据连续型和离散型数据v医学研究中疾病的复杂性医学研究中疾病的复杂性一种疾病可能有多种致病因素或与一种疾病可能有多种致病因素或与多种危险因素有关多种危险因素有关疾病转归的影响因素也可能多种多疾病转归的影响因素也可能多种多样样临床治疗结局的综合性临床治疗结局的综合性v简单的简单的:v固定其他因素,研究有

2、影响的一两个固定其他因素,研究有影响的一两个因素;因素;v按按12个因素组成的层进行分层分析个因素组成的层进行分层分析(层内和综合分析层内和综合分析)。v多因素多因素:v寻找合适的统计模型寻找合适的统计模型vLogisticLogistic回归回归 二分类二分类 多分类多分类 条件条件LogisticLogistic回归回归 非条件非条件LogisticLogistic回归回归设设:暴露组暴露组 发生率发生率 p p1 1 /未发生率未发生率(1-p(1-p1 1)对照组对照组 发生率发生率 p p0 0 /未发生率未发生率(1-p(1-p0 0)p p表示暴露因素表示暴露因素X X时个体发病

3、的概率,时个体发病的概率,则发病的概率则发病的概率 与未发病的概率与未发病的概率 1-p1-p之比称为优势(之比称为优势(oddsodds).暴露组暴露组 odds podds p1 1/(1-p/(1-p1 1)对照组对照组 odds podds p0 0/(1-p/(1-p0 0)Logistic回归分析回归分析vLogit变换变换 也称对数单位转换也称对数单位转换 logit P=病例组病例组 与对照组与对照组 的的 优势比优势比(odds retio ,OR)ln1PP)1/()1/(0011ppppORv进行进行logitlogit变换变换ppxxxpp.)1ln(22110v Lo

4、gisticLogistic回归模型是一种概率模回归模型是一种概率模型型,它是以疾病它是以疾病,死亡等结果发生的死亡等结果发生的概率为因变量概率为因变量,影响疾病发生的因影响疾病发生的因素为自变量建立回归模型。素为自变量建立回归模型。它特别它特别适用于因变量为二项适用于因变量为二项,多项分类的多项分类的资料。资料。v 在临床医学中多用于鉴别诊断在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病评价治疗措施的好坏及分析与疾病预后有关的因素等。预后有关的因素等。ppppXXXXXXeeP22110221101称为非条件称为非条件logistic回归模型回归模型,常常 应用于成组数据的分析应

5、用于成组数据的分析经数学变换可得:lExp/e表示指数函数。最大似然估计法最大似然估计法 (Maximum likehood estimate)似然函数:似然函数:L=L=PPi i 对数似然函数:对数似然函数:lnL=(ln P)=ln PlnL=(ln P)=ln P1 1+ln P+ln P2 2+ln P+ln Pn n非线性迭代方法非线性迭代方法Newton-Raphson法法 表示自变量每增加一个单位,其优势比对数值的改变量,v OR=e v lnOR=亦即自变量每增加一个单位,其相对危险度为e。回归系数回归系数 的意义的意义设只有一个自变量 的Logistic方程=0 表示非暴露

6、,=1表示暴露。i i1101lnxpp1x1x1x ln(OR)=logitP(1)-logitP(0)=(0+11)-(0+10)=1 例如,吸烟与肺癌的关系的研究例如,吸烟与肺癌的关系的研究 令令 1 吸烟吸烟 1 肺癌肺癌 X=y=0 不吸不吸 0 非肺癌非肺癌若求得若求得:=1,OR=e 表明表明:吸烟个体吸烟个体 患肺癌的危险性是不吸烟个患肺癌的危险性是不吸烟个体的体的2.71828倍。倍。注意 变量X的赋值与OR的关系令 0 吸 X=1 不吸 则求得 =?OR=?则求得:=-1,OR=1/e 意思是:不吸烟的人得肺癌症的危险性是吸烟的36.79%。vLogisticLogisti

7、c回归中的常数项(回归中的常数项(b b0 0)表示)表示在不接触任何潜在危险保护因素条在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的件下,效应指标发生与不发生事件的概率之比的对数值。概率之比的对数值。vLogisticLogistic回归系数(回归系数(b bi i )表示,某)表示,某一因素改变一个单位时,效应指标发一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变生与不发生事件的概率之比的对数变化值,即化值,即OROR的对数值。的对数值。v1.1.似然比检验(似然比检验(likehood ratio testlikehood ratio test)通过比较包

8、含与不包含某一个或几个待通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函检验观察因素的两个模型的对数似然函数变化来进行,其统计量为数变化来进行,其统计量为G G G=-2(ln L G=-2(ln Lp p-ln L-ln Lk k)n n较大时,较大时,G G近似服从自由度为待检验近似服从自由度为待检验因素个数的因素个数的 分布。分布。v比分检验比分检验(score testscore test)以未包含某个或几个变量的模型以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一设新增参数为零,计算似然函

9、数的一价偏导数及信息距阵,两者相乘便得价偏导数及信息距阵,两者相乘便得比分检验的统计量比分检验的统计量S S。n n 较大时,较大时,S S近似服从自由度为待检因素个数的近似服从自由度为待检因素个数的 分布。分布。vWaldWald检验(检验(wald testwald test)即广义的即广义的t t检验,统计量为检验,统计量为u u u u服从正态分布,即为标准正态离服从正态分布,即为标准正态离差。差。iibbu=s 以上三种方法中,似然比检以上三种方法中,似然比检验最可靠,比分检验一般与它相验最可靠,比分检验一般与它相一致,但两者计算量均较大;而一致,但两者计算量均较大;而WaldWal

10、d检验未考虑各因素间的综合检验未考虑各因素间的综合作用,在因素间有共线性存在时作用,在因素间有共线性存在时,结果不像其它两者可靠。结果不像其它两者可靠。分析因素分析因素xi为等级变量时,如以最小或为等级变量时,如以最小或最大等级作参考组,并按等级顺序依最大等级作参考组,并按等级顺序依次取为次取为0,1,2,。此时,。此时,e(bi)表示表示xi增加一个等级时的优势比,增加一个等级时的优势比,e(k*bi)表表示示xi增加增加k个等级时的优势比。个等级时的优势比。v分析因素分析因素xi为连续性变量时,为连续性变量时,e(bi)表示表示xi增加一个计量单位时的优势比。增加一个计量单位时的优势比。分

11、析思想与多重线性回归分析相同分析思想与多重线性回归分析相同 筛选变量的方法筛选变量的方法:前进法前进法 后退法后退法 逐步法逐步法 统计量不再是线性回归分析中的统计量不再是线性回归分析中的F F统计统计 量,量,而是上面介绍的三种统计量之一。而是上面介绍的三种统计量之一。为计算方便,通常向前选取变量用为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量似然比或比分检验,而向后剔除变量常用常用WaldWald检验。检验。对配比调查资料,多采用条件对配比调查资料,多采用条件LogisticLogistic回归分析。回归分析。LogisticLogistic回归方程回归方程i1 12 2l

12、ogit P=bk kbxbxb xv假设自变量在各配比组对结果变量的假设自变量在各配比组对结果变量的作用相同,即自变量的回归系数与配作用相同,即自变量的回归系数与配比组无关。比组无关。v配比设计的配比设计的LogisticLogistic回归模型回归模型 不含常数项。不含常数项。1 12 2logit P=bk kx bxbxv 可见非条件可见非条件Logistic回归模型回归模型与回归模型十分相似,只不过其参与回归模型十分相似,只不过其参数估计是根据条件概率得到的,因数估计是根据条件概率得到的,因此称为条件此称为条件Logistic回归模型。回归模型。v条件条件Logistic回归模型的回

13、归系数回归模型的回归系数检验与解释同非条件检验与解释同非条件Logistic回归。回归。v1.因素分析 可用于危险可用于危险/保健因素的保健因素的筛选,并确定其作用大小。筛选,并确定其作用大小。v2.预测预报 v 若已知x1,x2 xm数值大小时,通过模型可以预测某个病例某个病例发病、死亡的概率。v v(一)应用条件(一)应用条件 1.各观察对象间相互独立;各观察对象间相互独立;2.logit P2.logit P与自变量呈线性关系。与自变量呈线性关系。3.3.异常值异常值 4.4.变量间的共线性问题变量间的共线性问题v变量的编码要易于识别变量的编码要易于识别v注意编码的顺序关系注意编码的顺序

14、关系v改变分类变量的编码,其分析改变分类变量的编码,其分析的意义应不变。的意义应不变。v变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上 v哑变量,又称哑变量,又称指示变量指示变量v有利于检验等级变量各个等级间的变化是有利于检验等级变量各个等级间的变化是否相同。否相同。v一个一个k k分类的分类变量,进行分类的分类变量,进行LogisticLogistic回回归分析前需将该变量转换成归分析前需将该变量转换成k-1k-1个指示变个指示变量或哑变量(量或哑变量(dummy variabledummy variable)来表示。这)

15、来表示。这样指示变量都是二分变量,每一个指示变样指示变量都是二分变量,每一个指示变量均有一个回归系数,其解释同前。量均有一个回归系数,其解释同前。v哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度教育程度:文盲,小学,初中,高中以上文盲,小学,初中,高中以上教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照以高中作为参照研究对象例数的确定研究对象例数的确定观察单位数与分析变量个数观察单位数与分析变量个数v logistic回归的局限性回归的局限性理论上的不足:理论上的不足:自变量对疾病的影响是独自变量对疾病的影响是独立的,但实际情况及推导结果不同。立的,但实际情况及推导结果不同。模型有不合理性:模型有不合理性:“乘法模型乘法模型”与一般希与一般希望的望的“相加模型相加模型”相矛盾。相矛盾。最大似然法估计参数的局限最大似然法估计参数的局限样本含量不宜太少:样本含量不宜太少:例数大于例数大于200例时才例时才可不考虑参数估计的偏性。可不考虑参数估计的偏性。谢谢!谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(卫生统计学:Logistic回归分析[精]课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|