logistic回归-ppt课件.ppt

上传人(卖家):三亚风情 文档编号:2794590 上传时间:2022-05-26 格式:PPT 页数:50 大小:848.50KB
下载 相关 举报
logistic回归-ppt课件.ppt_第1页
第1页 / 共50页
logistic回归-ppt课件.ppt_第2页
第2页 / 共50页
logistic回归-ppt课件.ppt_第3页
第3页 / 共50页
logistic回归-ppt课件.ppt_第4页
第4页 / 共50页
logistic回归-ppt课件.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、Logistic 回归回归Logistic Regression多元线性回归分析:多元线性回归分析: 用来分析多个自变量与一个因变量的关系;用来分析多个自变量与一个因变量的关系; 模型中因变量模型中因变量Y是是连续性连续性随机变量,并要求随机变量,并要求服从正态分布。服从正态分布。 但是,在医学研究中,常碰到但是,在医学研究中,常碰到因变量为因变量为非连续性变量非连续性变量的情况。的情况。eXXYmm110常见的有三类:常见的有三类:1. 二项分类二项分类:如药物实验中,动物出现死亡:如药物实验中,动物出现死亡或生存,人群中某种疾病的患病与未患病,或生存,人群中某种疾病的患病与未患病,临床实验

2、中药物的有效与无效等。临床实验中药物的有效与无效等。2. 多项有序分类多项有序分类:如某一药物的治疗结果是:如某一药物的治疗结果是治愈、显效、有效、无效。治愈、显效、有效、无效。3. 多项无序分类多项无序分类:如研究肝炎的类型,分为:如研究肝炎的类型,分为甲、乙、丙、丁、戊型等。甲、乙、丙、丁、戊型等。 Logistic回归(疾病的病因分析)回归(疾病的病因分析)Logistic回归分析,主要用于因变量是分类变量回归分析,主要用于因变量是分类变量的回归分析。根据因变量分类的不同,常分为:的回归分析。根据因变量分类的不同,常分为:- 因变量为因变量为二分变量的二分变量的Logistic回归回归;

3、- 因变量为因变量为多分类变量的多分类变量的Logistic回归回归。 (有序多分类、无序多分类)(有序多分类、无序多分类)此外还有用于分析匹配资料的此外还有用于分析匹配资料的条件条件Logistic回归回归等。等。研究对象未经过匹配的非条件研究对象未经过匹配的非条件Logistic回归和研究对回归和研究对象经匹配的条件象经匹配的条件Logistic回归。回归。一、一、LogisticLogistic回归模型回归模型 0为常数项或截距;为常数项或截距; 1 , 2 . m分别分别为为m个自变量的个自变量的回归系数回归系数。)()(22110221101mmmmXXXXXXeeP Logit变换

4、(也称对数单位转换变换(也称对数单位转换)ln1PPP为发病概率,取值为发病概率,取值0-1 ;1-P为不发病概率。为不发病概率。mmXXX 22110)1ln(PP取值:取值:- +=-4.00-4.00-2.00-2.000.000.002.002.004.004.00Z Z0.500.501.001.00Logistic回归模型的函数回归模型的函数P Logistic function 取值取值 0-1,可描述,可描述/预预测概率,测概率,Logistic 模型是概率模型模型是概率模型 Logistic function 呈呈S-形曲线,符合流形曲线,符合流行病学对危险因素与疾病风险关系

5、的认识行病学对危险因素与疾病风险关系的认识 Logistic回归模型特点:回归模型特点:Logistic回归的自变量(影响因素)回归的自变量(影响因素)- 可以是连续变量,也可以是分类变量。可以是连续变量,也可以是分类变量。- 如果自变量中有分类变量,应以数字表示如果自变量中有分类变量,应以数字表示不同分类,如:不同分类,如:“吸烟状况吸烟状况”为自变量为自变量,可以:可以: =表示吸烟表示吸烟 = 0 表示不吸烟。表示不吸烟。二、回归模型参数的意义二、回归模型参数的意义 单纯从数学上讲,与多元线性回归分析单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即中回归系数的解释并无不同

6、,亦即m表示表示Xm改变一个单位时,改变一个单位时, 因变量因变量的平均变化量,与的平均变化量,与衡量危险因素作用大小的比值比(衡量危险因素作用大小的比值比(OR)有一)有一个对应的关系。个对应的关系。mmXXX 22110Plogit ln1PP模型中回归系数:模型中回归系数:常用于解释病例对照研究中的常用于解释病例对照研究中的OR 病例对照研究病例对照研究:是以确诊患有某特定疾病的:是以确诊患有某特定疾病的病人作为病人作为病例病例,以不患有该病但具有可比性的个,以不患有该病但具有可比性的个体作为体作为对照对照,搜集既往可能的危险因素的,搜集既往可能的危险因素的暴露史暴露史,并通过统计学方法

7、,评估暴露因素与疾病之间是并通过统计学方法,评估暴露因素与疾病之间是否存在否存在统计学上的关联统计学上的关联。常用于疾病病因的探索。常用于疾病病因的探索。病例病例(MI)(MI)对照对照 合计合计 服服OCOC 39 39 24 24 6363 未服未服OCOC 114114 154154 268268 合计合计 153153 178178 331331 例:口服避孕药(例:口服避孕药(OC)与心肌梗塞()与心肌梗塞(MI)关系)关系- 统计学检验统计学检验 X2 =7.70 ,p1,疾病的危险度因暴露而增加;,疾病的危险度因暴露而增加;OR1,疾病的危险度因暴露而减少;,疾病的危险度因暴露而

8、减少;OR=1,疾病的发生与暴露无关。,疾病的发生与暴露无关。本例,本例,OR=2.195,说明口服避孕药患心肌梗,说明口服避孕药患心肌梗塞的危险是没有口服避孕药的塞的危险是没有口服避孕药的2.195倍。倍。当一种病的死亡率(或发病率)近似于零时,当一种病的死亡率(或发病率)近似于零时,1-P1,则有:,则有: ORP1/P0=RR,RR为相对危险度为相对危险度Logistic回归系数与回归系数与OR的关系:的关系:有有Logistic回归模型:回归模型: 如果要分析其中如果要分析其中X2(假设是口服避孕药)变化一个单(假设是口服避孕药)变化一个单位对于位对于 的影响程度,可以计算当的影响程度

9、,可以计算当分别为(分别为( X2 +1)和和时时 的值,并计算其比值,此时其它变量保持的值,并计算其比值,此时其它变量保持相同,如下表:相同,如下表:P1P 1 12233Pexp a b xb xb x1 P P1P X1X2X3暴露(暴露(X2=1)X1X2+1X3非暴露(非暴露(X2=0)X1X2X3*2p()1pexp(b )ORp1p Logistic回归系数与回归系数与OR的关系:的关系:暴露:暴露:非暴露:非暴露:3322110 xbxbxbbexp)P1P(3322110*) 1(exp)1(xbxbxbbPP23322110bxbxbxbbexp例:例:log odds (

10、Y=1) = - 4.353 + 0.038 age :妇女是否患有骨质疏松,:妇女是否患有骨质疏松,Y=1为是,为是,Y=0为否为否当年龄为当年龄为a时,时,odds(Y=1|age=a) = exp(-4.353 + 0.038 a)当年龄为当年龄为a+1,odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1) Odds ratio=exp(0.038)=1.0387年龄每增加一岁,患骨质疏松的可能性增加年龄每增加一岁,患骨质疏松的可能性增加3.87%Logistic回归方程求解参数采用回归方程求解参数采用最大似然估计法最大似然估计法(Maximum li

11、kehood estimate) 似然函数值(似然函数值(L)表达的是一种概率,即在假)表达的是一种概率,即在假设拟合模型为真实情况时,能够观察到某一特定设拟合模型为真实情况时,能够观察到某一特定样本数据的概率,这个函数值在(样本数据的概率,这个函数值在(0,1)之间。)之间。因为对这个函数值取自然对数后在数学处理上更因为对这个函数值取自然对数后在数学处理上更为方便,而且又因为这个函数值是个极小的小数,为方便,而且又因为这个函数值是个极小的小数,其对数值是负数,所以通常用其对数值是负数,所以通常用-2lnL表示函数的大表示函数的大小。小。三、模型中的参数估计三、模型中的参数估计四、模型检验和评

12、价四、模型检验和评价1、对模型回归系数整体的检验:、对模型回归系数整体的检验:检验模型中所检验模型中所有自变量整体看是否与所研究事件的对数比值比存有自变量整体看是否与所研究事件的对数比值比存在线性关系在线性关系- 似然比检验(似然比检验(likehood ratio test) 通过比较包含与不包含某一个或几个待检验观通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数的变化来进行,察因素的两个模型的对数似然函数的变化来进行,其统计量为其统计量为G (又称(又称Deviance)。)。 G=-2(ln Lp-ln Lk) 样本量较大时,样本量较大时, G近似服从自由度为待检验

13、因近似服从自由度为待检验因素个数的素个数的 分布分布。 此外,还可以采用计分检验、此外,还可以采用计分检验、Wald检验。检验。2、对模型中单一的回归系数的检验、对模型中单一的回归系数的检验 H0: i i=0=0Wald统计量的计算公式为:统计量的计算公式为:Wald值服从自由度为值服从自由度为1的卡方分布,的卡方分布,Wald值越大表明值越大表明该自变量的作用越显著。该自变量的作用越显著。2BWald()S.E. 方法:方法:Wald检验检验 Predicted Y Percentage CorrectObserved 01 Y025583.3 161470.0Overall Percen

14、tage 78.01)拟合分类表)拟合分类表3、对模型的评价、对模型的评价2) 最大似然函数值(最大似然函数值(Likelihood) SPSS提供了提供了-2Log Likelihood,此值越小越好,此值越小越好, 报告值越大,意味着回归方程的似然值越小,标志报告值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差。模型的拟合程度越差。 很低的很低的L值说明:值说明: 1)可能)可能Logistic回归不合适;回归不合适; 2)可能影响因变量的主要因素未被考虑在内。)可能影响因变量的主要因素未被考虑在内。 在评价或检验一个在评价或检验一个Logistic回归模型时,回归模型时,通常是

15、将其与只有截距、没有自变量的模型相通常是将其与只有截距、没有自变量的模型相比较,比较在加入自变量后新的模型对数据的比较,比较在加入自变量后新的模型对数据的拟合水平是否有所提高,即这些变量是否像模拟合水平是否有所提高,即这些变量是否像模型假设的那样提供了对于因变量变化的解释。型假设的那样提供了对于因变量变化的解释。l 模型拟合好,模型拟合好, x2值大,值大,P值小。值小。3) 似然比检验似然比检验例:例: Chi-squaredfSig.Step28.2422.000Block28.2422.000Model28.2422.000H0:1=2=m=0Model Chi-square 28.24

16、2 df=2 P0.001说明所有自变量从总体上看,是有统计显著性的说明所有自变量从总体上看,是有统计显著性的五、五、 变量筛选变量筛选基本思想同线性回归分析。基本思想同线性回归分析。 从所用的方法看,有强迫法、前进法、后退法从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的线性回归分析中的F统计量,而是以上介绍的参数统计量,而是以上介绍的参数检验方法中的三种统计量之一。检验方法中的三种统计量之一。 为计算方便,通

17、常向前选取变量用似然比或记为计算方便,通常向前选取变量用似然比或记分检验,而分检验,而向后剔除变量常用向后剔除变量常用Wald检验检验。六、六、LogisticLogistic回归分析的应用回归分析的应用- 筛选危险因素筛选危险因素- 校正混杂因素校正混杂因素- 预测与判别预测与判别七、注意事项七、注意事项应用条件:应用条件: 1. 各观察对象间相互独立;各观察对象间相互独立; 2. 与自变量呈线性关系。与自变量呈线性关系。ln1PP 变量的取值形式:变量采取不同的取值形式,参变量的取值形式:变量采取不同的取值形式,参数的含义、量值及符号都可能发生变化。数的含义、量值及符号都可能发生变化。 二

18、分类变量:二分类变量:0、1(连续性变量或哑变量)(连续性变量或哑变量) 多分类无序变量:哑变量多分类无序变量:哑变量 多分类有序多分类有序(等级等级)变量:连续性变量或哑变量变量:连续性变量或哑变量 连续性变量:转换为分类变量较易解释连续性变量:转换为分类变量较易解释OR值的意义。值的意义。 样本量:一般不小于样本量:一般不小于200例,配对资料对子数例,配对资料对子数n大大于等于变量的于等于变量的20倍,倍,否则回归系数的估计是有偏否则回归系数的估计是有偏性的。性的。 不应单纯依赖程序筛选变量,要注意变量的医学不应单纯依赖程序筛选变量,要注意变量的医学意义。意义。 多元线性回归分析与多元线

19、性回归分析与LogisticLogistic回归分析都是回归分析都是实际工作中常用的方法,用于影响因素分析实际工作中常用的方法,用于影响因素分析时,多元线性回归的因变量是连续变量,而时,多元线性回归的因变量是连续变量,而LogisticLogistic回归的因变量是分类变量;回归的因变量是分类变量; 两种方法的自变量均可为连续变量或分类变两种方法的自变量均可为连续变量或分类变量,当为多分类变量时均需设相应的哑变量。量,当为多分类变量时均需设相应的哑变量。例:例:比较新疗法与旧疗法治疗某种疾病的比较新疗法与旧疗法治疗某种疾病的疗效。现对疗效。现对40例患者随机分组,分别接受例患者随机分组,分别接

20、受新疗法和旧疗法治疗。根据专业知识,患新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效?如何评价新旧疗法的疗效?(见数据文件见数据文件logistic.sav)(注:作为举例,本例样本量仅为(注:作为举例,本例样本量仅为40例,例,由于样本量太小,由于样本量太小,Logistic回归的结论仅回归的结论仅作为参考)作为参考)八、八、 应用实例应用实例变量说明:变量说明:Y:治愈情况:治愈情况 1=治愈;治愈;0=未治愈;未治愈;X1:病情严重程度:病情严重程度 0=不严重,不严重,1=严重;严重;X2:年龄:年

21、龄X3:治疗方法:治疗方法 0=新疗法,新疗法,1=旧疗法。旧疗法。二值二值Logistic回归回归因变量因变量协变量协变量(自变量自变量)后退法筛选变量后退法筛选变量OR的的95%置信区间置信区间拟合分类表拟合分类表Omnibus Tests of Model CoefficientsOmnibus Tests of Model Coefficients13.9513.00313.9513.00313.9513.003-1.2221.26912.7292.00212.7292.002StepBlockModelStepBlockModelStep 1Step 2aChi-squaredfSi

22、g.A negative Chi-squares value indicates that theChi-squares value has decreased from theprevious step.a. 对模型的检验对模型的检验Model SummaryModel Summary40.597a.294.39641.819a.273.366Step12-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 5 becauseparameter estima

23、tes changed by less than .001.a. 对模型拟合的优良性评价:对模型拟合的优良性评价:-2Log likelihood有小幅上升,但差异不大。两种决定系数差异也不有小幅上升,但差异不大。两种决定系数差异也不大。说明第二步结果的拟合程度没有改善,反而稍大。说明第二步结果的拟合程度没有改善,反而稍有下降。有下降。 Classification TableClassification Tablea a19482.68952.970.020387.08952.972.5Observed未治愈治愈治愈情况Overall Percentage未治愈治愈治愈情况Overall P

24、ercentageStep 1Step 2未治愈治愈治愈情况PercentageCorrectPredictedThe cut value is .500a. 拟合分类表拟合分类表符合率为符合率为72.5%本次分析最后一步的预测正确率为本次分析最后一步的预测正确率为72.5%,稍显不足,而且,稍显不足,而且与与step 1差异不大。这与上表中的模型评价结论一致。差异不大。这与上表中的模型评价结论一致。 V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n-1.595.8583.4521.063.203.038

25、1.092-.077.0711.1761.278.926.8061.064-2.273.8577.0281.008.103.019.5533.7342.3352.5561.11041.826-1.832.8344.8241.028.160.031.821-2.140.8226.7821.009.118.024.5891.358.6594.2481.0393.890 x1(1)x2x3(1)ConstantStep1ax1(1)x3(1)ConstantStep2aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) ent

26、ered on step 1: x1, x2, x3.a. 回归系数回归系数 标准误标准误Wald值值 P值值OROR置信区间置信区间V Va ar ri ia ab bl le es s n no ot t i in n t th he e E Eq qu ua at ti io on n1.2151.2701.2151.270 x2VariablesOverall StatisticsStep 2aScoredfSig.Variable(s) removed on step 2: x2.a. 不在模型中的变量不在模型中的变量分析结果的解释:分析结果的解释:l 病情严重程度病情严重程度X1与

27、治疗方法与治疗方法X3对患者的治愈情况有对患者的治愈情况有影响;影响;l 病情严重组相对于不严重组,病情严重组相对于不严重组,OR0.160(病情严(病情严重的患者,其治愈的概率是病情不严重的患者的重的患者,其治愈的概率是病情不严重的患者的0.160倍),倍),95%置信区间为置信区间为(0.031,0.821) ;l 旧疗法组相对于新疗法组,旧疗法组相对于新疗法组, OR0.118, (接受旧(接受旧疗法的患者,其治愈的概率是接受新疗法的患者的疗法的患者,其治愈的概率是接受新疗法的患者的0.118倍),倍),95%置信区间为置信区间为(0.024,0.589)。Logistic回归模型为:回

28、归模型为:31X140. 2X832. 1358. 1P1Pln补充:补充:Logistic回归分析的其他应用回归分析的其他应用假设检验的目的假设检验的目的: :推断多个推断多个总体总体率是否相等率是否相等结果解释结果解释: :当当P 0.05,拒绝,拒绝H0时,时,总的说总的说来各组来各组有差别,有差别,但并不意味着任何两组都有差别但并不意味着任何两组都有差别:可:可能是任何两者间都有差别,也可能其中某两者能是任何两者间都有差别,也可能其中某两者间有差别,而其它组间无差别。间有差别,而其它组间无差别。 目前尚无公认的进一步两两比较的方法目前尚无公认的进一步两两比较的方法 (可考虑采用可考虑采

29、用Logistic回归回归)回顾:分类变量的假设检验回顾:分类变量的假设检验 完全随机设计的多个样本比较完全随机设计的多个样本比较例:例:某省从某省从3 3个水中氟含量不同的地区随机抽个水中氟含量不同的地区随机抽取取10101212岁儿童,进行第一恒齿患病率的调查岁儿童,进行第一恒齿患病率的调查(见数据文件见数据文件p231.savp231.sav),问),问3 3个地区儿童第个地区儿童第一恒齿患病率是否不同?一恒齿患病率是否不同?变量说明:变量说明:group: :组别,组别,1=1=高氟区,高氟区,2=2=干预区,干预区,3 3低低氟区;氟区;effect:1=:1=患龋,患龋,2=2=未

30、患龋;未患龋;freq:频数:频数 。经经 2 2检验,检验, 2 2=10.489=10.489,P=0.005=0.005,可以认为:总的来说三个地区,可以认为:总的来说三个地区患龋情况有差别。患龋情况有差别。PearsonPearson卡方值卡方值P P值值患龋率患龋率如何进一步判断哪两个地区有差别?如何进一步判断哪两个地区有差别?二值二值Logistic回归回归在进行在进行Logistic回归分析之前,需要用对变量进行加权回归分析之前,需要用对变量进行加权以低氟区为参照,其他两个地区与低氟区进行比较。以低氟区为参照,其他两个地区与低氟区进行比较。Categorical对话框对话框Opt

31、ions对话框对话框OR的的95%置信区间置信区间对模型的检验对模型的检验结论:结论:经统计学检验,经统计学检验, 2=11.852,P=0.003,Logistic模模型有显著性。高氟区、干预区与低氟区相比,患病率均有型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(差异(P0.05)。)。参考书参考书 颜虹主编. 医学统计学. 北京: 人民卫生出版社, 2005 金丕焕主编. 医用统计方法, 第2版. 上海: 复旦大学出版社, 2003 孙振球主编. 医学统计学, 第2版. 北京: 人民卫生出版社, 2005 孙尚拱编著. 医学多变量统计与统计软件. 北京: 北京医科大学出版社, 2000谢谢!谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(logistic回归-ppt课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|