1、应用应用Stata做做logistic回归回归何保昌何保昌1ppt课件 实际生活中经常会遇到因变量只有实际生活中经常会遇到因变量只有0和和1的二分类变量,的二分类变量,不能满足正态性和方差齐性,故不能直接使用线性模型不能满足正态性和方差齐性,故不能直接使用线性模型来拟合方程。来拟合方程。 Logistic回归正是处理因变量是二分类或多分类变量的回归正是处理因变量是二分类或多分类变量的一种方法。现已广泛应用于队列研究,病例对照研究和一种方法。现已广泛应用于队列研究,病例对照研究和试验性研究,成为分类因变量的首选多变量分析模型。试验性研究,成为分类因变量的首选多变量分析模型。2ppt课件分类分类
2、按因变量性质,可分为二分类、无序按因变量性质,可分为二分类、无序多分类、有序多分类。多分类、有序多分类。 按是否匹配可分为非条件和条件按是否匹配可分为非条件和条件logistic回归。回归。3ppt课件 Stata软件专门有一组命令用于做不同软件专门有一组命令用于做不同类型的类型的logistic回归,例如:回归,例如:logit、blogit、glogit、clogit、mlogit、ologit。4ppt课件1.Logistic 回归命令:命令:logit 因变量因变量 自变量自变量 ,选择项选择项在进行在进行logistic 回归时要注意资料的形式。通常,回归时要注意资料的形式。通常,用
3、于用于logistic 回归的资料有三种形式:回归的资料有三种形式:(1) 分水平频数资料,一般自变量较少,且均为分分水平频数资料,一般自变量较少,且均为分类变量,常以各变量类变量,常以各变量(包括因变量、自变量包括因变量、自变量)各水平各水平的组合的频数表形式出现。如例的组合的频数表形式出现。如例1。拟合时仍用上述。拟合时仍用上述命令,只是命令中增加命令,只是命令中增加fw=频数变量频数变量选择项。选择项。5ppt课件(2) 分组频数资料,一般自变量较少,且均为分组频数资料,一般自变量较少,且均为分类变量,常以各自变量分类变量,常以各自变量(不包括因变量不包括因变量)各各水平的组合的频数表形
4、式出现,因变量常表水平的组合的频数表形式出现,因变量常表达为分子与分母。如例达为分子与分母。如例2。用下列命令:。用下列命令:blogit 阳性数变量阳性数变量 总观察数变量总观察数变量 ,logit 命命令选择项令选择项或或 glogit 阳性数变量阳性数变量 总观察数变量总观察数变量 ,level(#) or(3) 个体水平资料,即一个观察对象一条记录。个体水平资料,即一个观察对象一条记录。如例如例3,直接使用,直接使用logit 命令估计即可。命令估计即可。拟合模型后可以用指令拟合模型后可以用指令predict 得到预测概率,得到预测概率,然后进行模型诊断、应用等。然后进行模型诊断、应用
5、等。6ppt课件例例1 本例是探讨妇女使用雌激素与患本例是探讨妇女使用雌激素与患子宫内膜癌之间关系的病例子宫内膜癌之间关系的病例-对照研对照研究资料,见表究资料,见表1,请计算,请计算OR 及其及其95可信区间。再可信区间。再用用logistic 回归估计参数,写出回回归估计参数,写出回归方程,并说明回归系数与归方程,并说明回归系数与OR 的关的关系。系。7ppt课件8ppt课件9ppt课件10ppt课件11ppt课件12ppt课件13ppt课件也可以用也可以用logit命令命令14ppt课件15ppt课件16ppt课件可以利用例可以利用例3做逐步回归做逐步回归Stata 用于逐步回归分析的命
6、令是在要执行的用于逐步回归分析的命令是在要执行的命令前增加命令前增加sw 。o sw 回归命令回归命令 因变量因变量自变量自变量, 筛选变量筛选变量的的P 值值 选择项选择项o 其中,筛选变量的其中,筛选变量的P 值有值有3 种组合种组合o pr(#) /* 后退法后退法o pe(#) /* 向前法向前法o pr(#) pe(#) /* 逐步后退法逐步后退法o pr(#) pe(#) forward /* 逐步向前法逐步向前法17ppt课件 pr(#)是剔除变量的P 值,pe(#)是选入变量的P 值,如果只选pr(#),则表示用后退法,如果同时选用pr(#)和pe(#)表示逐步法。应用时,为防
7、止计算进入死循环,pr(#)须略大于pe(#)。例如,pe(0.05),pr(0.051)。18ppt课件1. 用逐步后退法,剔选变量的概率为:用逐步后退法,剔选变量的概率为:pe(0.05),pr(0.06),结果如,结果如下:下: sw logit y x1 x2 x3, pe(0.05) pr(0.06)2. 用逐步前进法,剔选变量的概率不用逐步前进法,剔选变量的概率不变变,结果如下:结果如下: sw logit y x1 x2 x3, pr(0.06) pe(0.05) forward19ppt课件条件条件logistic 回归回归非条件非条件logistic 回归适用于平行组设计的病
8、例回归适用于平行组设计的病例-对对照研究,队列研究,而不适用于配比设计的病例照研究,队列研究,而不适用于配比设计的病例-对照研究。对于配比的病例对照研究。对于配比的病例-对照研究资料需要对照研究资料需要用条件用条件logistic 回归。其命令为:回归。其命令为:o clogit 因变量因变量 自变量自变量 , group(配比变量配比变量) level(#) or o 其中其中group()是必选项是必选项,它是用来区分各配比,它是用来区分各配比组的。组的。level(#)及及or 的意义同的意义同logit。20ppt课件例例4 在子宫内膜癌与使用雌激素关系的研究在子宫内膜癌与使用雌激素关
9、系的研究中,运用了中,运用了1:4 的病例的病例-对照研究,配比因对照研究,配比因素为年龄,共调查了素为年龄,共调查了20 对,对,100 例例。各变量定义如下:各变量定义如下:1: match 配比组配比组2: y y=1:病例,:病例, y=0:对照:对照3: ht ht=0:无高血压,:无高血压, ht=1:有高血压:有高血压4: est est=0 未使用过雌激素,未使用过雌激素, est=1:使用:使用过雌激素过雌激素5: dose 剂量:剂量:dose=0:未使用过,:未使用过, dose=1:0.1-0.299(mg/day)6: drug drug=0:未使用其他药物,:未使用
10、其他药物, drug=1:使用了其他药物:使用了其他药物21ppt课件22ppt课件首先,使用首先,使用ht、est、drug 三个变量作条件三个变量作条件logistic 回归。回归。. clogit y ht est drug, group(match)o 结果显示,患高血压结果显示,患高血压(ht)及使用其他药物及使用其他药物(drug)与子宫内膜癌无关,而使用过雌激素与子宫内膜癌无关,而使用过雌激素者患子宫内膜癌的可能性比未使用过雌激素者者患子宫内膜癌的可能性比未使用过雌激素者大。因此,可以进一步考虑剂量大。因此,可以进一步考虑剂量-反应关系。变反应关系。变量剂量量剂量(dose)可以
11、按两种方法处理,先按线可以按两种方法处理,先按线性形式进入模型,再以哑变量形式进入模型,性形式进入模型,再以哑变量形式进入模型,并比较两者的结果。并比较两者的结果。o clogit y ht dose drug, group(match)23ppt课件o结果显示,随着剂量的上升,服用结果显示,随着剂量的上升,服用雌激素与患内膜癌间的联系也明显雌激素与患内膜癌间的联系也明显上升,呈现出明显的剂量反应关上升,呈现出明显的剂量反应关系。这种关系是否为线性的?系。这种关系是否为线性的?dose 用哑变量形式是否更好?用哑变量形式是否更好?oxi : clogit y ht i.dose drug, g
12、roup(match)24ppt课件多类结果的多类结果的logistic回归回归在医学研究中,常常会遇到结果变在医学研究中,常常会遇到结果变量是多分类的情况,如同一种肿量是多分类的情况,如同一种肿瘤的不同亚型;病例瘤的不同亚型;病例-对照研究对照研究中的一个对照组,两个或多个病中的一个对照组,两个或多个病例组;或一个病例组,两个或多例组;或一个病例组,两个或多个对照组,如医院对照和健康人个对照组,如医院对照和健康人群对照等。群对照等。25ppt课件用于多类结果的用于多类结果的logistic 回归的命回归的命令是令是mlogit。mlogit 因变量因变量 自变量自变量 , base (#)
13、constraints(clist) level(#) rrr 26ppt课件例例5 产后大出血分为两大类:即宫缩乏力性产后大出血分为两大类:即宫缩乏力性(称为子宫因素称为子宫因素)及胎盘因素。在产后大出血及胎盘因素。在产后大出血与有无妊高症与有无妊高症x1及有无人流史及有无人流史x2的关系研的关系研究中,将产后出血量究中,将产后出血量400ml的作为病例,并分的作为病例,并分为上述两类,共调查了为上述两类,共调查了933人,其中子宫因人,其中子宫因素出血的素出血的155人,胎盘因素出血的人,胎盘因素出血的33人,人,对照对照745人。结果见表人。结果见表5。本例,结果变量为:本例,结果变量为
14、:y=0 为对照为对照(C类类)y=1 为宫缩乏力性产后大出血为宫缩乏力性产后大出血(A类类)y=2 为胎盘因素产后大出血为胎盘因素产后大出血(B类类)。27ppt课件28ppt课件29ppt课件mlogit y x1 x2 fw=count, rrr30ppt课件同一变量在不同的同一变量在不同的logit函数中的效应可函数中的效应可能相同,亦可能不同,这可以通过能相同,亦可能不同,这可以通过test命命令来检验。令来检验。test 1x1=2x1test 1x2=2x231ppt课件有序结果的累积比数有序结果的累积比数logistic回归回归用于有序结果的用于有序结果的logistic 回归
15、的命令是回归的命令是ologit。ologit 因变量因变量 自变量自变量 ,table level(#)o其中选择项其中选择项table用于指定打印出各类用于指定打印出各类的概率;的概率;level用于指定显著性水平用于指定显著性水平32ppt课件例例6 南通医学院陈佩珍教授研究了儿童智商南通医学院陈佩珍教授研究了儿童智商等级与其母亲文化程度的关系,共收集了等级与其母亲文化程度的关系,共收集了857名儿童的资料,见表名儿童的资料,见表6。33ppt课件34ppt课件可以计算出可以计算出OR=1.89,o 解释为:当母亲的文化程度提高一个等级时,解释为:当母亲的文化程度提高一个等级时,儿童智力提高一个或一个以上等级的可能性儿童智力提高一个或一个以上等级的可能性将增加将增加0.89倍倍35ppt课件小结小结Logit、 blogit 、 glogit 、 blogit 、 clogit 、 mlogit 、 ologit36ppt课件