1、第六章 LOGISTIC回归知识链接 逻辑斯蒂(logistic)回归深入理解、阐述与实现 https:/ 线性回归分析在社会科学中已经得到广泛应用,成为标准的统计工具。作为多元分析,它能够纳入多个自变量,对社会现象提供较深入的解释力。同时,它的计算机软件现在已广为可得,它的统计结果又可以比较直观地得到解释。线性回归的确具有许多良好的统计性质,甚至在应用中的一些必要的假设条件不能完全满足时,它也仍然可以得到不失为合理的结果。二、从线性回归到logistic回归 根据实际研究的需要而不断对线性回归进行改造和发展促使了logistic回归的产生。线性回归不适用于因变量为定性变量的场合,本节通过这一
2、发展过程来介绍logistic回归克服了线性回归的缺陷,以服务于对定性因变量的多元分析。同时,也介绍了logistic回归的一般原理及其具有的性质。多元线性回归不能应用于定性因变量分析,主要是由于以下两个主要方面。(一)线性回归使用定性因变量严重违反本身假定 首先,线性回归属于一般最小二乘法一族的统计分析。这种方法通常要求变量,尤其是因变量,在间距测度等级以上,也就是平常所说的连续变量。它还要求自变量之间不能完全相关,这是回归能够求解的前提。此外,它还需要一系列其他假定条件,其中特别是关于误差项犲的假定。(二)线性概率模型及其问题 当因变量只能取值和,并作为事件发生与不发生两种情况来理解时,和
3、都是线性概率模型。“线性”指模型中假设自变量对因变量的作用是线性的;“概率”则是指将模型的因变量估计值理解为发生概率,根据观测数据中事件发生和不发生的案例数量来估计。这样一来,回归模型就是在分析当自变量变化时概率p是如何变化的。这时,解释不同自变量值所产生的因变量估计却存在很大问题。三、logistic回归模型的建立 上一节说明,如果我们错误地认定模型是线性的,那么在线性假设下导出的统计性质一般来说不能成立。其次,还有许多原因导致假设概率与自变量为线性关系在很多场合并不实用。以非线性概率模型来代替线性概率模型能够解决这些问题。(一)logistic函数及其性质(二)logistic回归模型因变
4、量的不同形式四、logistic回归系数的意义 由于logistic回归中的因变量本来是表示事件发生或不发生的虚拟变量(即、编码),只代表结果上的不同类别,不具备尺度信息,因此logistic回归系数也就不具有确定尺度信息。也就是说,logistic回归系数提供的是自变量影响的相对幅度,而不是绝对幅度。logistic回归系数的理解和阐释可以从下面两个方面来进行。(一)以logit(p)方程的线性表达式来解释回归系数 方程(p)bx与一般的多元线性回归方程在形式上相同,是线性表达式。方程右侧各项自变量的作用体现在回归系数犫犻上。各自变量的总影响是由常数项与各项自变量及相应偏回归系数之积的迭加形
5、成的。这种形式使得我们能够以类似常规多元线性回归方程的形式来理解和阐释它。(二)以发生比的指数表达式来解释回归系数 与(p)不同,发生比具有一定的实际意义,它代表一种相对风险。这一概念在博弈时使用较多。因此,对logistic回归系数的解释通常是从以发生比的指数表达式出发的。(三)几种特殊情况的讨论 自变量为虚拟变量 交互效应的分析 非线性关系的分析(四)标准化的logistic回归系数 与常规回归类似,由于自变量所取单位不同,非标准化的logistic回归系数不能用于比较各自变量相对作用,只有经过标准化后的logistic回归系数才能用来进行自变量之间的比较。但是,标准化的logistic回
6、归系数的计算方法与常规回归中标准化系数的计算方法不同,并且存在几种不同口径。五、logistic模型的整体评价和检验(一)对于整体模型的评价 人们希望了解logistic回归模型的拟合情况或解释能力,统计学家也提出了许多伪确定系指标作为近似量度。这些伪确定系数的建构思路基本一致,都是根据模型拟合的似然函数值来反映拟合情况。(二)对于整体模型的检验 我们在评价或检验一个含有自变量的logistic回归模型时,通常是将其与截距模型相比较,两者构成嵌套模型。所谓截距模型,就是将所有自变量删除后只剩一个截距系数的模型。以截距模型作为标准,检查加入其他自变量后的模型在数据拟合水平上是否显著提高。换句话说
7、,就是检查解释变量是否像模型假设的那样真的能解释因变量。六、logistic模型回归系数的统计检验(一)回归系数的检验 软件在执行logistic回归时除报告回归系数b(标为)的估计值以外,还自动报告相关统计检验量,如标准误、统计量、自由度、显著度和回归系数的幂值(二)系数子集的联合假设检验 在很多情况下,研究兴趣旨在由多个变量组成的自变量组而又不是全体系数的重要性和显著性。比如,在logistic回归方程中有个自变量,其中变量x、x是调查对象的人口学特征,而变量x、x、x为调查对象的各种社会经济特征。检验可以用来检验各种社会经济特征对y的作用差别。然而,这种检验是个别方面的检验,没能提供对于
8、社会经济方面联合作用的适当检验。此外,也许这三个系数单独并不与狔有显著联系,但是这并不意味着三个变量一起对狔也没有显著作用。实际上,前面我们已经提到过这种变量组()的联合检验。七、logistic回归示范例题(一)自变量同时纳入模型进行回归(二)含交互作用的回归(三)自变量组分步纳入的回归(四)自动筛选显著自变量的回归 有时研究者想从多个自变量中筛选出解释能力最强的部分。的logistic回归提供了多种自动筛选最佳自变量的功能。不过,除了探索性分析,我们并不提倡此类数据驱动的分析。决定是否纳入某些变量,研究者应该有一定的理论和经验依据。当样本规模无力检验更多自变量时,可以考虑仅将最显著的控制变
9、量留下,而研究变量在自动筛选中无论显著与否都应该留下。这时我们可以将研究变量作为强制纳入模型的一个组,而其他控制变量则放在另一个组中,允许程序进行自动筛选。八、logistic回归的扩展之一:多分类logistic回归 上面我们介绍了因变量为二名义变量的logistic回归的原理和方法。实际研究中还会经常遇到多分类的名义变量或序次变量,它们的取值类数大于,各个分类之间没有大小关系,或者即使有大小关系,确切差距也不能确定。前者如通勤方式选择(坐公交、坐地铁、自驾车),工作单位类型(政府部门及事业单位、国有集体企业、外资企业、私营企业);后者如生活满意度评价(很满意、比较满意、一般、比较不满意、非
10、常不满意),或者老年人对自身自理能力的评估(完全能自理、部分能自理、不能自理)等等。(一)多分类logistic回归原理(二)多分类logistic回归示例九、logistic回归的扩展之二:序次logistic回归 多分类logistic回归作为logistic回归的扩展,适用于包含多个分类且各类别之间不存在序次关系的因变量。本节将介绍logistic模型的第二种扩展序次logistic回归,它能为因变量存在多个类别且各类别之间存在序次关系的情况提供更为简洁的估计结果。(一)序次logistic回归原理(二)序次logistic回归示例基本概念 二分变量 线性概率模型 logistic函数
11、发生比 对数发生比 优势比 相对风险比 似然函数值 似然比 嵌套模型 截距模型 完全模型 简化模型 模型系数综合检验 交互 作用 多分类logistic回归 关于无关选项独立假定 主效应模型 全因素模型 序次logistic 回归 累积logit模型 比例发生比模型 门槛 平行回归假定 比例发生比假定 多分类一 般模型 连接函数 位置模型 尺度模型 位置尺度模型本章要点 对logistic模型作为广义线性模型的基本原理进行了介绍。转换是logistic模型突破因变量为分类变量限制的关键,而经过对数化的发生比与自变量之间形成了线性可加关系。转换使得模型系数的解释比一般线性回归中更为复杂。对于发生
12、概率、发生比、优势比等概念的掌握有利于对本章介绍模型的理解。给出了二分类logistic模型的整体检验与拟合优度评价标准,介绍了模型中检验单个自变量影响及自变量组影响的原理和方法。嵌套模型的概念和嵌套比较在logistic模型评价上得到进一步的发挥。对多分类logistic回归的原理进行了介绍,演示了如何在该模型中进行整体检验、整体拟合优度评估,并对模型具体回归参数的解读进行了说明。着重介绍了独立于无关选项假定及其检验。对序次logistic回归模型及其他广义序次模型的原理和操作进行了介绍,对这一模型背后的平行线假定进行了说明。简要介绍了本章各类模型之间的嵌套关系和其他后续拓展。参考文献 王济川,郭志刚logistic回归模型方法与应用,北京:高等教育出版社,丹尼尔鲍威斯,谢宇分类数据分析的统计方法任强等译北京:社会科学文献出版社,刘铮人口学辞典北京:人民出版社,夏传玲,麻凤利子女数对家庭养老功能的影响人口研究,()