《社会统计分析方法（第二版）》课件第七章泊松回归.pptx_163文库

资源描述

1、第七章泊松回归数风流人物，还靠泊松回归|协和八 https:/ 社会和行为科学研究中，经常会遇到一类特殊的变量。比如，成年人一生中结婚的次数、大学本科生就读期间谈恋爱的次数、育龄妇女生育的孩子数、过去半年上医院看病的次数、一个社区过去一年发生的盗窃案件数、城市道路十字路口在过去一周内出现的交通事故数、一个国家出现大规模工人罢工的次数。此类变量还有很多，统计学上将其称作计数变量。它们有一个共同的特征：所测量的是一定时间或空间内某个事件出现的次数。因此，计数变量只能取离散的非负数值，即，而且实际情形中，取值的个数往往是有限的。一、常规回归不适用于计数因变量对于计数因变量，通常的做法是将其作为取

2、值连续的间距变量对待，采用常规最小二乘法进行模型估计。但是，任何统计方法都有其内在假定和所要求的数据条件。这些假定和数据要求主要是针对因变量而言的，而针对自变量的假定和要求往往很少。常规最小二乘回归亦是如此。所以，将计数自变量视为间距变量直接纳入线性回归几乎不会有任何太大的问题。但有一点值得提醒。计数变量的取值往往限于若干非负的整数值，取值范围很窄，计数自变量本身的变异很小，这意味着其方差可能会很小，那么将其纳入线性回归用常规最小二乘法估计的系数将会很不稳定和具有较大的标准误。但是，当计数变量作为因变量时，采用常规最小二乘回归进行分析就可能会出现更为严重的问题。（一）导致有偏且无效的统计检验（

3、二）线性函数的不合理性首先，因为并没有对自变量犡的取值范围加以限定，对回归系数犅犽和误差项同样也没有加以限定，那么，基于回归得到的因变量预测值理论上就可以是任意值，包括负数。但是，计数变量的取值只能为非负的整数。可见，若采用常规最小二乘回归来分析计数因变量，由于设定的是一种线性函数关系，那么，随着自变量取值的变化，可能会得到没有意义的回归预测值。其次，因为所设定的关系是线性函数，故意味着在一定时间或空间范围内事件发生次数为和之间的差别与和次之间的差别是一样的，也就意味着自变量犡的边际影响是固定不变的。但是，对于计数因变量而言，这个内在隐含的假定往往并不符合实际。真实的关系往往是非线性的，而线

4、性关系在大多数情况下甚至都不能作为一个合理的工作假定。二、泊松分布单变量泊松分布是理解计数回归模型的基础。因此，有必要先认识一下泊松分布。泊松分布的发现者是法国数学家泊松。泊松最初从贝努里提出的二项分布基础上近似推导出这种分布，因此该分布以他的名字命名为泊松分布。设为一定时间或空间内某事件的期望发生次数。同时，设是一个随机变量，其取值表明观测到的事件发生次数。有时候，事件发生的观测次数会小于期望发生次数，或者甚至根本没有发生，而其他时候其观测发生次数往往会大于期望次数。三、泊松回归当观测案例很多时，通过允许每一观测案例具有不同期望事件发生次数，便可将泊松分布扩展成泊松回归。四、模型

5、的参数估计五、模型拟合评价与模型比较所谓模型拟合评价指的是评估回归模型对观测数据的拟合优度（goodness of fit）如何，也就是观测值与拟合值之间的差别如何。完整的拟合评价实际上应包括两个方面的内容：一方面是针对单个观测案例犻的拟合程度的分析，属于案例别拟合度考察；另一方面则是将回归模型作为一个整体来进行数据拟合程度的分析，属于模型整体拟合度考察。（一）以残差为基础的指标（二）以似然函数值为基础的指标（三）以信息标准为基础的指标还有一类评估泊松回归模型拟合度的指标是以信息标准为基础建构的。这类指标可用来比较不同模型对观测数据拟合的优劣。而且，与上面提到的偏差度统计量只能用于对存在嵌

6、套关系的模型进行比较不同，以信息标准为基础的指标可对任意一对模型之间的拟合优度进行比较，只要是针对同一因变量进行分析，而并不要求模型之间存在嵌套关系。六、模型回归系数的解释解释和理解泊松回归系数有多种不同的方式。采用何种方式取决于研究者究竟是对计数变量的期望值还是对计数取值的分布感兴趣。如果对期望值感兴趣的话，有多种方法可以用于计算某个自变量一定程度的变化量所带来的计数变量期望值的变化。这种变化既可以用期望值的倍数变化来表达，也可以用百分比变化来表达，甚至还可以用期望值的边际变化来表达。其中，最常用的解释方法是计算倍数变化。因为这一解释方法非常直观，也容易理解。如果对计数的分布或者某个具体计

7、数值的概率感兴趣，则可以计算出给定某个自变量取值水平处某个计数的概率。（一）关注条件均值的解释第一种，倍数变化第二种，百分比变化第三种，边际变化（二）关注预测概率的解释七、统计检验与推断前面已经介绍过有关参数解释的内容，我们已经知道如何解释和说明回归参数估计值所代表的具体含义，即自变量与计数因变量之间的关系。不过，到现在为止，仍然是就样本说样本，对于随机样本所对应的总体而言，仍然无法判断参数估计值所反映的自变量与因变量之间的关系在相应总体中是否存在。而社会和行为科学研究的目的往往是通过考察抽样样本来推知研究总体，或者，基于小规模样本得到针对更大规模总体的一般性结论。为了实现此目的，常用

8、的方式是对参数估计值进行正规的统计检验，用以考察样本数据中发现的自变量与因变量之间的关系应该是源于抽样误差还是总体中也确实存在，从而完成以样本结果推断总体的任务。（一）对模型整体的检验泊松回归模型整体检验关注的是基于样本数据所确立的自变量与因变量之间的关系在总体中是否真实存在，或者说所设定的模型在总体中是否也对计数因变量的变异具有解释力。由于并不存在一个诸如多元线性回归中的那样的模型整体拟合指标，故与回归中一样，泊松回归中也是通过对数似然函数值的比较来进行模型整体检验的。（二）对回归系数的检验对回归系数的检验可区分为两种情形，一种是针对单个回归系数的检验，另一种是对回归系数子集的联合假设

9、检验。前面回归中也曾介绍过这两种情形的回归系数检验。八、示范例题本章例题所用数据取自年“全国计划生育生殖健康调查”。该调查由原国家计划生育委员会于年月实施，旨在回顾年之前若干年全国育龄妇女（即调查时岁的妇女）的生育水平，掌握当时育龄人口的避孕情况和生殖健康现状及需求，了解基层计划生育技术服务机构的情况。调查内容涉及社区及人口的基本情况（出生年月、民族、受教育程度、婚姻状况、初婚年月等）、育龄妇女的生育、避孕、生殖保健情况等。但这里只涉及育龄妇女个体数据，以示范以进行泊松回归中的有关操作。（一）例：居住地区与年龄对育龄妇女曾生子女数的影响 1查看模型选择、案例选取、缺失值处理等方面处理是否得当

10、 2模型拟合与检验的相关信息 3回归参数估计值、标准误及对应的显著性检验结果等（二）例：检查纳入地区与年龄交互项的必要性上面的例子中，只考虑了地区和年龄变量的主效应。但是，考虑到不同地区的育龄妇女在年龄结构上可能不一样，那么探究是否需要纳入地区与年龄变量的交互项就变得有意义。（三）例：偏移量offset的设定以上两例分析中均忽略了不同年龄育龄妇女的暴露期不同的事实，即同样是曾生过个子女的妇女，如果从岁算起，有的经历年的育龄期，有的则经历了年的育龄期。为了考虑这种差别，我们将每个妇女育龄期的自然对数作为偏移量对曾生子女数进行泊松回归。（四）例：以泊松回归估计生育率前面讲到，通过对模型进行适

11、当设定，主要是考虑不同观测案例犻的风险期或暴露量狋犻的影响，泊松回归还可用来对人口学、流行病学中关注的生育率、死亡率、迁移率、患病率等便利地进行统计分析。郭志刚和巫锡炜（）曾介绍过如何基于人年数据应用泊松回归来拟合估计年龄别生育率。（五）例：以泊松回归估计城乡生育率上面的举例只是针对年全国的情况。但是，因为政策和社会经济发展水平上的差异，导致城乡育龄妇女之间在生育水平上存在明显的差别。那么，我们如何以泊松回归估计出城镇和乡村的年龄别生育率呢？为此，我们只需在例估计年全国年龄别生育率的模型设定基础上，再将城乡变量纳入模型即可，即拟合一个包含和两个自变量的泊松回归模型。（六）例：以含交互项的泊松

12、回归估计城乡生育率（七）例：以泊松回归估计队列生育率由于生育史信息被改造成了人年数据，其中又包含妇女出生年份变量（即图中的），所以，这份数据就包含了出生队列、时期和年龄三方面的信息。因此，除了方便地估计上述时期生育率之外，基于泊松回归还可以非常方便地估计队列的累积生育率。对于岁至岁生育率均完整的队列，就得到了终身生育率。与前面估计城乡生育率的情形类似，估计队列生育率也就是将生育率表达成年龄（）与队列（）两个变量的函数。下面将以估计年、年和年三个出生队列育龄妇女的队列生育率做示例。基本概念计数变量等离散计数回归模型泊松分布风险期暴露量成比例假定偏移量对数率模型拟合优度残差

13、分析皮尔逊卡方统计量截距模型当前模型饱和模型偏差度赤池信息标准贝叶斯信息标准倍数变化发生率之比百分比变化边际变化似然比完全模型简化模型标化偏差度标化皮尔逊卡方本章要点计数变量是社会和行为科学研究中经常会遇到的一类变量，它的取值往往为有限个非负整数值，表示所关注事件在特定时间或空间范围内的发生次数。分析计数因变量时不适宜应用常规线性回归方法，通常采用的统计模型是泊松回归，它假定因变量服从泊松分布，并将期望计数的对数表达为一组自变量的函数。对于泊松回归，回归系数的解释有不同的形式：倍数变化、百分比变化和边际变化。通过恰当的设定，泊松回归可方便地用来对生育率、死亡率、迁移率、患病率等人口学、公共卫生、流行病学关心的率指标进行估计和统计分析。参考文献郭志刚，巫锡炜泊松回归在生育率研究中的应用中国人口科学，（）巫锡炜中国步入低生育率：北京：社会科学文献出版社，

展开阅读全文

《社会统计分析方法（第二版）》课件第七章 泊松回归.pptx

《社会统计分析方法（第二版）》课件第七章泊松回归.pptx