1、9.3 9.3 离散计数数据模型离散计数数据模型(Models For Count DataModels For Count Data)一、问题的提出一、问题的提出 二、泊松回归模型二、泊松回归模型 三、泊松回归模型的扩展三、泊松回归模型的扩展一、问题的提出一、问题的提出1 1、经济、社会活动中的计数数据问题、经济、社会活动中的计数数据问题 发生事故次数的影响因素分析发生事故次数的影响因素分析 更换工作次数的影响因素分析更换工作次数的影响因素分析 婚姻问题研究婚姻问题研究2 2、计量模型中的计数数据问题、计量模型中的计数数据问题 通常计数数据模型的形式可以表示如下:通常计数数据模型的形式可以表
2、示如下:,.2,1,0,),(NRXXfNk其中其中N代表被解释变量,通常为正整数,代表被解释变量,通常为正整数,N和和X之之间的关系由经济理论决定。间的关系由经济理论决定。该模型假定,通过调查能够得到一组代表被解释该模型假定,通过调查能够得到一组代表被解释变量的数字(如变量的数字(如0,1,2,3)以及相应的解释)以及相应的解释变量的观察值。变量的观察值。建立模型的目的主要有两点:建立模型的目的主要有两点:检验从数据中可以观察到的行为模式是否与理论预期检验从数据中可以观察到的行为模式是否与理论预期相符;相符;将将N和和X之间的内在联系用数量化的方式表现出来。之间的内在联系用数量化的方式表现出
3、来。从理论上讲,多元线性方程的参数估计方法也可从理论上讲,多元线性方程的参数估计方法也可以被应用来分析计数数据模型问题。以被应用来分析计数数据模型问题。但是很容易发现,但是很容易发现,计数数据中零元素和绝对值较计数数据中零元素和绝对值较小的数据出现得较为频繁,而且离散特征十分明小的数据出现得较为频繁,而且离散特征十分明显,显,利用这些特点,可以找到更合适的估计方法。利用这些特点,可以找到更合适的估计方法。七十年代末以来,许多学者在计数数据模型的处七十年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,包括:理方法方面作出了较大贡献,包括:Gilbert(1979)提出了)提出了泊松
4、回归模型泊松回归模型,Hausman,Hall和和Griliches(1984)提出了负二项回)提出了负二项回归模型和归模型和Panel方法,方法,Gourier,Monfort和和Trogonon(1984)提出了仿最)提出了仿最大似然法。大似然法。其中,最先提出的泊松方法在研究计数数据模型其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。问题中应用得非常广泛。二、泊松回归模型二、泊松回归模型1 1、泊松回归模型、泊松回归模型 泊松回归模型假定,被解释变量泊松回归模型假定,被解释变量yi服从参数为服从参数为 i的的泊松分布,其中泊松分布,其中 i同解释变量同解释变量xi存在某种
5、关系。该存在某种关系。该模型的初始方程为:模型的初始方程为:,.2,1,0,!)(PriiyiiiyyeyYobii 最常用的关于最常用的关于 i的方程是对数线性模型,即的方程是对数线性模型,即.lniixixiiiiiexyVarxyE根据泊松分布的性质.iiiixxyE2 2、泊松回归模型的、泊松回归模型的MLML估计估计 是一个非线性模型,最简单的方法是最大似然估是一个非线性模型,最简单的方法是最大似然估计法。对数似然函数为:计法。对数似然函数为:niiiiiyxyL1.!lnlnniiiixyL10)(ln 可以利用可以利用Newton迭代法迅速地得到方程的参数估迭代法迅速地得到方程的
6、参数估计值。计值。由于对数似然函数的由于对数似然函数的Hessian矩阵对任何矩阵对任何x和和 的的取值是负定的。即取值是负定的。即LnL在稳定点有极大值,稳定在稳定点有极大值,稳定点指满足一阶条件的点指满足一阶条件的。niiiixxLxyH12ln),;(Newton-Raphson迭代迭代:)()(11ttttgHLgln(.)3 3、拟合优度、拟合优度 由于泊松模型的条件均值非线性,且回归方程存由于泊松模型的条件均值非线性,且回归方程存在异方差,所以它不能产生类似于线性方程中的在异方差,所以它不能产生类似于线性方程中的R2统计量。学者提出了若干个替代性的统计量,统计量。学者提出了若干个替
7、代性的统计量,用以衡量该模型的拟合优度。用以衡量该模型的拟合优度。.112212niiniiiipyyyyR该统计量通过把泊松模型同只有一种观察值的模型相比较的方法,考察该模型的拟合优度。但是这个统计量有时为负,而且会随变量的减少而变小。niniiiiiyydG112)/ln(2该统计量为各样本观察值的偏差之和。如果拟合达到完美状态,则该统计量为零。niiiniiiiiidyyyyyyR112)log()()log(1.),(),(),(),(2iiiiidyylyylyylylR分子和分母都衡量了模型在只有一种观察值的模型基础上的改进,分母为改进的最大空间。所以该统计量的数值在0到1之间。.
8、),(),(12iiiLRIyylylR“仿R2”统计量 4 4、假设检验、假设检验 检验解释变量的约束。检验解释变量的约束。可以用三种标准的检验方法来检验泊松回归模型可以用三种标准的检验方法来检验泊松回归模型的假设。的假设。.2122VWWald统计量。其中为2受到限制的解释变量的参数,)var(212asyVniirestrictediPPLR1,ln2LR统计量。分母描述受到限制后的方程的解释变量的似然概率。三个统计量都服从三个统计量都服从2分布,自由度为受限变量的分布,自由度为受限变量的个数。如果统计值大于临界值,则拒绝原假设。个数。如果统计值大于临界值,则拒绝原假设。iGGGGiyx
9、yxxyxLMniiiiniiiiiiinii)()()()(1111215 5、例题、例题 轮船事故次数(轮船事故次数(accidents)与轮船型号()与轮船型号(typea、b、c、d、e)、制造年份()、制造年份(year60、65、70、75)、投入使用年份()、投入使用年份(yearop60、75)和实际)和实际服务时间(服务时间(servmonth)的关系研究。)的关系研究。样本:样本:34注意入注意入选的解选的解释变量释变量部分参数的经济意义缺乏合理解释。只作为试例。ACCIDENTS=EXP(1.645572184*TYPEA+2.353413299*TYPEB+0.4488
10、787812*TYPEC+0.8131627072*TYPED+1.401045748*TYPEE-0.6726004217*YEAR60+0.3731874354*YEAR65+0.7675535312*YEAR70-0.6994767419*YEAROP60+6.388715642e-05*SERVMONTH)用LR统计量进行假设检验0假设为:制造年份对事故次数无影响拒绝0假设010203040506051015202530ACCIDENTSACCIDENTSF预测结果与观测值的比较预测结果与观测值的比较 OLS估计与计数数据估计拟合值的比较估计与计数数据估计拟合值的比较-20020406
11、051015202530ACCIDENTSACCIDENTSFACCIDENTSFLS三、泊松回归模型的扩展三、泊松回归模型的扩展1 1、不平均分布检验(、不平均分布检验(OverdispersionOverdispersion)泊松模型假定被解释变量的均值等于方差,这是泊松模型假定被解释变量的均值等于方差,这是一个非常强的假设,许多学者对此提出质疑,并一个非常强的假设,许多学者对此提出质疑,并且发展了一些新的方法放松这一假设。且发展了一些新的方法放松这一假设。首先介绍该假设条件是否成立的检验。首先介绍该假设条件是否成立的检验。基于回归的检验方法基于回归的检验方法 Cameron和和Trive
12、di在在1990年提出年提出)(:1iiiyEgyEyVarH:0iiyEyVarH2)(2iiiiiyyzi是由泊松模型得出的被解释变量的预测值 拉格朗日乘子检验法拉格朗日乘子检验法 基本思想也是放松泊松模型中均值等于方程的假设。基本思想也是放松泊松模型中均值等于方程的假设。泊松分布是负二项分布的一种特殊情况,当对负二项泊松分布是负二项分布的一种特殊情况,当对负二项分布的某个参数加以一定的限制条件后,就能够得到分布的某个参数加以一定的限制条件后,就能够得到泊松分布。泊松分布。在一般情况下,如果一个模型是在对另一个替代模型在一般情况下,如果一个模型是在对另一个替代模型的参数加以限制的条件下得到
13、的,那么就可以得到的参数加以限制的条件下得到的,那么就可以得到LM统计量。统计量。niiiniiiiiwyywLM122122)(wi的值取决于替代模型的分布函数。对负二项分布模型来说,这个权重为1。2/1)2/()(yeenLM2 2、负二项分布模型(、负二项分布模型(Negative Binomial Negative Binomial Regression ModelRegression Model)由于泊松模型假定被解释变量的均值等于方差,由于泊松模型假定被解释变量的均值等于方差,人们提出了许多替代该模型的方法。其中应用得人们提出了许多替代该模型的方法。其中应用得较多的是负二项分布模型
14、。较多的是负二项分布模型。Cameron和和Trivedi在在1986年提出负二项分布的年提出负二项分布的一种形式。一种形式。,logloglogiiiiiuxy引入无法观察的随机影响来使泊松模型一般化.lniix.!)()(iyiiuiiyueuyfiii.)(!)()(0iiiyiiuiiduugyuexyfiii被解释变量的条件分布 被解释变量的分布.)()(1iuiueugi)exp(iiu1)exp(iE 该分布是负二项分布的一种形式。该分布是负二项分布的一种形式。其条件均值为其条件均值为i,条件方差为,条件方差为i(1+1/)i)。由概率密度可以求得最大似然函数,再通过迭代法求出参
15、由概率密度可以求得最大似然函数,再通过迭代法求出参数估计。数估计。对于负二项分布假设可以用对于负二项分布假设可以用Wald或者或者LR统计量进行检验。统计量进行检验。iiuiyiiuiiduueyuexyfiiii10)(!)()(,)1()()1()(iiiiyiiirwhererryyi负二项分布回归模型负二项分布回归模型ACCIDENTS=EXP(1.520444133*TYPEA+2.270100317*TYPEB+0.4581374106*TYPEC+0.6449816375*TYPED+1.358883951*TYPEE-0.8616385402*YEAR60+0.20323893
16、61*YEAR65+0.9661619692*YEAR70-0.7020010667*YEAROP60+7.402025976e-05*SERVMONTH)02040608051015202530ACCIDENTSACCIDENTSFN02040608051015202530ACCIDENTSACCIDENTSFACCIDENTSFN拟合效果没有明显改善3 3、零变换泊松模型(、零变换泊松模型(Hurdle and Zero-Hurdle and Zero-Altered Possion ModelsAltered Possion Models)在某些情况下,被解释变量为零值的产生过程与在某些
17、情况下,被解释变量为零值的产生过程与它取正值的过程差异很大。于是就有人提出了零它取正值的过程差异很大。于是就有人提出了零变换泊松模型来描述这个事实。变换泊松模型来描述这个事实。Mullahey(1986)最先提出了一个最先提出了一个Hurdle模型,用模型,用白努利分布来描述被解释变量分别为零值和正值白努利分布来描述被解释变量分别为零值和正值的概率。的概率。eyobi)0(Pr,.2,1)1(!)1()(Prjejeejyobiijii改变了被解释变量取零值的概率,但是所有取值的概率之和保持为一 Mullahey(1986),Lambert(1992)等人还分析了等人还分析了在在hurdle模
18、型的一种扩展情况,即假定被解释变模型的一种扩展情况,即假定被解释变量的零值产生于两个区域(量的零值产生于两个区域(regime)中的一个。)中的一个。在一个区域里,被解释变量总是零,而另一个区在一个区域里,被解释变量总是零,而另一个区域里,被解释变量的取值符合泊松过程,既可能域里,被解释变量的取值符合泊松过程,既可能产生零,也可能产生其他数值。产生零,也可能产生其他数值。如如Lambert对给定时间段内生产的次品数量建立对给定时间段内生产的次品数量建立的模型,在生产过程得到控制的情形下,次品产的模型,在生产过程得到控制的情形下,次品产出为零,而生产过程不受控制时,产生的次品数出为零,而生产过程
19、不受控制时,产生的次品数量服从泊松分布,既可能为零,也可能不为零。量服从泊松分布,既可能为零,也可能不为零。模型形式如下:模型形式如下:如果用如果用z表示白努利分布的两种情况,事件发生在区域表示白努利分布的两种情况,事件发生在区域1时令时令z=0,发生在区域,发生在区域2时令时令z=1,并用,并用y*表示区域表示区域2内被解释变内被解释变量服从的泊松过程,则所有观察值都可以表示为量服从的泊松过程,则所有观察值都可以表示为z y*。于是这个分离模型可表示为(式中于是这个分离模型可表示为(式中F为设定的分布函数):为设定的分布函数):,2Pr20Pr 1Pr0Prregimeobregimeyob
20、regimeobyobii.2,1,2Pr2PrPrjregimeobregimejyobjyobii),(0PriiwFzob!)1(Prjezjyobjiiii0)1(0iiiyyEFFyE.1)1(ieFi Lambert(1992)和)和Greene(1994)考虑了许)考虑了许多方法,其中包括应用多方法,其中包括应用logit和和probit模型描述两模型描述两个区域各自的发生概率。个区域各自的发生概率。这些修正的方法都改变了泊松过程,即均值和方这些修正的方法都改变了泊松过程,即均值和方差不再相等。差不再相等。关于分离模型的进一步探讨比较复杂,请同学们关于分离模型的进一步探讨比较复杂,请同学们自行参考自行参考Greene的教科书和相关文献。的教科书和相关文献。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。