1、第五讲第五讲 微观计量经济学模型微观计量经济学模型Microeconometric Models本讲内容本讲内容1 1 二元离散选择模型二元离散选择模型2 2 多元离散选择模型多元离散选择模型3 3 计数数据模型计数数据模型4 4 选择性样本模型选择性样本模型5 5 持续时间数据模型持续时间数据模型1 1 离散被解释变量数据计量经济学模型离散被解释变量数据计量经济学模型二元选择模型二元选择模型 Models with Discrete Dependent VariablesBinary Choice Model一、二元离散选择模型的经济背景一、二元离散选择模型的经济背景 二、二元离散选择模型二
2、、二元离散选择模型 三、二元三、二元ProbitProbit离散选择模型及其参数估计离散选择模型及其参数估计 四、二元四、二元LogitLogit离散选择模型及其参数估计离散选择模型及其参数估计 离散选择模型起源于离散选择模型起源于FechnerFechner于于18601860年进行的动物年进行的动物条件二元反射研究。条件二元反射研究。19621962年,年,WarnerWarner首次将它应用于经济研究领域,首次将它应用于经济研究领域,用以研究公共交通工具和私人交通工具的选择问用以研究公共交通工具和私人交通工具的选择问题。题。7070、8080年代,离散选择模型被普遍应用于经济布年代,离散
3、选择模型被普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。等经济决策领域的研究。模型的估计方法主要发展于模型的估计方法主要发展于8080年代初期。年代初期。一、二元离散选择模型的经济背景一、二元离散选择模型的经济背景实际经济生活中的二元选择问题实际经济生活中的二元选择问题 研究选择结果与影响因素之间的关系。研究选择结果与影响因素之间的关系。影响因素包括两部分:影响因素包括两部分:决策者的属性决策者的属性和和备选方案备选方案的属性的属性。对于单个方案的取舍。例如,购买者对某种商品对于单个方案的取舍。例如,购买者对某种商品的
4、购买决策问题的购买决策问题 ,求职者对某种职业的选择问题,求职者对某种职业的选择问题,投票人对某候选人的投票决策,银行对某客户的投票人对某候选人的投票决策,银行对某客户的贷款决策。由贷款决策。由决策者的属性决定。决策者的属性决定。对于两个方案的选择。例如,两种出行方式的选对于两个方案的选择。例如,两种出行方式的选择,两种商品的选择。由择,两种商品的选择。由决策者的属性决策者的属性和和备选方备选方案的属性共同决定。案的属性共同决定。二、二元离散选择模型二、二元离散选择模型1 1、原始模型、原始模型 对于二元选择问题,可以建立如下计量经济学模对于二元选择问题,可以建立如下计量经济学模型。其中型。其
5、中Y为观测值为为观测值为1和和0的决策被解释变量;的决策被解释变量;X为解释变量,包括选择对象所具有的属性和选择为解释变量,包括选择对象所具有的属性和选择主体所具有的属性。主体所具有的属性。YXyiXii0)(iEiX)(iyEiiiipyPyPyE)0(0)1(1)(E yP yii()()1Xi)0(1)1(iiiiyPpyPp左右端矛盾左右端矛盾 由于存在这两方面的问题,所以原始模型不能作由于存在这两方面的问题,所以原始模型不能作为实际研究二元选择问题的模型。为实际研究二元选择问题的模型。需要将原始模型变换为效用模型。需要将原始模型变换为效用模型。这是离散选择模型的关键。这是离散选择模型
6、的关键。iiiyy1101XXXXiiii当,其概率为当,其概率为具有异具有异方差性方差性 2 2、效用模型、效用模型 作为研究对象的二元选择模型作为研究对象的二元选择模型Uiii11X1Uiii000X UUiiiii1010X10()()yii*Xi第第i个个体个个体 选择选择1的效用的效用第第i个个体个个体 选择选择0的效用的效用P yP yPiii()()()*10Xi 注意,在模型中,效用是不可观测的,人们能够注意,在模型中,效用是不可观测的,人们能够得到的观测值仍然是选择结果,即得到的观测值仍然是选择结果,即1和和0。很显然,如果不可观测的很显然,如果不可观测的U1U0,即对应于观
7、测,即对应于观测值为值为1,因为该个体选择公共交通工具的效用大,因为该个体选择公共交通工具的效用大于选择私人交通工具的效用,他当然要选择公共于选择私人交通工具的效用,他当然要选择公共交通工具;交通工具;相反,如果不可观测的相反,如果不可观测的U1U0,即对应于观测值,即对应于观测值为为0,因为该个体选择公共交通工具的效用小于,因为该个体选择公共交通工具的效用小于选择私人交通工具的效用,他当然要选择私人交选择私人交通工具的效用,他当然要选择私人交通工具。通工具。3 3、最大似然估计最大似然估计 欲使得效用模型可以估计,就必须为随机误差项欲使得效用模型可以估计,就必须为随机误差项选择一种特定的概率
8、分布。选择一种特定的概率分布。两种最常用的分布是标准正态分布和逻辑两种最常用的分布是标准正态分布和逻辑(logistic)分布,于是形成了两种最常用的二元)分布,于是形成了两种最常用的二元选择模型选择模型Probit模型模型和和Logit模型模型。最大似然函数及其估计过程如下:最大似然函数及其估计过程如下:FtF t()()1P yP yPPFFiiii()()()()()()*1011XXXXiiiiP yyyFFnyyii(,)()()12011XXiiLFFin()()XXiyi1yii11标准正态分布或逻标准正态分布或逻辑分布的对称性辑分布的对称性似然函数ln(ln()()ln()Ly
9、FyFiiinXXii111ln()()Ly fFyfFiiiiiiin111X0i 在样本数据的支持下,如果知道概率分布函数在样本数据的支持下,如果知道概率分布函数和概率密度函数,求解该方程组,可以得到模和概率密度函数,求解该方程组,可以得到模型参数估计量。型参数估计量。1阶极值条件三、二元三、二元ProbitProbit离散选择模型及其参数离散选择模型及其参数估计估计1 1、标准正态分布的概率分布函数、标准正态分布的概率分布函数 F txdxt()()exp()22122f xx()()exp()221222 2、重复观测值不可以得到情况下二元、重复观测值不可以得到情况下二元ProbitP
10、robit离散选择模型的参数估计离散选择模型的参数估计 ln()()LfFfFq f qF qiiyiiiyiiiiiiniinii10111XXXXXX0iiiqyii21 关于参数的非线性函数,不能直接求解,需采用关于参数的非线性函数,不能直接求解,需采用完全信息最大似然法中所采用的迭代方法。完全信息最大似然法中所采用的迭代方法。应用计量经济学软件。应用计量经济学软件。这里所谓这里所谓“重复观测值不可以得到重复观测值不可以得到”,是指对每,是指对每个决策者只有一个观测值。如果有多个观测值,个决策者只有一个观测值。如果有多个观测值,也将其看成为多个不同的决策者。也将其看成为多个不同的决策者。
11、例例 贷款决策模型贷款决策模型 分析与建模:分析与建模:某商业银行从历史贷款客户中随机某商业银行从历史贷款客户中随机抽取抽取78个样本,根据设计的指标体系分别计算它个样本,根据设计的指标体系分别计算它们的们的“商业信用支持度商业信用支持度”(CC)和)和“市场竞争地市场竞争地位等级位等级”(CM),对它们贷款的结果(),对它们贷款的结果(JG)采)采用二元离散变量,用二元离散变量,1表示贷款成功,表示贷款成功,0表示贷款失表示贷款失败。目的是研究败。目的是研究JG与与CC、CM之间的关系,并为之间的关系,并为正确贷款决策提供支持。正确贷款决策提供支持。样样本本观观测测值值CC=XYCM=SC该
12、方程表示该方程表示,当,当CC和和CM已知时,代入方程,可以计算贷款成已知时,代入方程,可以计算贷款成功的概率功的概率JGF。例如,将表中第。例如,将表中第19个样本观测值个样本观测值CC=15、CM=1代入方程右边,计算括号内的值为代入方程右边,计算括号内的值为0.1326552;查标准正态;查标准正态分布表,对应于分布表,对应于0.1326552的累积正态分布为的累积正态分布为0.5517;于是,;于是,JG的预测值的预测值JGF=10.5517=0.4483,即对应于该客户,贷款,即对应于该客户,贷款成功的概率为成功的概率为0.4483。输出的估计结果模拟预测 预测:预测:如果有一个新客
13、户,根据客户资料,计算如果有一个新客户,根据客户资料,计算的的“商业信用支持度商业信用支持度”(XY)和)和“市场竞争地位市场竞争地位等级等级”(SC),代入模型,就可以得到贷款成功),代入模型,就可以得到贷款成功的概率,以此决定是否给予贷款。的概率,以此决定是否给予贷款。3 3、重复观测值可以得到情况下二元、重复观测值可以得到情况下二元ProbitProbit离离散选择模型的参数估计散选择模型的参数估计 思路思路 对每个决策者有多个重复(例如对每个决策者有多个重复(例如10次左右)观测值。次左右)观测值。对第对第i个决策者重复观测个决策者重复观测ni次,选择次,选择yi=1的次数比例为的次数
14、比例为pi,那么可以将那么可以将pi作为真实概率作为真实概率Pi的一个估计量。的一个估计量。建立建立“概率单位模型概率单位模型”,采用广义最小二乘法估计,采用广义最小二乘法估计。实际中并不常用。实际中并不常用。对第对第i个决策者重复观测个决策者重复观测n次,选择次,选择yi=1的次数比例为的次数比例为pi,那么可以将那么可以将pi作为真实概率作为真实概率Pi的一个估计量。的一个估计量。pPeFeiiii()XiE eVar eppniiiii()()()01vFpFPeiiii11()()FPeFPef FPiiiii111()()()vFPuiii1()E uVar uPPnfFPiiiii
15、i()()()()0112定义“观测到的”概率单位 V的观测值通过求解标准正态分布的概率分布函数的反函数的观测值通过求解标准正态分布的概率分布函数的反函数得到得到 vuiiXVXUiFPi1()Xi()XXXV111iiFP)(iXptdtivi()exp()22122实际观测得到的 四、二元四、二元LogitLogit离散选择模型及其参数离散选择模型及其参数估计估计1 1、逻辑分布的概率分布函数、逻辑分布的概率分布函数 F tet()11f teett()()12F teettt()()1f teetttt()()()()112.00.05.10.15.20.25.3051015202530
16、3540F0.00.20.40.60.81.0510152025303540DFBrsch-SupanBrsch-Supan于于19871987年指出年指出:如果选择是按照效用最大化而进行的,具有极限如果选择是按照效用最大化而进行的,具有极限值的逻辑分布是较好的选择,这种情况下的二元值的逻辑分布是较好的选择,这种情况下的二元选择模型应该采用选择模型应该采用Logit模型。模型。2 2、重复观测值不可以得到情况下二元、重复观测值不可以得到情况下二元logitlogit离散选择模型的参数估计离散选择模型的参数估计 关于参数的非线性函数,不能直接求解,需采用关于参数的非线性函数,不能直接求解,需采用
17、完全信息最大似然法中所采用的迭代方法。完全信息最大似然法中所采用的迭代方法。应用计量经济学软件。应用计量经济学软件。ln()()()Ly fFyfFyiiiiiiiniin1111XXX0iiiProbit0.9999991.0000000.4472330.0000003 3、重复观测值可以得到情况下二元、重复观测值可以得到情况下二元logitlogit离离散选择模型的参数估计散选择模型的参数估计 思路思路 对每个决策者有多个重复(例如对每个决策者有多个重复(例如10次左右)观测值。次左右)观测值。对第对第i个决策者重复观测个决策者重复观测ni次,选择次,选择yi=1的次数比例为的次数比例为p
18、i,那么可以将那么可以将pi作为真实概率作为真实概率Pi的一个估计量。的一个估计量。建立建立“对数成败比例模型对数成败比例模型”,采用广义最小二乘法估,采用广义最小二乘法估计计。实际中并不常用。实际中并不常用。用样本重复观测得到的用样本重复观测得到的pi构成构成“成败比例成败比例”,取对数并进,取对数并进行台劳展开,有行台劳展开,有 ln()ln()()ppPPePPiiiiiii111F tet()11F tF tet()()1 iXePPii1ln()ln()ppeuuiiiiii1XXvuiiXVXUi()XXXV111逻辑分布的概率分布函数 2 2 离散被解释变量数据计量经济学模型离散
19、被解释变量数据计量经济学模型 多元选择模型多元选择模型 Models with Discrete Dependent VariablesMultiple Choice Model一、多元离散选择模型的经济背景一、多元离散选择模型的经济背景 二、一般多元离散选择二、一般多元离散选择LogitLogit模型模型三、嵌套多元离散选择模型三、嵌套多元离散选择模型四、排序多元离散选择模型四、排序多元离散选择模型一、多元离散选择模型的经济背景一、多元离散选择模型的经济背景1、经济生活中的多元选择问题、经济生活中的多元选择问题 一般的多元选择问题一般的多元选择问题 排序选择问题排序选择问题 将选择对象按照某
20、个准则排队,由决策者从中将选择对象按照某个准则排队,由决策者从中选择选择。决策者对同一个选择对象的偏好程度。决策者对同一个选择对象的偏好程度。嵌套选择问题嵌套选择问题2、社会生活中的多元选择问题、社会生活中的多元选择问题 一般的多元选择问题一般的多元选择问题 出行方式选择、职业选择、无预算约束的购买选择、出行方式选择、职业选择、无预算约束的购买选择、无约束的迁移选择无约束的迁移选择 排序选择问题排序选择问题 有预算约束的购买选择、有约束的迁移选择有预算约束的购买选择、有约束的迁移选择 嵌套选择问题嵌套选择问题 家电购买选择、选举问题家电购买选择、选举问题二、一般多元离散选择二、一般多元离散选择
21、LogitLogit模型模型说明说明 在多元离散选择模型中,因为在多元离散选择模型中,因为ProbitProbit模型需要对模型需要对多元正态分布的整体进行评价,所以它的应用受多元正态分布的整体进行评价,所以它的应用受到限制。到限制。逻辑分布更适合于效用最大化时的分布选择,所逻辑分布更适合于效用最大化时的分布选择,所以应用最多的多元离散选择模型是以应用最多的多元离散选择模型是LogitLogit模型。模型。LogitLogit模型的似然函数能够快速可靠地收敛,当方模型的似然函数能够快速可靠地收敛,当方案或者决策个体数量较大时,计算比较简便。案或者决策个体数量较大时,计算比较简便。一般多元选择一
22、般多元选择LogitLogit模型的思路模型的思路 如果决策者如果决策者i在(在(J+1)项可供选择方案中选择了)项可供选择方案中选择了第第j项,那么其效用模型为:项,那么其效用模型为:UijXijijP UUkJkjijik(),01 2 P yjeeijJ()XXijij0如果(J+1)个随机误差项互不相关,并且服从类极值分布 Feijij()选择j的概率 效用模型的解释变量中包括所有影响选择的因素,效用模型的解释变量中包括所有影响选择的因素,既包括决策者所具有的属性,也包括备选方案所既包括决策者所具有的属性,也包括备选方案所具有的属性。具有的属性。备选方案所具有的属性是随着方案的变化而变
23、化备选方案所具有的属性是随着方案的变化而变化的。的。决策者所具有的属性中一部分是随着方案的变化决策者所具有的属性中一部分是随着方案的变化而变化的,而一部分是不随着方案的变化而变化而变化的,而一部分是不随着方案的变化而变化的。的。用用Zij表示随着方案的变化而变化的那部分解释变表示随着方案的变化而变化的那部分解释变量,量,Wi表示不随着方案的变化而变化的那部分解表示不随着方案的变化而变化的那部分解释变量。释变量。P yjeeeeeeijJjJ()ZWZWZWZWijiijiijiiji00P yjeeeeeeijJjJ()ZWWZZZijiiijijij00 实用的一般多元实用的一般多元Logi
24、t选择模型又分选择模型又分3种情况。种情况。一是研究选择某种方案的概率与决策者的特征变一是研究选择某种方案的概率与决策者的特征变量之间的关系;量之间的关系;二是研究选择某种方案的概率与决策者的特征变二是研究选择某种方案的概率与决策者的特征变量以及方案的特征变量之间的关系;量以及方案的特征变量之间的关系;三是考虑到不同方案之间的相关性的情况。三是考虑到不同方案之间的相关性的情况。Multinomial Logit Model多项式多项式Logit模型模型名义名义Logit模型模型Conditional Logit Model 条件条件Logit模型模型 Nested Logit模型模型嵌套模型嵌
25、套模型 多元名义多元名义LogitLogit离散选择模型及其参数估计离散选择模型及其参数估计 P yjeeijJjj()XXii0X中未包含备选方案所具有的中未包含备选方案所具有的属性变量,而参数向量属性变量,而参数向量B对不对不同的选择方案(即不同的方程)同的选择方案(即不同的方程)是不同的。是不同的。P yjeeikJjk()XXii11P yeikJk()0111Xi令令B0=0,j=1,2,Jlnln()LdP yjijijJin01 由对数似然函数最大化的一阶条件,利用由对数似然函数最大化的一阶条件,利用Newton 迭代方法可以迅速地得到方程组的解,得到模型迭代方法可以迅速地得到方
26、程组的解,得到模型的参数估计量。的参数估计量。ln(),LdPjJijijijiX1 2 21ln()LPjlPijiliiinjl1X X 1()jljljl10如果如果另一种估计方法另一种估计方法 可以计算得到相对于基准方案的对数概率比为:可以计算得到相对于基准方案的对数概率比为:ln()PPiji0 Xijln()()PPijikXijk 两点注意:两点注意:假设了原模型中(假设了原模型中(J+1)个随机误差项互不相关。)个随机误差项互不相关。对估计结果的解释不同。对估计结果的解释不同。如果对每个决策者进行如果对每个决策者进行重复观测,可以得到被重复观测,可以得到被解释变量的观测值。解释
27、变量的观测值。如果对每个决策者只进如果对每个决策者只进行一次观测,如何得到行一次观测,如何得到被解释变量的观测值?被解释变量的观测值?多元条件多元条件LogitLogit离散选择模型及其参数估计离散选择模型及其参数估计 选择某种方案的概率不仅与决策者的特征变量有选择某种方案的概率不仅与决策者的特征变量有关,而且也与方案的特征变量有关,模型为:关,而且也与方案的特征变量有关,模型为:P yjeeijJjjjj()XXii1区别在于X的下标lnln()LdP yjijijJin11 由对数似然函数最大化的一阶条件,利用由对数似然函数最大化的一阶条件,利用Newton 迭代方法可以迅速地得到方程组的
28、解,迭代方法可以迅速地得到方程组的解,得到模型的参数估计量。得到模型的参数估计量。ln()LdijjJiniji11XX211ln()()LPijjJijiijiin XXXXXXiijjJijP1三、嵌套多元离散选择模型三、嵌套多元离散选择模型1 1、问题的提出、问题的提出(J+1)个不同的选择方案之间具有相关性,而且必个不同的选择方案之间具有相关性,而且必须考虑这种相关性,表现为模型随机误差项相关。须考虑这种相关性,表现为模型随机误差项相关。可行的思路是将(可行的思路是将(J+1)个选择方案分为)个选择方案分为L组,在组,在每组内部的选择方案之间不具有相关性,而组间每组内部的选择方案之间不
29、具有相关性,而组间则具有相关性。则具有相关性。就是将条件就是将条件Logit模型中隐含的齐次方差性条件放模型中隐含的齐次方差性条件放松,允许方差在组间可以不同,但在组内仍然是松,允许方差在组间可以不同,但在组内仍然是同方差的。同方差的。这样的模型被称为这样的模型被称为Nested Logit模型。模型。1 1、Nested LogitNested Logit模型模型P j lPeejljJlLl(,)XZXZj llj ll11表示对选择第l组产生影响的变量 表示在第l组内对选择第j种方案产生影响的变量PPPeeeeeeejlj lljJlLjJlLjJlLlllXXZZXZXZj lj ll
30、lj llj ll111111 定义第定义第l组的组的“内值内值”(Inclusive Value)IeljJllnXj l1Peej ljJlXXj lj l1PeellLllZIZIllll13 3、估计方法、估计方法 两阶段最大似然法两阶段最大似然法,是一种有限信息估计方法。,是一种有限信息估计方法。其具体步骤是:其具体步骤是:在组内,作为一个简单的条件在组内,作为一个简单的条件Logit模型,估计参数;模型,估计参数;计算每组的计算每组的“内值内值”;将每组看成是一种选择方案,再进行简单的条件将每组看成是一种选择方案,再进行简单的条件Logit模型的估计,得到参数模型的估计,得到参数和
31、和T的估计量。此时用到的贡的估计量。此时用到的贡献变量是献变量是Zl和和Il。完全信息最大似然法完全信息最大似然法。将对数似然函数写为:。将对数似然函数写为:lnln()LPPj lliin1比两阶段最大似然法更有效四、排序多元离散选择模型四、排序多元离散选择模型Multivariate Choice ModelMultivariate Choice Modelfor Ordered Dadafor Ordered Dada1 1、问题的提出、问题的提出 作为被解释变量的(作为被解释变量的(J+1)个选择结果本身是排)个选择结果本身是排序的,序的,J优于(优于(J1),),2优于优于1,1优于
32、优于0。决策者选择不同的方案所得到的效用也是排序的。决策者选择不同的方案所得到的效用也是排序的。一般多元离散选择模型中的效用关系不再适用。一般多元离散选择模型中的效用关系不再适用。2 2、效用关系、效用关系 选择不同方案的效用关系:选择不同方案的效用关系:yyyuuyuJuyJ001021121如果如果如果如果*3 3、模型、模型为了保证所有的概率都是正的,必须有为了保证所有的概率都是正的,必须有:y*XP yP yuP yuuP yJuJ()()()()()()()()()()01211211XXXXXX假定服从正态分布,并且标准化为服从期望为0、方差为1的正态分布。那么可以得到选择各个方案
33、的概率 为正态分布的概率函数0121uuuJ4 4、估计、估计 可以看作二元可以看作二元Probit模型的推广;模型的推广;采用最大似然法估计。采用最大似然法估计。3 3 离散计数数据模型离散计数数据模型(Models For Count DataModels For Count Data)一、问题的提出一、问题的提出 二、泊松回归模型二、泊松回归模型 三、泊松回归模型的扩展三、泊松回归模型的扩展一、问题的提出一、问题的提出1 1、经济、社会活动中的计数数据问题、经济、社会活动中的计数数据问题 发生事故次数的影响因素分析发生事故次数的影响因素分析 更换工作次数的影响因素分析更换工作次数的影响因
34、素分析 婚姻问题研究婚姻问题研究2 2、计量模型中的计数数据问题、计量模型中的计数数据问题 通常计数数据模型的形式可以表示如下:通常计数数据模型的形式可以表示如下:,.2,1,0,),(NRXXfNk其中其中N代表被解释变量,通常为正整数,代表被解释变量,通常为正整数,N和和X之之间的关系由经济理论决定。间的关系由经济理论决定。该模型假定,通过调查能够得到一组代表被解释该模型假定,通过调查能够得到一组代表被解释变量的数字(如变量的数字(如0,1,2,3)以及相应的解释)以及相应的解释变量的观察值。变量的观察值。建立模型的目的主要有两点:建立模型的目的主要有两点:检验从数据中可以观察到的行为模式
35、是否与理论预期检验从数据中可以观察到的行为模式是否与理论预期相符;相符;将将N和和X之间的内在联系用数量化的方式表现出来。之间的内在联系用数量化的方式表现出来。从理论上讲,多元线性方程的参数估计方法也可从理论上讲,多元线性方程的参数估计方法也可以被应用来分析计数数据模型问题。以被应用来分析计数数据模型问题。但是很容易发现,但是很容易发现,计数数据中零元素和绝对值较计数数据中零元素和绝对值较小的数据出现得较为频繁,而且离散特征十分明小的数据出现得较为频繁,而且离散特征十分明显,显,利用这些特点,可以找到更合适的估计方法。利用这些特点,可以找到更合适的估计方法。七十年代末以来,许多学者在计数数据模
36、型的处七十年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,包括:理方法方面作出了较大贡献,包括:Gilbert(1979)提出了)提出了泊松回归模型泊松回归模型,Hausman,Hall和和Griliches(1984)提出了负二项回)提出了负二项回归模型和归模型和Panel方法,方法,Gourier,Monfort和和Trogonon(1984)提出了仿最)提出了仿最大似然法。大似然法。其中,最先提出的泊松方法在研究计数数据模型其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。问题中应用得非常广泛。二、泊松回归模型二、泊松回归模型1 1、泊松回归模型、泊松回归模
37、型 泊松回归模型假定,被解释变量泊松回归模型假定,被解释变量yi服从参数为服从参数为 i的的泊松分布,其中泊松分布,其中 i同解释变量同解释变量xi存在某种关系。该存在某种关系。该模型的初始方程为:模型的初始方程为:,.2,1,0,!)(PriiyiiiyyeyYobii 最常用的关于最常用的关于 i的方程是对数线性模型,即的方程是对数线性模型,即.lniixixiiiiiexyVarxyE根据泊松分布的性质.iiiixxyE2 2、泊松回归模型的、泊松回归模型的MLML估计估计 是一个非线性模型,最简单的方法是最大似然估是一个非线性模型,最简单的方法是最大似然估计法。对数似然函数为:计法。对
38、数似然函数为:niiiiiyxyL1.!lnlnniiiixyL10)(ln 可以利用可以利用Newton迭代法迅速地得到方程的参数估迭代法迅速地得到方程的参数估计值。计值。,.2,1,0,!)(PriiyiiiyyeyYobii 由于对数似然函数的由于对数似然函数的Hessian矩阵对任何矩阵对任何x和和 的的取值是负定的。即取值是负定的。即LnL在稳定点有极大值,稳定在稳定点有极大值,稳定点指满足一阶条件的点指满足一阶条件的。niiiixxLxyH12ln),;(Newton-Raphson迭代迭代:)()(11ttttgHLgln(.)3 3、拟合优度、拟合优度 由于泊松模型的条件均值非
39、线性,且回归方程存由于泊松模型的条件均值非线性,且回归方程存在异方差,所以它不能产生类似于线性方程中的在异方差,所以它不能产生类似于线性方程中的R2统计量。学者提出了若干个替代性的统计量,统计量。学者提出了若干个替代性的统计量,用以衡量该模型的拟合优度。用以衡量该模型的拟合优度。.112212niiniiiipyyyyR该统计量通过把泊松模型同只有一种观察值的模型相比较的方法,考察该模型的拟合优度。但是这个统计量有时为负,而且会随变量的减少而变小。niniiiiiyydG112)/ln(2该统计量为各样本观察值的偏差之和。如果拟合达到完美状态,则该统计量为零。niiiniiiiiidyyyyy
40、yR112)log()()log(1.),(),(),(),(2iiiiidyylyylyylylR分子和分母都衡量了模型在只有一种观察值的模型基础上的改进,分母为改进的最大空间。所以该统计量的数值在0到1之间。.),(),(12iiiLRIyylylR“仿R2”统计量 4 4、假设检验、假设检验 检验解释变量的约束。检验解释变量的约束。可以用三种标准的检验方法来检验泊松回归模型可以用三种标准的检验方法来检验泊松回归模型的假设。的假设。.2122VWWald统计量。其中为2受到限制的解释变量的参数,)var(212asyVniirestrictediPPLR1,ln2LR统计量。分母描述受到限
41、制后的方程的解释变量的似然概率。三个统计量都服从三个统计量都服从2分布,自由度为受限变量的分布,自由度为受限变量的个数。如果统计值大于临界值,则拒绝原假设。个数。如果统计值大于临界值,则拒绝原假设。iGGGGiyxyxxyxLMniiiiniiiiiiinii)()()()(1111215 5、例题、例题 轮船事故次数(轮船事故次数(accidents)与轮船型号()与轮船型号(typea、b、c、d、e)、制造年份()、制造年份(year60、65、70、75)、投入使用年份()、投入使用年份(yearop60、75)和实际)和实际服务时间(服务时间(servmonth)的关系研究。)的关系
42、研究。样本:样本:34注意入注意入选的解选的解释变量释变量部分参数的经济意义缺乏合理解释。只作为试例。ACCIDENTS=EXP(1.645572184*TYPEA+2.353413299*TYPEB+0.4488787812*TYPEC+0.8131627072*TYPED+1.401045748*TYPEE-0.6726004217*YEAR60+0.3731874354*YEAR65+0.7675535312*YEAR70-0.6994767419*YEAROP60+6.388715642e-05*SERVMONTH)用LR统计量进行假设检验0假设为:制造年份对事故次数无影响拒绝0假设0
43、10203040506051015202530ACCIDENTSACCIDENTSF预测结果与观测值的比较预测结果与观测值的比较 OLS估计与计数数据估计拟合值的比较估计与计数数据估计拟合值的比较-20020406051015202530ACCIDENTSACCIDENTSFACCIDENTSFLS三、泊松回归模型的扩展三、泊松回归模型的扩展1 1、不平均分布检验(、不平均分布检验(OverdispersionOverdispersion)泊松模型假定被解释变量的均值等于方差,这是泊松模型假定被解释变量的均值等于方差,这是一个非常强的假设,许多学者对此提出质疑,并一个非常强的假设,许多学者对此
44、提出质疑,并且发展了一些新的方法放松这一假设。且发展了一些新的方法放松这一假设。首先介绍该假设条件是否成立的检验。首先介绍该假设条件是否成立的检验。基于回归的检验方法基于回归的检验方法 Cameron和和Trivedi在在1990年提出年提出)(:1iiiyEgyEyVarH:0iiyEyVarH2)(2iiiiiyyzi是由泊松模型得出的被解释变量的预测值 拉格朗日乘子检验法拉格朗日乘子检验法 基本思想也是放松泊松模型中均值等于方程的假设。基本思想也是放松泊松模型中均值等于方程的假设。泊松分布是负二项分布的一种特殊情况,当对负二项泊松分布是负二项分布的一种特殊情况,当对负二项分布的某个参数加
45、以一定的限制条件后,就能够得到分布的某个参数加以一定的限制条件后,就能够得到泊松分布。泊松分布。在一般情况下,如果一个模型是在对另一个替代模型在一般情况下,如果一个模型是在对另一个替代模型的参数加以限制的条件下得到的,那么就可以得到的参数加以限制的条件下得到的,那么就可以得到LM统计量。统计量。niiiniiiiiwyywLM122122)(wi的值取决于替代模型的分布函数。对负二项分布模型来说,这个权重为1。2/1)2/()(yeenLM2 2、负二项分布模型(、负二项分布模型(Negative Binomial Negative Binomial Regression ModelRegre
46、ssion Model)由于泊松模型假定被解释变量的均值等于方差,由于泊松模型假定被解释变量的均值等于方差,人们提出了许多替代该模型的方法。其中应用得人们提出了许多替代该模型的方法。其中应用得较多的是负二项分布模型。较多的是负二项分布模型。Cameron和和Trivedi在在1986年提出负二项分布的年提出负二项分布的一种形式。一种形式。,logloglogiiiiiuxy引入无法观察的随机影响来使泊松模型一般化.lniix.!)()(iyiiuiiyueuyfiii.)(!)()(0iiiyiiuiiduugyuexyfiii被解释变量的条件分布 被解释变量的分布.)()(1iuiueugi
47、)exp(iiu1)exp(iE 该分布是负二项分布的一种形式。该分布是负二项分布的一种形式。其条件均值为其条件均值为i,条件方差为,条件方差为i(1+1/)i)。由概率密度可以求得最大似然函数,再通过迭代法求出参由概率密度可以求得最大似然函数,再通过迭代法求出参数估计。数估计。对于负二项分布假设可以用对于负二项分布假设可以用Wald或者或者LR统计量进行检验。统计量进行检验。iiuiyiiuiiduueyuexyfiiii10)(!)()(,)1()()1()(iiiiyiiirwhererryyi负二项分布回归模型负二项分布回归模型ACCIDENTS=EXP(1.520444133*TYP
48、EA+2.270100317*TYPEB+0.4581374106*TYPEC+0.6449816375*TYPED+1.358883951*TYPEE-0.8616385402*YEAR60+0.2032389361*YEAR65+0.9661619692*YEAR70-0.7020190667*YEAROP60+7.402025976e-05*SERVMONTH)02040608051015202530ACCIDENTSACCIDENTSFN02040608051015202530ACCIDENTSACCIDENTSFACCIDENTSFN拟合效果没有明显改善3 3、零变换泊松模型(、零变
49、换泊松模型(Hurdle and Zero-Hurdle and Zero-Altered Possion ModelsAltered Possion Models)在某些情况下,被解释变量为零值的产生过程与在某些情况下,被解释变量为零值的产生过程与它取正值的过程差异很大。于是就有人提出了零它取正值的过程差异很大。于是就有人提出了零变换泊松模型来描述这个事实。变换泊松模型来描述这个事实。Mullahey(1986)最先提出了一个最先提出了一个Hurdle模型,用模型,用白努利分布来描述被解释变量分别为零值和正值白努利分布来描述被解释变量分别为零值和正值的概率。的概率。eyobi)0(Pr,.2
50、,1)1(!)1()(Prjejeejyobiijii改变了被解释变量取零值的概率,但是所有取值的概率之和保持为1 Mullahey(1986),Lambert(1992)等人还分析了等人还分析了在在hurdle模型的一种扩展情况,即假定被解释变模型的一种扩展情况,即假定被解释变量的零值产生于两个区域(量的零值产生于两个区域(regime)中的一个。)中的一个。在一个区域里,被解释变量总是零,而另一个区在一个区域里,被解释变量总是零,而另一个区域里,被解释变量的取值符合泊松过程,既可能域里,被解释变量的取值符合泊松过程,既可能产生零,也可能产生其他数值。产生零,也可能产生其他数值。如如Lamb