第2讲-工具变量法-PPT课件.ppt_163文库

资源描述

1、第2讲_工具变量法单方程线性模型如果我们在经验分析中采用一个单方程线性模型来研究x 对y 的影响，并得到相关的政策结论，那么则要求方程y = 0 + 1X1 + 2X2 + . . . kXk + u能够反映X与y之间的因果关系，而不是单纯的统计相关关系假设1 条件期望线性与外生性假设y = E(y|X)+u= 0 + 1X1 + 2X2 + . . . kXk + u 定义: u = y E(y|X)，则假设1意味E(u|X)=0，这又成为X严格外生性的假设如果E(u|X)=0成立，线性模型就能够解释x与y之间的因果关系，并成为结构模型同时E(u|X)= 0是E(Xu)=0的充分条件，

2、E(Xu)=0是OLS估计的依据。 E(u|X)= 0还意味着Cov(X,u)=0假设2 样本矩阵满列秩rank(X)=Kk 变量之间不存在线性组合保证XX可逆，满秩，非奇异，从而估计结果唯一假设3 随机扰动项同方差、无自相关Var(y|X)=I 含义 y的条件方差为纯量协方差矩阵由于为常数，与x无关，所以条件方差等价于无条件方差该假设等价于Var(u|X)= ，即同方差Var(ui)= ，无序列相关Cov(ui,uj)=0假设4 (yi, xi)为随机样本，i=1,2,n对模型假设的讨论线性条件期望不成立的情形E(y|X)X，E(u|X)0 来源模型设定的错误 misspecif

3、ication 变量的误差联立性8模型的设定错误函数形式的错误非参数设定来解决包含了多余变量如果多加的变量与其它的解释变量无关，OLS估计仍然是无偏，一致，但不有效如果多加的变量与其它的解释变量有关，OLS估计有偏例：研究新生儿体重y与母亲在孕期的食品摄入量x的关系，如果考虑家庭收入z。正确的模型设定为：E(y|x,z)=x。如果加入z，模型变为E(y|x,z)= x+z如果z与x无关，则 = ，但通常的情况下，z与x相关，从而遗漏变量被遗漏的变量q进入到随机扰动项中，u=rq+v，OLS估计不一致，教材P63例解决的办法代理变量工具变量法 panel data 教育回

4、报的例子正确的模型设定log(wage)= 0+ 1exp+ 2exp+ 3edu+abil+v 能力ability通常观察不到，成为遗漏变量，模型成为log(wage)= 0+ 1exp+ 2exp+ 3edu+u 通常ability受到教育的影响abil= + edu+r,E(r|exp,exp)=0 从而E(b3)= 3+ 3，b3不仅是有偏的，而且在大样本中也是不一致的。特别是，如果30，b3会高估教育对工资的影响变量的测量误差被解释变量的测量误差真实的模型设定y*=X+u y*没有被准确观察到，观察到的是y y= y*+v，v为测量误差模型变为：y=X +u+v 如果E(v

5、|X)=0，假设1没有被破坏如果E(v|X)0，假设1不成立，OLS有偏且不一致解释变量的测量误差真实的模型设定y=X+z*+u z*含有测量误差，观察到z=z*+v， E(z|x, z*)=z*，实际的回归方程为：y = X+z+ (u-v)=X+z+ 这时，由于 =u-v与z=z*+v相关，所以E(|X,z)0，假设1不成立联立性所谓联立性是指，两个变量之间的因果关系不是单方向的，它们之间相互影响在单方程模型中，如果至少一个解释变量同时由被解释变量y部分决定，模型就出现了联立性问题联立性问题很多情况下，是由于变量遗漏造成的。在出现联立性的模型中，E(u|X)0解释变量的外生

6、性解释变量的外生性解释变量外生性是古典线性回归模型的一个基本假定，也是保证线性模型成为结构模型的前提该假定的基本内容是指扰动项关于解释变量的条件期望等于零：E(u|X ) = 0 解释变量X产生机制与随机扰动项u无关可以推出：Cov( Xjk , ui ) = 0 和E(xk u) = 0 大样本条件下的渐进无关性：0)1lim(uXnpk一个说明一个说明E(xk u) = 0 表示Xk与u在小样本情形下无关可能成立，即在大样本条件下，Xk与u满足渐近无关性。此时，OLS估计量仍然能够保持良好的大样本性质但是当 E(xk u) 0 时，仍然有0)1lim(uXnpk内生解释变

7、量的产生内生解释变量的产生内生解释变量产生的原因基本上可以分为四种：遗漏变量观测误差联立偏差样本选择问题 (sample selection)遗漏变量遗漏变量当被遗漏的变量与引入模型的其他解释变量相关，被遗漏的变量进入到随机扰动项时，就会导致解释变量与扰动项相关假定真实的总体模型设定为：Y = X + W + u 但是由于不可观察的原因，我们无法得到W的数据，这样回归模型就成为：Y = X + ，其中 = W + u 如果X中的某个或某几个解释变量，如Xk与W相关，就将导致Cov(xk , ) 0 ，从而出现内生的解释变量问题观测误差观测误差不论是通过现场调查还是二手数据，

8、我们都不可能避免“观测误差”问题当观测误差进入到随机扰动项中，并与某个或某些解释变量相关时，就出现了内生解释变量在收入调查中，被访者的报告误差常常与被访者的年龄呈现某种关系，即年龄越小，误差可能越大即使观测误差与随机扰动项无关，新的随机扰动项仍然会与解释变量相关联立偏差联立偏差当X和Y相互作用，相互影响，互为因果时，我们应该用联立方程组的形式来描述它们之间的关系但如果我们仍然采用单一线性方程形式，以Y为被解释变量，X为解释变量，就会导致与扰动项相关的情况出现，X成为内生的解释变量样本选择样本选择样本选择指的是我们所观察的被解释变量的结果，部分地受到行为主体对

9、是否参与某项活动选择的影响，从而导致我们所得到的样本成为非随机的样本举例而言，在研究个人健康对于医疗保险保费的影响这一问题中，由于我们只能够观察到投保人的保费和他们的个人信息，而无法得到没有投保的消费者相关信息，从而使得个人健康这一变量具有内生性具体而言，投保人的个人健康状况一般稍差，并愿意支付更高的保费内生解释变量的影响内生解释变量的影响计量b不一致当 E(u|X ) 0 时，OLS估计量b有偏且不一致在大样本条件下，当，OLS估0)1lim(uXnpk内生解释变量的探查内生解释变量的探查怎样判断模型的解释变量中出现了与随机扰动项相关的情形，并没有现成的检验方法

10、当我们找到足够多的工具变量时，可以对疑似内生的解释变量进行检验除了统计上的检验之外，我们可以根据上述内生解释变量产生的原因，即遗漏变量、观测误差、联立偏差、样本选择与经济理论、所研究的具体问题结合起来，判断回归模型中是否出现了解释变量的内生性例如，外商直接投资（FDI）技术溢出效应经验分析中通常都是以行业/企业产出水平或劳动生产率作为被解释变量，通过该变量对于FDI的回归系数的符号、大小以及显著程度，来判断FDI对于引入外资的行业/企业业绩变化的实际影响由于FDI的进入与外资引入国本身的要素禀赋、技术水平、劳动力状况以及经济发展水平密切相关，因此FDI与行业/产出水平相互影响，使之成

11、为具有内生性的解释变量，人们可能会在溢出效应并没有发生的情况下，把生产效率的提高归因于外资企业的溢出作用，从而在单方程的计量分析中产生联立偏差工具变量法工具变量法工具变量的定义工具变量法 IV估计量的统计性质两阶段最小二乘法 (2 Stage Least Square) 工具变量的选择对内生性的简单检验 Xk为内生的解释变量假定我们可以把Xk分解为两个部分，一部分与随机扰动项u相关，另一部分与u无关如果我们能够找到另一个变量或多个变量 Z，它与Xk相关，但与u无关，就可以通过Z 将Xk中与u无关的部分分离出来，从而识别出Xk对y的边际影响，这个结果具有一致性这种方法称为工具

12、变量法（Instrumental Variables Method，简称IV法）y = 0 + 1X1 + 2X2 + . . . kXk + uy = 0 + 1 1 + 2X2 + . . . kXk + u X1= a0 + a1Z + a2X2 + . . . akXk + vX原方程：原方程：新方程新方程(工具变量工具变量)：主回归：主回归：辅助回归：辅助回归：工具变量的定义工具变量的定义在K变量线性回归模型中，不妨假定解释变量XK具有内生性，即E(u|X K ) 0，或 E(xK u) 0 ，或如果变量Z1, Z2 , , ZL，L K ，满足下面两个条件，则称为工具变量：0

13、)1lim(uXnpk条件条件1：工具相关性：工具相关性该条件要求r E(Z X ) = K在大样本条件下，上式还可表述为条件1该条件要求工具变量与解释变量相关，但在实际中，仅仅相关是不够的，只有在高度相关的条件下，IV估计结果才具有良好的大样本性质 zx满列秩，即行列式0 )1lim(XZnp弱工具变量弱工具变量与解释变量之间的相关关系很弱的工具变量被称为“弱工具变量” 运用弱工具变量，IV估计结果不仅具有很低的估计精度和很大的方差，而且会放大变量遗漏的偏差同时，在大样本的条件下，IV估计量的渐进正态性将不会出现。条件条件2工具外生性工具外生性该条件要求E(Zu) =

14、 0 上式表明，Z与u无关，Z具有外生性在大样本条件下，上式还可表述为由于u不可观测，这个条件在理论上是不可检验的，但在现实中，当满足某些条件时，可以进行事后检验1lim()0pZ un例假定解释变量Xk具有内生性，找到Z = ( X1, X 2 , , X K 1, ZK )只要Cov(ZK , X K ) 0 ，Cov(ZK , ) = 0变量Z就满足条件1和2，成为工具变量实际运用中，寻找工具变量的关键就是要找到与Xk高度相关而与u无关的Zk识别恰好识别回归模型中有一个解释变量是内生的，而我们就找到一个工具变量内生的解释变量个数与工具变量的个数相等不可识别内生的解释

15、变量个数大于工具变量的个数，我们无法估计回归参数过度识别工具变量的个数更多只有在这种情形下，我们才能够对工具变量的外生性进行检验讨论：教育回报率研究中的IV 内生的解释变量：教育水平或年限被解释变量：个人收入或工资水平文献中使用的工具变量父母的教育水平家庭收入同胞的教育水平 18岁时家庭所在地的蓝领工资、失业率家庭住址距离大学校区的距离相关的义务教育法规IV估计量估计量bIV的统计性质的统计性质 IV估计量在有限样本的条件下表现并不理想通常是有偏的此时的IV估计量可能不满足矩条件在大样本条件下，IV估计量将拥有良好的性质，因此下面就只讨论的大样本性质两阶段最小二

16、乘法两阶段最小二乘法原理和步骤实际操作 2SLS估计量的性质原理和步骤原理和步骤回归模型 Y = X + u 假定解释变量XK具有内生性找到XK的M个工具变量：Z1, Z2 , , ZM 如果我们分别运用这M个工具变量对进行估计，我们将得到M个工具变量估计结果但是，如果我们在一次回归中运用这M个工具变量，将会得到最好的估计结果，这个方法就是两阶段最小二乘法 2SLS具体步骤具体步骤以XK为因变量，对 X1, X 2 , , X K 1, Z1, , ZM进行OLS回归，得到拟合值是其它外生的解释变量以及M个工具变量的线性组合根据假定和工具变量的定义，中的每个因子都与随

17、机扰动项无关，因此也与u无关同时，是XK的拟合值，因此它又与XK高度相关XXXXX 以y为因变量，对回归得到：X1 , X 2 , X K 1 , 进行OLSkX实际操作实际操作 ivregress estimator depvar varlist1 (varlist2 = varlist_iv) if in weight , options (Stata 10，之前的版本命令为ivreg estimator 2sls two-stage least squares (2SLS) liml limited-information maximum likelihood (LIML)

18、gmm generalized method of moments (GMM) 例 ivreg y G1 G2 G3 (X = Z), first the “first” option provides you with the first stage results ivreg y G1 G2 G3 (X = Z1 Z2), first If youve got more than 1 instrument for each endogenous independent variable2SLS估计量的性质估计量的性质 2SLS估计量除了具有一般工具变量估计量所具有的一致性和渐近正态性之外

19、，当随机扰动项满足同方差的假定时，给定一组工具变量，2SLS估计量将是其中最有效的估计量，这个性质称为2SLS估计量的相对有效性证明见教材96-97页工具变量的选择工具变量的选择 IV方法运用的结果取决于工具变量的有效性而该有效性又取决于工具变量本身与内生的解释变量之间的相关性以及它与随机扰动项之间的独立性Z与与XK的相关性的相关性 Z与XK的相关性越强，根据正态分布所进行的统计推断的可靠性就越高一个好的工具变量，首先要看它是否与XK 存在很强的相关性计量经济学家建议可以对2SLS程序中的第一阶段的回归方程进行回归系数的总体显著性检验，来判断Z与XK是否具有很强的相关

20、性 Bound, Jaeger and Baker (1995) 如果F值小于10，则认为Z为弱的工具变量Z的外生性的外生性如果在IV估计中，我们使用了非外生的工具变量，即Z与随机扰动项u相关，IV估计量将是不一致的在“过度识别”的情形下，我们才可以对Z的外生性进行检验 Sagan检验用原模型的IV估计的残差e对其它外生的解释变量和工具变量进行回归，得到拟合优度R2。 Sagan统计量 (n K )R2 2 (M 1)a对对XK内生性的简单检验内生性的简单检验 Hausman设定检验如果XK不具有内生性，IV估计结果与OLS估计结果没有显著的差异步骤用XK对其他外生的解释

21、变量和工具变量进行OLS回归，得到残差v 建立回归方程：Y = X + v + u 检验的显著性如果不显著，表明XK不具有内生性工具变量选取示例：工具变量选取示例：工具变量选取示例：工具变量选取示例：一个例子：Joshua Angrist (1990) Why Do World War II Veterans Earn More Than Nonveterans?作者在这篇文章中分析了美国二战老兵的入伍经历对他们日后工资的影响工资方程：lnW = V + X + Yii + W：男性的工资V ：他是否在二战期间服过兵役X ：控制变量组 Yi ：出生年份虚拟变量：随机误差项如果我们用OL

22、S方法对上面的工资方程进行估计的话，真实的参数很可能被低估这是因为在美国志愿兵的体制下，应召入伍的样本不是一个随机样本人们作出是否参军的决定是一个“自我选择”的过程，这个过程受到很多观察不到的因素的影响特别是，这些因素也同时对他们的工资水平产生影响一般而言，那些在工作市场上机会不多、工资微薄的人更可能会选择服兵役，因此成为一个具有内生性的解释变量寻找工具变量寻找工具变量这个工具变量必须满足：（1）工具的相关性，即它应该与个人的服兵役状态相关；（2）工具的外生性，即它本身并不决定个人的工资水平，同时也不与其他决定工资水平的因素相关。“抽签抽签” 征兵制度征兵制度 1942

23、年，为了扩军的需要，美国政府在“志愿兵”制度的基础上，推行了“抽签”的强制征兵制度根据该制度，365天中的每一天被赋予一个随机选择号码（Random Selection Number, RSN），这样每位1926岁合格役男按照生日被分配一个相对应的RSN 美国国防部根据征兵人数的需要，公布一个门槛号码（在那一年，这个号码是195），RSN小于门槛号码的役男将应征入伍。在Angrist的研究中，这个制度的实行被当作了一次“自然实验” Angrist将RSN是否小于门槛号码这一虚拟变量作为兵役状态的工具变量由于RSN与门槛号码的大小关系决定了每位役男是否入伍的状态，RSN越小，入伍的可能性

24、越大，RSN越大，入伍的可能性越低，因此它与有着很强的相关性但同时RSN是一个随机号码，它本身与工资水平无关，因此满足工具的外生性要求，是一个有效的工具变量Z：工具变量“出生季度，以及出生季度与出生年份的乘积交互项”Z=(Q1,Q2,Q3,Q1*Y1926,Q3*Y1928)工具变量回归方程：工具变量回归方程：Basic Results on the Return to World War II Service (1980 Census, Men Born 1925-28) Dependent variable is log annual earnings in 1979. 讨论工资效应的异

25、质性实际的志愿者与中签入伍者不同 DSN 仅仅与中签入伍者状态相关缺少其他的解释变量如果DSN与中签逃避兵役者的状态有关，IV将与随机扰动项相关例：例：“新农保新农保”使谁更受益？使谁更受益？OLSOLS回归方程：回归方程：012iijijiYcanbaoX+Yi为个体i的被解释变量；canbaoi代表个体i是否参保的虚拟变量（1=参保，0=未参保）；Xi为控制变量，包括年龄、性别、婚姻状态、受教育程度、目前存活子女数、是否与子女同住、家庭年收入、居住地域、自评健康及调查年份等；工具变量法：工具变量法：针对主要自变量“样本是否参加新农保”，选取了两个工具变量： “所在县区新农保试点启动时长

26、是否达917个月”：是=1，否=0 “启动时长是否达18个月或以上” ：是=1，否=0 以“样本是否参加新农保”为因变量进行第一阶段辅助回归：第二阶段主回归：12iijijicanbaoIVX+012iijijiYcanbaoX+ivprobit mainsptchd age70 age80 age90 male married noschl midschl childsurv tz_family logincome east selfhealth year (canbao=canbaoxian9 canbaoxian18 age70 age80 age90 male married noschl midschl childsurv tz_family logincome east selfhealth year), twostep first工具变量的工具变量的Stata命令示例命令示例第一阶段回归结果：第一阶段回归结果：第二阶段回归结果：第二阶段回归结果：

展开阅读全文