1、第9章 模型设定和数据问题的深入探讨MLR.3假定要求:是OLS估计的基础,如果违反此假定,即误差项与某个解释变量是相关的,常称此解释变量是内生的。内生性会导致OLS估计量有偏且不一致,是计量经济学中最难处理的问题,本章讨论导致内生性的三个主要情形:函数形式的误设、遗漏变量和测量误差。9.1 函数形式的误设9.2 对观测不到的解释变量使用代理变量9.3 有测量误差的OLS性质9.4 数据缺失、非随机样本和异常观测1,2,0kEu x xx第1页,共14页。9.1 函数形式误设l 函数形式误设是指,没有正确地设定因变量和所观测到的解释变量之间函数关系。例如工资方程的真实形式为:但实际设定时遗漏了
2、平方项,这导致函数形式误设,在此情形下,OLS不能得到任何一个参数的无偏和一致估计。遗漏自变量的函数并不是模型出现函数形式误设的唯一方式,设定时使用水平项wage,而不是对数形式,这也导致函数形式的误设。模型的函数形式误设会导致严重的问题,但如果我们已经有了所有必要的变量数据,可以采用一些方法来侦测合适的函数形式,如果不能收集到关键变量的数据,问题可能更严重,下一节讨论此问题。20123logexpexpwageeducereru第2页,共14页。9.1 函数形式误设模型是否需要非线性的形式,通常可在模型中添加任何一个显著变量的平方项,利用联合排除性约束的F检验进行联合显著性检验。如果所增加的
3、平方项是显著的,就可以将其加入模型中。但需注意的是,显著的平方项可能是函数有其他形式的征兆,如应使用对数形式却使用了水平形式等。幸运的是,在许多情形下,使用某些变量的对数形式和添加二次项足以发现经济学中许多非线性关系,例9.1。第3页,共14页。9.1 函数形式误设l 回归设定误差检验(RESET):对函数形式是否误设,Ramsey(1969)提出了RESET检验。其基本思想为,如果如下模型满足MLR.3,则添加自变量的非线性关系应该是不显著的。直接加入二次项,检验其显著性,会消耗掉大量的自由度。RESET则在方程中加入OLS估计的拟合值的多项式,以侦查函数形式的误设是否存在:RESET就是检
4、验模型中二次和三次拟合值的系数的联合显著性。该检验的一个缺陷是,当线性模型被拒绝后,它不能为我们如何做提供一个现实的方向。例9.201 1kkyxxu2301112kkyxxyyu第4页,共14页。9.1 函数形式误设l 非嵌套模型的检验:函数形式的设定会涉及到非嵌套模型的检验,这时标准的F检验不能采用,如下二模型的选择:两种常用的方法,一种是Mizon和Richard(1986)提出,构造一个能包含两个模型的综合模型,检验每个模型的相应的约束:另一种方法由Davidson和Mackinnon(1981)提出,在每个模型中加入另一模型的拟合值,检验其显著性:0112201 122loglog;
5、yxxuyxxu 01 1223142loglogyxxxxv01 12 21 1011222 2 log()log()yxxyw yxxyv第5页,共14页。9.1 函数形式误设以上非嵌套模型的检验的缺陷为,一是两个模型可能同时被拒绝,也可能同时被接受。二是拒绝一个模型,也并不意味着另一个模型是正确的模型,因为可能是多种误设的函数形式被拒绝。更困难的是,不同因变量的模型比较,如常用的水平因变量y模型与对数因变量logy模型的选择。第6页,共14页。9.2对观测不到的解释变量使用代理变量l 内生性问题的更困难的情形是,关键变量因数据缺乏而被模型排除或遗漏。如:如果educ与abil相关,将ab
6、il放入误差项会导致所有参数的OLS估计有偏和不一致。一种可能的方法是找到遗漏变量的代理变量(proxy variable),即与我们试图控制但又观测不到的变量相关的变量。在工资方程中,一种可能性是采用智商IQ作为能力的代理变量,这并不要求IQ等同于能力,只需要IQ与能力相关。什么情况下,使用代理变量可以得到参数的无偏和一致估计呢?用三变量模型来说明,其中有两个变量是可以观测的:0123logexpwageeducerabil u*0112233yxxxu第7页,共14页。9.2对观测不到的解释变量使用代理变量第三个变量观测不到,但我们有其一个代理变量,它们之间的关系为:将此方程代入原方程可得
7、:对上方程进行OLS估计得到的估计量,称为遗漏变量问题的植入解。什么情况下此解是一致的?(1)误差u与 不相关,这不是很有争议(2)误差v3与 不相关,这意味着:*303 33xxv03 01 12 23 3 33 3yxxxuv*1233,x xxx123,x xx*3123303 3123312303 3*312303 333,0,E v x x xE xx x x xE x x x xxE x x x xxE x x第8页,共14页。9.2对观测不到的解释变量使用代理变量此等式要求,一旦控制了 的期望值与 无关,这是一个“好的”代理变量的要求,在工资方程中,这要求能力的平均水平只随IQ变
8、化,而不随educ和exper变化,这合理吗?或者IQ是能力的一个好的代理变量吗?例9.3如果代理变量不符合上述要求,使用代理变量仍将导致偏误,我们有理由希望,此偏误比完全忽略遗漏变量时要小 用滞后因变量作为代理变量:如何得到遗漏变量的代理变量在许多情形下是困难的,我们可以将滞后的因变量包括进来加以控制。这种做法的认识是,不同时期的因变量受到相同遗漏变量的影响,滞后因变量在一定程度上可作为代理变量,同时惯性影响也是引入滞后因变量的原因之一。这种思想也是利用panel data解决遗漏变量问题的基础。例9.4*33,x x12,xx第9页,共14页。9.3 有测量误差的OLS估计l 因变量中的测
9、量误差:当在一个回归模型中使用经济变量不精确的度量时,模型中就包含了测量误差。只有当计量经济学家所能收集数据的变量,与影响个人、家庭、企业等决策的变量不同时,测量误差才成为问题。首先讨论因变量存在测量误差的情形。设回归模型形式为:模型满足高斯马尔科夫假定,但因变量的观测值与实际值存在测量误差:原方程可以变换成:要使得OLS估计是一致的,要求测量误差与每个解释变量是不相关的。如果因变量的测量误差与一个或多个解释变量相关,则会导致OLS的偏误。通常的假定是测量误差独立于每个解释变量,所以OLS估计量是无偏和一致的,但测量误差会增大估计量的方差。例9.5,9.6*011kkyxxu*0eyy0110
10、kkyxxue第10页,共14页。9.3 有测量误差的OLS估计l 解释变量的测量误差:解释变量的测量误差可能是一个较严重的问题。以简单回归模型说明:假定原模型满足高马假定,变换后的模型为:OLS估计量的性质取决于测量误差与x1的关系的假定,一种是经典的含误差变量(CEV)假定:在CEV下,y对x1的OLS回归会得到有偏且不一致估计,而且 总比 更接近0,这被称为CEV导致OLS估计的衰减偏差。*011111,yxuexx01 11 1yxue*21111111cov,0,cov,cov,exex exe e1limp1第11页,共14页。9.3 有测量误差的OLS估计另一假定为:,即测量误差
11、与观测到的测量值不相关,这意味着测量误差不影响OLS估计具有良好的性质。CEV假定主要基于标准的测量误差模型,但在有些情况下可能不成立,实际的情况可能介于两种假定之间,即测量误差与实际值和测量值同时相关,OLS不一致的。当引入更多的解释变量时,情况可能更复杂,在CEV下,所有的OLS估计量都是有偏和不一致的。例9.711cov,0 x e第12页,共14页。9.4 数据缺失、非随机样本和异常观测值l 本节讨论数据问题,测量误差问题可看成一个数据问题,而解释变量之间的多重共线性也是数据问题。我们集中于违反MLR.2假定的数据问题。l 数据缺失(missing data):如果一个观测缺失其因变量
12、或一个自变量的数据,此观测不能用于回归分析,软件包会简单忽略此观测,由此减少了可用的样本容量,数据缺失还有其他什么影响?取决于数据缺失的原因,如果是随机缺失,不会违反假定MLR.2,对估计不会有实质影响。第13页,共14页。9.4 数据缺失、非随机样本和异常观测值l 非随机样本:当数据缺失导致样本变成总体的一个非随机样本,可能存在问题。基于自变量的样本选择是指,样本在自变量的基础上加以选择,这是外生样本选择的情形,不会导致任何统计问题。基于因变量的样本选择是指,样本在因变量的基础上加以选择,这是内生样本选择的情况,OLS估计会产生偏差。对于样本是基于个体的决策而选择,这是自选择问题,情况可能更复杂。l 异常观测:例9.8,9.9,9.10第14页,共14页。