多元回归分析课件.ppt_163文库

资源描述

1、1复习多元回归分析n大样本性质n模型的函数形式n虚拟变量n异方差n数据问题时间序列模型n基本模型n平稳、弱相关和高度持久n序列相关工具变量和联立方程受限制因变量模型2小样本和大样本性质小样本性质：估计量在样本大小为有限的情况下表现出来的性质。n例如：无偏估计；t、F检验。大样本性质：估计量在样本大小为无限的情况下表现出来的性质。n例如：大数定律；一致估计；LM检验3一致性“一致”指的是当n 时，估计量的分布收敛于系数的真实值在MLR1-MLR5假设下,OLS估计值是一致的（也是无偏的）在无偏性的证明中，我们假设了条件均值为零：E(u|x1,x2,xk)=0证明一致性，我们只要相对较弱的假设，均

2、值为零：E(u)=0;不相关：Cov(xj,u)=0,j=1,2,k 没有这个假设，OLS就是有偏和不一致的4当n 时样本（估计）的分布b1n1n2n3n1 n2 1或F11111122nSSTnSSTknSSRR16拟合程度重要的是不要过于关注调整的R2 而忽略了理论和经济常识本身如果经济理论清楚地预计某个变量应当被包括进来，那么就加入这个变量不要加入影响对所关注的变量进行合理解释的变量；切记多元回归含意之一是控制了其它因素17函数形式我们已经知道一个线性的回归可以用来拟合一些非线性的关系可以用因变量或自变量的对数形式或者同时用两者的对数形式可以用x的平方可以用x的交叉项但是我们如何知道我

3、们是否在模型设定中采用了正确的函数形式呢？18函数形式（续）首先，要靠经济理论来指导模型的设定考虑如何对模型进行解释究竟是变量x的绝对变化还是百分比的变化（用对数形式）对因变量y产生影响更加合理？因变量对x1的偏导随x1（平方项）还是随x2（交叉项）改变，或者是固定不变？19RESET检验RESET 采用的办法和White检验的特殊形式类似我们采用加入的函数的办法来检验，而不是直接加入x的函数因此，要估计方程 y=b0+b1x1+bkxk+12+13+error 来进行检验H0:1=0,2=0 根据 FF2,n-k-3 或者 LM2220虚拟变量虚拟变量就是取 1 或者 0 的变量例：male

4、(=1 若为男性,0 其它情况),south(=1 若在南方,0 其它情况),等.虚拟变量也叫二元变量21一个独立的虚拟变量考虑一个包括一个连续变量(x)和一个虚拟变量(d)的模型y=b0+0d+b1x+u这可以解释成截距项的变化若 d=0,那么 y=b0+b1x+u若 d=1,那么 y=(b0+0)+b1x+ud=0 的样本是参照组220 0 的例子xy0b0y=(b0+0)+b1xy=b0+b1xslope=b1d=0d=123其它变量与虚拟变量的交叉项也可以考虑虚拟变量 d 和连续变量 x 之间的交叉项 y=b0+1d+b1x+2d*x+u若 d=0,那么 y=b0+b1x+u若 d=1

5、,那么 y=(b0+1)+(b1+2)x+u这里的两种情况可以看成是斜率的变化24yxy=b0+b1xy=(b0+0)+(b1+1)x0 0 且 1 0的例子d=1d=025检验不同组之间的差异为了检验一个回归方程对不同的组是否应该取不同的参数，我们可以检验表示组的虚拟变量及其和所有其他x变量的交叉项的显著性因此可以估计有所有交叉项和没有交叉项两种情况下的模型，然后构造F 统计量,但这种方法不容易把握26Chow 检验也可以仅仅做没有交叉项的回归来构造适当的F统计量如果我们对第一组样本做没有交叉项的回归，得到SSR1,然后再对第二组样本做同样的回归，得到 SSR2再同样对所有样本做没有交叉项的

6、回归，得到 SSR,那么1122121kknSSRSSRSSRSSRSSRF27什么是异方差前面的同方差的假设，隐含着扰动项u的方差条件于解释变量是常数如果这个假设不成立，即对于x的不同的值u的方差不同，那么扰动项就是异方差例如：估计教育的回报率时，能力是不可观察的因素，因此可能的情况是能力的方差随教育程度不同而不同28.x x1x2yf(y|x)异方差的例子x3.E(y|x)=b0+b1x29异方差有什么影响?OLS 估计在没有同方差假设的情况下仍然是无偏和一致的但是在异方差的情况下标准差的估计是有偏的如果标准差的估计有偏我们就不能利用t 统计量或F 统计量或LM 统计量来做检验推论30 稳

7、健的标准差稳健的标准差只有在大样本的情况下才适用，在小样本的情况下用稳健的标准差构造出来的t 统计量的分布与t 分布相差较远，用来做检验是不对的在 Stata 软件中,稳健的标准差可以通过在回归命令中加入“robust”得到31异方差检验实际上我们需要检验 H0:Var(u|x1,x2,xk)=2,也就是H0:E(u2|x1,x2,xk)=E(u2)=2如果假设u2和xj之间是线性关系，我们可以把零假设当成一个线性条件来检验因此对于 u2=0+1x1+k xk+v；也就是检验 H0:1=2=k=032Breusch-Pagan 检验虽然我们观察不到扰动项，但是我们可以用OLS回归把残差估计出

8、来用得到的残差的平方项对所有的x回归之后，就可以用R2构造F统计量或者LM统计量来进行检验其中F统计量就是软件中报告出来的检验整个回归的显著性的统计量,F=R2/k/(1 R2)/(n k 1),该统计量呈Fk,n k-1分布其中的LM统计量可由LM=nR2得到，该统计量服从2k分布33White 检验Breusch-Pagan检验能检验出任何线性形式的异方差而White检验则能够通过加入所有解释变量的平方项和交叉项来检验非线性形式的异方差检验的方法仍然是利用F统计量和LM统计量来检验xj,xj2和xjxh的联合显著性34White检验的其它形式假设OLS回归的拟合值是所有解释变量x的方程因此

9、2是解释变量的平方项和交叉项的函数，和2可以用作xj,xj2和xjxh的代理变量因此，用残差项对和2做回归，然后用回归结果中的R2来构造F或者LM统计量35加权的最小二乘法虽然我们能够得到OLS估计的稳健的标准差，但是如果我们知道其中异方差的具体形式，就能够得到比OLS更有效的估计基本的思想是将存在异方差的模型转换成同方差的模型，这称为加权的最小二乘法36WLS 小结对WLS使用F检验时,先从不受限制的模型得到权重，然后用这些权重分别对不受限制的模型和受限制的模型作WLS。WLS更有效，但OLS仍然是无偏和一致的。但WLS与OLS的估计由于抽样误差会不一样，但如果两者的差距很大，很有可能是假设

10、MLR1-MLR5不成立。37代理变量如果模型设定的问题是由于某个重要的解释变量没有可用的数据，怎么办？这种情况下，避免遗漏变量偏差的一个办法是用代理变量代理变量必须是和不可观察的变量相关的，如：x3*=0+3x3+v3,其中“*”表不可观察现在假设我们就用x3代替x3*38滞后变量如果存在遗漏变量又找不到合适的代理变量，怎么办？如果遗漏变量对从前的和现在的y都有影响，那么可能的解决办法是加入一个滞后的被解释变量，来表示遗漏变量的影响。当然，采用这种办法的前提是你认为过去的y和现在的y是有关系的。39被解释变量的测量误差定义测量误差为：e0=y y*因此实际估计的方程为：y=b0+b1x1+

11、bkxk+u+e0什么条件下OLS会得到无偏的估计结果？当e0与xj,u不相关时估计结果是无偏的当E(e0)0时，常数项b0的估计是有偏的虽然在以上条件下，估计是无偏的，但是估计的结果的方差比没有测量误差时要大40解释变量的测量误差定义测量误差为：e1=x1 x1*假设 E(e1)=0,E(y|x1*,x1)=E(y|x1*)实际估计的方程为：y=b0+b1x1+(u b1e1)测量误差对估计结果的影响决定于我们所做的e1与x1的相关性假设 Cov(x1,e1)=0OLS 的估计结果仍然是无偏的，但方差变大41解释变量的测量误差（续）假设Cov(x1*,e1)=0，即所谓的经典的测量误差假设，

12、那么Cov(x1,e1)=E(x1e1)=E(x1*e1)+E(e12)=0+e2X1 与测量误差相关，因此估计是有偏的 22*2*122*2122*2111111111,plimexxexeexexVareuxCovbbbbbbb42解释变量的测量误差（续）注意到估计的偏差是多乘了一个Var(x1*)/Var(x1)因为Var(x1*)/Var(x1)1,估计的偏差的方向为趋于零的方向，该偏差称为减弱偏差多元回归的情况会更加复杂，但大致的结果仍然是经典的度量误差导致减弱偏差43时间序列与横截面时间序列数据有一个时间上的顺序，而横截面数据则没有由于我们面对不再是个人的随机样本，我们须要对原有假

13、设做出一些更改我们的数据变成了一个随机过程的一个实现值44无偏性所需的假设仍然假设一个线性（对参数）模型：yt=b0+b1xt1+.+bkxtk+ut 仍然假设条件均值为零：E(ut|X)=0,t=1,2,n注，这隐含着任何一期的扰动项与所有期的解释变量都不相关45无偏性所需的假设（续）条件均值为零的假设隐含着所有的解释变量x都是外生的（严格外生）一个与横截面中情形更一致的假设是E(ut|xt)=0这个假设说明所有解释变量在当期都是外生变量（同期外生）同期外生性只有在大样本的情况下才足于保证模型一致。小样本的无偏性需要严格外生的假设46无偏性所需的假设（续）还需要假设没有x可以为常数，且不存在

14、完全的线性相关注意，我们没有假设样本是随机抽取的随机抽样的主要结果是每一个ui都是独立的前面的严格外生的假设包含了每一个ui都是独立的47OLS 的无偏性根据以上三个假设条件，在使用时间序列数据时，OLS估计是无偏的因此正如在横截面数据中一样，在适当的假设条件下OLS估计是无偏的遗漏变量偏差可以用与横截面相同的方法来进行分析48OLS估计的方差正如横截面的情况中，计算方差需要同方差的假设我们假设Var(ut|X)=Var(ut)=2从而扰动项的方差独立于所有的解释变量x,且方差为常数随时间不变我们还需要无自相关的假设：Corr(ut,us|X)=0 对于 t s49OLS估计的方差（续）在以上

15、5个假设条件下，OLS回归的方差在时间序列与在横截面数据的情况中是相同的。此外对方差2的估计也是相同的OLS 估计仍然是最优线性无偏估计（BLUE）如果再加上扰动项的正态分布的假设，检验的方法也是相同50时间序列的趋势经济中的时间序列常有一个趋势当两个序列同时都有相同的趋势时，我们不能认为两者之间的关系就是因果关系常有的情况是两个序列的趋势是由其它不可观察的因素引起的虽然那些因素是不可观察的，我们应通过直接控制趋势的办法来控制这些因素51时间序列的趋势（续）一种可能性是一个线性的趋势，可以用模型表示为：yt=a0+a1t+et,t=1,2,还可能是指数型的趋势，可以用模型表示为：log(y

16、t)=a0+a1t+et,t=1,2,或者是二次型，可以表示为：yt=a0+a1t+a2t2+et,t=1,2,52剔除趋势在回归方程中加入一个线性的趋势项就相当于用去除了趋势的数据做回归去除序列的趋势可以用模型中的每一个变量对t做回归回归的残差就是去除趋势后的序列简单的说，就是趋势在偏回归中被剔除掉了53季节性因素时间序列的数据常表现出一些周期性，称为季节性例如：零售业的季度数据往往会在第四季度跳高可以通过加入季节的虚拟变量来处理季节性因素的影响如前处理趋势一样，我们可以先剔除数据中的季节性因素后在进行回归54平稳的随机过程如果对所有的时间指标1 t1 158一个AR(1)(一阶自回归)过程

17、一个一阶自回归过程可以表示为yt=ryt-1+et,t=1,2,，其中et为独立同分布序列，且其均值为0方差为e2若该过程为弱相关过程，则一定有|r|1 Corr(yt,yt+h)=Cov(yt,yt+h)/(yy)=r1h 当h增大时逐渐减小59一致性所需要的假设参数是线性的和数据是弱相关一个较弱的条件均值为零的假设：E(ut|xt)=0,对任意 t。比较:E(ut|X)=0没有完全线性相关因此，得到一致性所需要的外生性假设要弱于得到无偏性所需的相应假设60大样本下的检验较弱的同方差假设：Var(ut|xt)=2,对所有 t。比较：Var(ut|X)=Var(ut)=2 较弱的序列不相关的假

18、设：E(utus|xt,xs)=0,t s。比较：Corr(ut,us|X)=0,t s在以上假设的基础上，我们就可以得到渐进正态分布和通常标准差，以及正确的t，F和LM统计量61高度持久的时间序列高度持久的时间序列也叫强相关时间序列与弱相关时间序列相对应在经济学上，想知道一个时间序列是不是强相关，例如：想知道一项经济政策是否会有持久的影响62高度持久序列的变换为了用高度持久的时间序列数据来进行有意义的估计和正确的检验，我们必须首先把它转换成一个弱相关的随机过程我们称一个弱相关的过程为零阶积整“integrated of order zero”,I(0)一个随机游走的随机过程为一阶积整“int

19、egrated of order one”,I(1),意思是对其做一阶差分可得到 I(0)63高度持久序列的变换（续）yt=yt-1+etyt=yt-yt-1=et如果et是iid,yt也是iid如果et是弱相关,yt也是弱相关64序列相关与异方差22220000var()00I 序列相关(自相关)：协方差不为0异方差：方差不为常数65序列相关（自相关）的影响仍然是无偏和一致的不再是最有效的但标准差的估计是有偏的不能利用t 统计量或F 统计量或LM 统计量来做检验推论66对一阶自回归 AR(1)中序列相关的检验我们希望能够检验扰动项是否序列相关即希望检验以下零假设：ut=rut-1+et 中

20、r=0，其中 t=2,n,ut 为模型的扰动项，et 服从 iid 对于严格外生的解释变量这个检验很简单：只要用残差项对其滞后项做回归，再用t检验即可67对一阶自回归 AR(1)中序列相关的检验（续）此外，我们可以用Durbin-Watson(DW)统计量，该统计量在很多软件中都可以计算DW统计量如果DW统计量约等于2，那么我们可以拒绝序列相关的假设，但如果其显著小于2，我们就不能拒绝序列相关的假设211221()()2(1)ntttnttDWDW r r68对一阶自回归 AR(1)中序列相关的检验（续）DW是小样本检验，即DW分布的形式为已知临界值与自变量的大小、样本的大小、自变量的数目有关

21、，较难计算，因此不如t检验简单易行DW统计量两个临界值(DL,DU)，三个区域拒绝 DL不能确定 DU不能拒绝69检验高阶的序列相关我们可以用与一阶自回归AR(1)中相同的办法来检验q阶自回归过程AR(q)中的序列相关假设我们只要对残差的q阶滞后项做回归，然后检验其联合显著性即可可以用F检验或者LM检验。其中LM检验也叫做Breusch-Godfrey检验，只要用残差回归中的R2计算(n-q)R2即可还可以检验季节性形式70对序列相关的纠正我们从严格外生的解释变量的假设开始，采用除无序列相关以外的所有假设假设扰动项服从一阶自回归AR(1)过程，ut=rut-1+et,t=2,nVar(ut)

22、=2e/(1-r2)我们须要将方程进行变换以使扰动项没有序列相关71对序列相关的纠正（续）yt r yt-1=(1 r)b0+b1(xt r xt-1)+et,其中 et=ut r ut-1 这个部分差分得到的模型中就不存在序列相关的问题可行的广义最小二乘（GLS）72异方差后果n同截面数据n在时间序列模型中，序列相关更重要检验n同截面数据n但要先检验有无序列相关，只有在无序列相关时才适用nu2t=0+1xt1+k xtk+vt，vt必须是恒方差和无序列相关73为什么要用工具变量采用工具变量(IV)估计法是由于模型中存在内生的解释变量也就是说存在：Cov(x,u)0 因此，工具变量可以用来处理

23、遗漏变量偏差的问题此外，工具变量还可以用来处理经典的度量误差的问题74什么是工具变量做为一个正确的工具变量，其必须满足以下条件工具变量必须是外生的也就是说,Cov(z,u)=0同时，工具变量必须和内生变量x相关即,Cov(z,x)075关于正确的工具变量的其它问题我们必须根据常识和经济理论来判断假设,Cov(z,u)=0,是否合理我们能够检验Cov(z,x)0是否成立方法是检验H0:在x=p0+p1z+v中p1=0 我们常把以上回归称作第一阶段回归76简单回归中的工具变量估计法由 y=b0+b1x+u,和我们的假设条件有Cov(z,y)=b1Cov(z,x)+Cov(z,u),所以b1=Cov

24、(z,y)/Cov(z,x)那么使用工具变量法，b1的估计值为：xxzzyyzziiii1b77工具变量法中的假设检验这里同方差假设应该是：E(u2|z)=2=Var(u)如同在最小二乘法（OLS）的情况中一样，根据渐进方差，我们可以估计标准差:2122,212,xx zxx zVarnseSST R b b r r b b78工具变量与最小二乘法工具变量估计法中的标准差与最小二乘法中标准差的不同之处在于用x对z回归的R2 因为R2 1，所以工具变量估计法中的系数的标准差更大然而，在Cov(x,u)0的情况中，工具变量法的估计是一致的，但最小二乘法的估计是不一致的 z和x之间的相关性越强，工具

25、变量法估计的系数方差就越小79多元回归中的工具变量法工具变量法也可以用到多元回归中去假设我们对估计结构式模型感兴趣我们面对的问题是一个或几个变量是内生的我们需要给每一个内生变量找一个工具变量11211111211()():()()()IVyyxzIVxzxxyxx y b b b b80两阶段最小二乘法（2SLS）模型：y1=b0+b1y2+b2z1+u1，其中y2 y2=p0+p1z1+p2z2+v2,其中 p2 0假设了z2和z3都是正确的工具变量，它们不在结构式模型中且与结构式模型中的扰动项u1不相关我们可以用y2对z1,z2和z3进行回归来估计y2*，该回归被称为第一阶段回归如果我们用

26、2替代结构式模型中的y2，得到的系数的估计与工具变量法相同81内生性检验如果y2是内生的，那么v2（简化模型(reduced form)中的）和结构模型中的u1就会是相关的根据这一点就可以检验内生性82内生性检验（续）保存第一阶段回归的残差将以上残差加入到结构式方程中去（结构式方程中当然包括y2）如果回归发现残差的系数显著的不等于零，那么就拒绝外生性的零假设如果有几个可能存在内生性的变量，就需要检验几个相应一阶段残差在结构式中的联合显著性83联立方程模型模型联立性（Simultaneity），它是由于解释变量和被解释变量同时决定导致的如同其它类型的内生性问题一样，联立性导致的内生性问题也可以用

27、工具变量法来解决y1=a1y2+b1z1+u1y2=a2y1+b2z2+u284劳动需求方程的识别whDS(z=z1)S(z=z2)S(z=z3)85一般联立方程模型(The General SEM)假设我们想估计结构式方程：y1=a1y2+b1z1+u1 其中:y2=a2y1+b2z2+u2则进一步有y2=a2(a1y2+b1z1+u1)+b2z2+u2因此：(1 a2a1)y2=a2 b1z1+b2z2+a2 u1+u2,该方程可以改写为：y2=p1z1+p2z2+v286一般联立方程模型（续）把以上y2的简化式方程代入y1的结构式方程，我们可以看出y2是u1的线性方程，即y2与扰动项相关

28、，这就导致a1的估计有偏，我们称其为联立偏差联立偏差的方向比较复杂，但是我们可以从简单回归中总结出一些经验在简单回归中，偏差的符号和a2/(1 a2a1)相同87一般联立方程模型的识别假设z1是第一个方程中所有的外生变量，z2是第二个方程中的所有外生变量z1和z2中可以存在相同的变量要识别方程1，z2中必须有些变量不在z1 中要识别方程2，z1中必须有些变量不在z2 中秩(Rank)88一般联立方程模型的估计间接最小二乘法工具变量法两阶段最小二乘法89二元选择模型线性概率模型：P(y=1|x)=b0+xb b 线性概率模型的缺点之一是模型的预测值可能不在0和1之间另外一种模型方法是将概率设为

29、一个函数G(b0+xb b)，其中0G(z)1nProbit 模型nLogit 模型90Probit 模型概率函数G(z)的选择之一是标准正态分布的累积分布函数(cdf)G(z)=F(z)f(v)dv,其中 f(z)标准正态分布的密度函数,f(z)=(2p)-1/2exp(-z2/2)我们把这样设定模型称为probit模型这是一个非线性的模型，因而不能用我们通常的方法进行估计我们用最大似然法进行估计91Logit 模型另一种概率函数G(z)的选择是logistic函数，它是标准logistic随机变量的累积分布函数G(z)=exp(z)/1+exp(z)=L(z)这样设定的模型称之为logit

30、模型，有时也称之为logistic回归两种累积分布函数的形状很相似，它们都在0附近增大最快92对LPM、Probit和Logit模型的解释一般来说，我们关注的是x对P(y=1|x),的影响，也就是p/x在线性概率模型中很容易计算，就是相应x的系数但是对于非线性的probit和logit模型，计算要复杂一些:p/xj=g(b0+xb b)bj,其中 g(z)等于 dG/dzlog0.250.4LPMitprobitbbbbbb93似然比率（Likelihood Ratio）检验但是我们不能像在线性概率模型中那样构造F或LM统计量来做排除条件的检验，所以需要构造新的统计量在最大似然法(MLE)的估计中，我们总是可以计算一个对数似然函数的值,L 就像F检验一样，估计一个受限制和一个不受限制的模型，然后构造统计量：LR=2(Lur Lr)2q94Tobit模型y*=xb b+u,u|x Normal(0,2)我们仅能观察到y=max(0,y*)以上即为Tobit模型，我们用最大似然法估计该模型的系数b b和方差应注意的是，b b估计的是x对y*而不是y的影响

展开阅读全文