1、第二部分实践中的回归分析基本假定违背:基本假定违背:不满足基本假定的情况。(1)模型设定有偏误;所选模型是正确设定的(2)解释变量之间存在多重共线多重共线性;(3)随机误差项序列存在异方差异方差性;(4)随机误差项序列存在序列相关序列相关性。所选模型是正确设定的解释变量之间不存在完全线性关系误差项方差为常数误差项之间不相关基本假定基本假定基本假定基本假定第八章 多重共线性Multi-CollinearityMulti-Collinearity一、多重共线性的性质一、多重共线性的性质二、多重共线性的实际后果二、多重共线性的实际后果 三、多重共线性的诊断三、多重共线性的诊断 四、克服多重共线性的方
2、法四、克服多重共线性的方法 五、案例五、案例一、多重共线性的性质(8.1-8.2)1、完全多重共线性2、近似(不完全)多重共线性 对于模型对于模型 Yi=B0+B1X1i+B2X2i+BkXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相如果某两个或多个解释变量之间出现了相关性,则称为关性,则称为多重共线性多重共线性(Multicollinearity)。完全共线性的情况完全共线性的情况并不多见,一般出并不多见,一般出现的是在一定程度现的是在一定程度上的共线性,即近上的共线性,即近似共线性。似共线性。如果存
3、在如果存在c1X1i+c2X2i+ckXki=0 i=1,2,n 其中其中:ci不全为不全为0 如果存在如果存在c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中其中ci不全为不全为0,vi为随机误差项为随机误差项1、解释变量间存在、解释变量间存在完全共线性完全共线性(perfect multicollinearity)2、近似(、近似(不完全、高度)不完全、高度)共线性共线性(near/imperfect/high multicollinearity)不可能获得所有参数的唯一估计值及根据样本进行任何不可能获得所有参数的唯一估计值及根据样本进行任何统计推断。统计推断。OLS估计
4、量仍是最优线性无偏估计量估计量仍是最优线性无偏估计量3/3/2023完全多重共线性和不完全多重共线性:举例完全多重共线性和不完全多重共线性:举例 完全多重共线性模型:X3=300-2X2 R2=1,且相关系数r=1 (模型8-3)两个变量之间存在精确的线性关系 不完全多重共线性模型X4=299.92-2.0055X2+e (模型8-9)R2=0.9770,且相关系数r=-0.9884两个变量之间存在不精确的线性关系,即存在近似的线性关系.注意:注意:除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于问
5、题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。OLS估计量仍是最优线性无偏估计量(BLUE).(即不违背前面第四章所学过的任何基本假定)但这不代表任何一个样本估计值的性质(如方差最小等)多重共线性本质上是一个样本(回归)现象多重共线性本质上是一个样本(回归)现象。即使在总体回。即使在总体回归方程中解释变量归方程中解释变量X X之间不是线性相关的之间不是线性相关的,但在某个样本中但在某个样本中,解释变量解释变量X X之间可能线性相关之间可能线性相关.存在不完全多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大容易使通过样本
6、计算的容易使通过样本计算的t值小于临界值,值小于临界值,误导作出参数为误导作出参数为0的推断的推断,最终得出最终得出t检验检验结果与实际不符结果与实际不符可能将重要的解释变量排除在模型之外可能将重要的解释变量排除在模型之外概念:方差膨胀因子概念:方差膨胀因子222222222()1iiVar bVIFxxR223222332()1iiVar bVIFxxR2211VIFR根据P76第四章有:R2增加 b2和b3的方差(或标准差)增加(或膨胀)多重共线性使参数估计值的方差增大多重共线性使参数估计值的方差增大,1/(1-R2)为为方方差膨胀因子差膨胀因子(Variance Inflation Fa
7、ctor,VIF)当完全不共线完全不共线时,R2=0 当近似共线近似共线时,0 R2 11,VIF 二、二、多重共线性的实际后果多重共线性的实际后果(8.4)(8.4)1、OLS估计量的方差和标准误较大。2、置信区间变宽。由于标准误较大,故总体参数的置信区间就变宽了。3、t值不显著。由于标准误变大,所以t值变小,零假设易被接受。4、R2值较高,但t值并不都是显著的。变量间作用抵消。5、OLS估计量及其标准误对数据的微小变化非常敏感。6、回归系数的符号有误。不能通过经济意义的检验。7、难以评估各个解释变量对ESS或R2的贡献。时间序列样本时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投
8、资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业二者都小。补充:产生多重共线性的主要原因(了解)补充:产生多重共线性的主要原因(了解)(1 1)经济变量相关的共同趋势)经济变量相关的共同趋势 (2 2)滞后变量的引入)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)Y=f(Xi,Xi-1)显然,两期收入间有较强的线性相关性。(3 3)样本资料的限制)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种
9、程度的多重共线性 一般经验一般经验:时间序列数据时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据截面数据样本:问题不那么严重,但多重共线性仍然是存在的。三、多重共线性的诊断三、多重共线性的诊断(8.5)(8.5)(1)检验多重共线性是否存在及度量共线性的程度;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。(1)没有度量多重共线性的单一方法;(2)具有的是一些经验法则,即是在具体应用中能够提供判断存在多重共线性的一些线索。任务:注意:1 1、对多个解释变量的模型,采用综合统计检验法、对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与与F值较大,但值较大,但
10、t检验值较小检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。三、多重共线性的诊断R2值较高,但解释变量t值统计显著的不多。这是共线性的典型特征首先,检验多重共线性首先,检验多重共线性是否存在(是否存在(1 1)()(2 2)2 2、对两个解释变量的模型,采用简单相关系数法、对两个解释变量的模型,采用简单相关系数法3 3、对多个解释变量的模型,检查偏相关系数。、对多个解释变量的模型,检查偏相关系数。计算这些解释变量两两之间的相关系数,如果有些相关系数很高相关系数很高(如超过如超过0.8)0.8),则可能认为存在较为严,则
11、可能认为存在较为严重的共线性。重的共线性。三、多重共线性的诊断(8.5)求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。但是,这一标准并不可靠但是,这一标准并不可靠,有时候,两两相关系数可能较低,但仍可能存在共线性。进一步确定哪些变量引起的4、从属回归或辅助回归(判定系数检验法)、从属回归或辅助回归(判定系数检验法)Step1:使模型中每一个解释变量分别以其余解释变量为解释变量进行回归(这些回归称为从属回归或辅助回归Ste:2:首先观察这些辅助回归相应的拟合优度(或判定系数)的大小;然后对这些辅助回归进行F检验H0:Rj.2=0 Xji=1X1i+2X2i+L
12、XLi2.2./-1-/jjESSjjjRSSESSRdfFRSSRdf解释变量个数样本量 待估参数个数若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。4、从属回归或辅助回归(判定系数检验法)、从属回归或辅助回归(判定系数检验法)Rj2:第j个解释变量对其他解释变量的回归方程的判定系数 若存在较强的共线性 Rj2较大且接近于1 (1-Rj2)较小因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。从而Fj的值较大。3/3/2023 5、方差膨胀因子 其中,R22表示解释变量之间辅助回归方程的样本决定系数。2211VIFR3/3/2023四、多重共线性评价:必
13、定不好吗?根据不同的研究目地加以选择:目的一:预测因变量的均值,即使存在多重共线性,只要模型中的共线性一直存在下去,并且具有较高的解释能力(判定系数较大)目的二:除了要求进行预测,还要估计模型参数。则严重的共线性存在就不好 目的三:估计一组系数(如估计两个系数的和或差,例如,解释行业生产规模效应),存在共线性也没有问题。五、克服多重共线性的方法(8.8)1、排除引起共线性的变量、排除引起共线性的变量找出引起多重共线性的解释变量,将它排除出去。(补充)(补充)逐步回归法:逐步回归法:以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计根据拟合优度的变化决定新引入的变量是否独立若拟合优度变化显著若拟合优度变化显著,则说明新引入的变量是一个独立解释变量;若拟合优度变化很不显著若拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系两难:共线性;设定误差2、获取额外的数据或新的样本3、重新考虑模型4、参数的先验信息5、变量变换增加样本可改善共线性问题,但有困难五、克服多重共线性的方法既然先验信息难以获得,且其准确性易遭质疑名义变量变为实际变量、采用变量的差分形式本章重点复习本章重点复习:8.18.12;8.148.18、8.20