1、第第7章章 多重共线性多重共线性7.1 多重共线性的概念多重共线性的概念 多元线性回归模型最小二乘估计多元线性回归模型最小二乘估计量的矩阵表达式为量的矩阵表达式为T1TBX X()X Y =(7.1)TT12kX XX0 ,XXXX 这这一一表表达达式式成成立立的的前前提提条条件件是是即即为为满满秩秩矩矩阵阵,解解释释变变量量、 、之之间间不不是是线线性性相相关关的的。01k0ccc , 若解释变量之间线性相关,即存在 若解释变量之间线性相关,即存在不全为 的常数、 、使得不全为 的常数、 、使得01 1ikkicc Xc X0+=(7.2)(i1,2,n)=TTX X BX()YB , 称模
2、型存在完全的多重共线性。此称模型存在完全的多重共线性。此时,由最优性条件时,由最优性条件不能唯一确定最小二乘估计量最不能唯一确定最小二乘估计量最小二乘法失效。小二乘法失效。=例例7.1 对二元线性回归模型对二元线性回归模型i01 1i22iiYbb Xb X =+(i1,2,n)=12XX若解释变量与线性相关,不妨设若解释变量与线性相关,不妨设(i1,2,n)=2i01 1iXX=+ 利用二元线性回归模型最小二利用二元线性回归模型最小二乘估计量及其方差表达式得乘估计量及其方差表达式得1200b,b,00=12Var(b ), Var(b )=即它们均是不确定的,方差为无穷大。即它们均是不确定的
3、,方差为无穷大。完全的多重共线性不多见,通常是完全的多重共线性不多见,通常是01 1ikki01 1ikkiicc Xc X0cc Xc Xv0 +=或或(i1,2,n)=(7.3)iT1Xv()X其中 为随机项,此时称模型存在近其中 为随机项,此时称模型存在近似的多重共线性。因为存在,似的多重共线性。因为存在,TT12jjjjjjjBX0 ,()CbCjXX X0,1,kbb 最小二乘估计量唯一确定,但由于最小二乘估计量唯一确定,但由于使主对角线上元素使主对角线上元素较大,从而的方差较大,较大,从而的方差较大,。一般地,解释变量之。一般地,解释变量之间线性关系越强, 的方差越大, 的间线性关
4、系越强, 的方差越大, 的精度越低。精度越低。= 完全的多重共线性和近似的多完全的多重共线性和近似的多重共线性统称为多重共线性。它是重共线性统称为多重共线性。它是指解释变量之间的相关。指解释变量之间的相关。7.2 多重共线性的来源与结果多重共线性的来源与结果1. 多重共线性的来源:多重共线性的来源: (1)许多经济变量有共同变动)许多经济变量有共同变动的趋势。如某种商品的价格与替代的趋势。如某种商品的价格与替代品的价格,企业拥有的劳动力和资品的价格,企业拥有的劳动力和资本等都是同向变化的,使解释变量本等都是同向变化的,使解释变量之间相关。之间相关。 (2)把一些解释变量的滞后值也)把一些解释变
5、量的滞后值也作为解释变量在模型中使用,而解作为解释变量在模型中使用,而解释变量与其滞后变量通常是相关的。释变量与其滞后变量通常是相关的。如消费模型中,解释变量除了包括如消费模型中,解释变量除了包括现期收入外,还包括过去的收入,现期收入外,还包括过去的收入,二者是相关的。二者是相关的。 在多元线性回归模型中,多重在多元线性回归模型中,多重共线性是一种普遍的现象,关键问共线性是一种普遍的现象,关键问题是多重共线性的程度及其带来的题是多重共线性的程度及其带来的后果是否严重。后果是否严重。 2. 多重共线性的结果:多重共线性的结果: 若存在完全的多重共线性,则参数若存在完全的多重共线性,则参数的最小二
6、乘估计量不确定,标准差为无的最小二乘估计量不确定,标准差为无穷大。若存在近似的多重共线性,则最穷大。若存在近似的多重共线性,则最小二乘法有效,并且当模型的其他基本小二乘法有效,并且当模型的其他基本假设成立时,最小二乘估计量具有假设成立时,最小二乘估计量具有BLUE性质,但最小方差并不保证方差性质,但最小方差并不保证方差很小。由于最小二乘估计量此时的方差很小。由于最小二乘估计量此时的方差较大,会产生如下后果较大,会产生如下后果 (1)参数估计值不精确,也不稳)参数估计值不精确,也不稳定,甚至出现符号错误,从而不能定,甚至出现符号错误,从而不能正确反映变量之间的影响关系。正确反映变量之间的影响关系
7、。 (2)参数显著性)参数显著性t检验增加了接检验增加了接受零假设的可能,从而舍去有重要受零假设的可能,从而舍去有重要影响的解释变量。影响的解释变量。 多重共线性的后果具有一定的多重共线性的后果具有一定的不确定性。若多元线性回归模型未不确定性。若多元线性回归模型未通过检验,可能来自于多重共线性通过检验,可能来自于多重共线性的影响。的影响。7.3 多重共线性的检验多重共线性的检验1. 对二元回归模型的检验:对二元回归模型的检验: 解释变量观测值的散点图。解释变量观测值的散点图。 解释变量之间的相关系数。解释变量之间的相关系数。 解释变量之间线性回归的拟合解释变量之间线性回归的拟合优度。优度。2.
8、k(k3)元回归模型的检验:元回归模型的检验: 分别用其中一个解释变量关于分别用其中一个解释变量关于其他所有解释变量作回归,拟合优其他所有解释变量作回归,拟合优度最大且接近度最大且接近1说明线性关系显著。说明线性关系显著。 3. 参数估计值的符号,若不符合参数估计值的符号,若不符合经济理论要求,说明可能存在多重经济理论要求,说明可能存在多重共线性。共线性。 4. 增加或减少解释变量,若参数增加或减少解释变量,若参数估计值变化明显,说明可能存在多估计值变化明显,说明可能存在多重共线性。重共线性。 5. 多元线性回归中,若拟合优度多元线性回归中,若拟合优度较高,但较高,但t检验值过小,说明模型可检
9、验值过小,说明模型可能存在多重共线性。能存在多重共线性。7.4 多重共线性的修正多重共线性的修正 如果多重共线性没有造成不利后如果多重共线性没有造成不利后果,可不进行修正。多重共线性的修果,可不进行修正。多重共线性的修正一般通过修改模型,即重新建模。正一般通过修改模型,即重新建模。1. 增加样本观测:增加样本观测: 当解释变量之间总体上不存在多当解释变量之间总体上不存在多重共线性时,通过增大样本容量可降重共线性时,通过增大样本容量可降低多重共线性程度。低多重共线性程度。 2. 略去不重要的解释变量:略去不重要的解释变量: 从模型中略去某些不重要的解释从模型中略去某些不重要的解释变量,可以降低多
10、重共线性,但可能变量,可以降低多重共线性,但可能使随机项不满足零均值假设。使随机项不满足零均值假设。 3. 用被解释变量的滞后值代替解用被解释变量的滞后值代替解释变量滞后值:释变量滞后值:ttt1t27.2YX ,XX 例例个个人人消消费费关关于于现现期期收收入入过过去去收收入入、的的关关系系模模型型t01t2t13t2tYbb Xb Xb X =+t01t2 t1tYbb Xb Y =+tt1XY与线性关系较弱。与线性关系较弱。tt1t2t1t1t2tXXXYXXY通常、 高度相关,用通常、 高度相关,用代替、 对的影响,代替、 对的影响,重新建立模型重新建立模型4. 利用参数之间的关系:利
11、用参数之间的关系: 例例7.3 企业的产出量企业的产出量Y与资金投入与资金投入量量k、劳动投入量、劳动投入量L的关系模型的关系模型lnYlnAlnklnL=+kL1,1通常 与 高度相关。若已知该生产通常 与 高度相关。若已知该生产函数规模报酬不变,即将函数规模报酬不变,即将代入模型,得新模型代入模型,得新模型+=YLlnlnAlnkk=+消除了多重共线性。消除了多重共线性。5. 利用解释变量之间的关系:利用解释变量之间的关系: 引入该附加方程,将单方程模型引入该附加方程,将单方程模型转化为联立方程模型,利用联立方程转化为联立方程模型,利用联立方程模型的方法估计参数,克服多重共线模型的方法估计
12、参数,克服多重共线性。性。6. 变换模型的形式:变换模型的形式: 例例7.4 某产品的销售量某产品的销售量Y与其与其出厂价格出厂价格X1、市场价格、市场价格X2、市场总、市场总供应量供应量X3的关系模型的关系模型0112233lnYbb lnXb lnXb lnX =+121212XXXXXXY通常与高度相关,利用相对价通常与高度相关,利用相对价格代替、对 的影响,格代替、对 的影响,建立模型建立模型101232XlnYbb lnb lnXX =+克服了克服了X1与与X2的相关性。的相关性。7. 对数据进行中心化:对数据进行中心化: 例例7.5 变量变量Y关于关于X的多项式回归的多项式回归模型
13、模型2ki01 i2ikiiYbb Xb Xb X =+jjiiXX ,j1,2 ,k先将模型线性化。令先将模型线性化。令,得,得=i01 1i22ikkiiYbb Xb Xb X =+12kjjijiijjiXXX1XX, XnXX , j1,2 ,k , 通常、 、高度相关。对数据通常、 、高度相关。对数据进行中心化。令进行中心化。令建立模型建立模型=i01 1i22ikkiiYbb Xb Xb X =+一般会降低多重共线性。一般会降低多重共线性。 当回归模型主要用于预测时,多当回归模型主要用于预测时,多重共线性不会对预测结果造成影响。重共线性不会对预测结果造成影响。因为预测精度主要由拟合
14、优度因为预测精度主要由拟合优度R2大大小决定。小决定。8. 逐步回归法:逐步回归法: 用被解释变量分别对每个解用被解释变量分别对每个解释变量作回归,从中选取影响关系释变量作回归,从中选取影响关系最显著的(拟合优度最高)的回归最显著的(拟合优度最高)的回归方程作为基本回归方程。方程作为基本回归方程。 在基本方程中逐个增加其他在基本方程中逐个增加其他解释变量,若提高了拟合优度且通解释变量,若提高了拟合优度且通过检验,保留该解释变量;若没有过检验,保留该解释变量;若没有提高拟合优度,则不保留该解释变提高拟合优度,则不保留该解释变量;若提高了拟合优度但未通过检量;若提高了拟合优度但未通过检验,说明存在
15、多重共线性,保留对验,说明存在多重共线性,保留对被解释变量影响较大的解释变量。被解释变量影响较大的解释变量。7.5 案例分析案例分析 例例7.6 英国英国19591968年服装年服装消费消费Y与可支配收入与可支配收入X1、流动资产、流动资产X2、服装价格指数服装价格指数X3、一般商品价格指数、一般商品价格指数X4的关系,数据见表的关系,数据见表7-1(P191)。)。建立回归模型建立回归模型01 1223344Ybb Xb Xb Xb X =+最小二乘法的估计结果为最小二乘法的估计结果为标准差标准差(0.05)(0.15)(7.5)(0.03)(0.09)12Y13.530.097X0.015
16、X =+341.99X0.34X+2R0.998 , d3.4 , F15.6= 分别计算分别计算X1、 X2、 X3、 X4的两的两两相关系数,得两相关系数,得121314232434r0.993 ,r0.980 ,r0.987r0.964 ,r0.973 ,r0.991= 可见解释变量之间高度相关。采可见解释变量之间高度相关。采用逐步回归法:用逐步回归法: 1. 对对Y分别关于分别关于X1、 X2、 X3、 X4作回归,得作回归,得1(1) Y1.240.118X =+标准差标准差(0.37)(0.002)2R0.995 ,d2.6=2(2) Y2.110.327X =+标准差标准差(0.
17、81)(0.02)2R0.967 , d0.4=标准差标准差(4.20)(0.04)2R0.951, d2.4=3(3) Y38.510.516X =+标准差标准差(3.63)(0.03)2R0.977 , d2.1=4(4) Y53.650.663X =+根据经济理论分析和回归结果,可根据经济理论分析和回归结果,可支配收入支配收入X1是最重要的解释变量,是最重要的解释变量,选取第一个回归方程为基本回归方选取第一个回归方程为基本回归方程。程。2. 加入服装价格指数加入服装价格指数X3,作回归得,作回归得标准差标准差 (4.92)(0.01)2R0.996 ,d2.5=13Y1.40.126X0
18、.036X =+(0.07)拟合优度拟合优度R2有所增加,参数估计值有所增加,参数估计值符号正确,保留符号正确,保留X3 。3. 再加入流动资产再加入流动资产X2,作回归得,作回归得标准标准差差(5.17)(0.02)2R0.996 ,d3.1=123Y0.940.138X0.037X0.034X =+(0.05)(0.06)拟合优度拟合优度R2没有增加,没有增加,X2系数的符系数的符号不正确,说明存在严重的多重共号不正确,说明存在严重的多重共线性,需要修正。比较线性,需要修正。比较X2与与X3,服,服装价格指数比流动资产对服装消费装价格指数比流动资产对服装消费量影响大,保留量影响大,保留X3,舍弃,舍弃X2 。 4. 加入一般商品价格指数加入一般商品价格指数X4,作回,作回归得归得标准标准差差(6.52)(0.01)2R0.997 ,d3.5=(0.07)(0.12)134Y12.760.104X0.188X0.319X =+拟合优度有所增加,回归系数均显拟合优度有所增加,回归系数均显著且符号正确,保留著且符号正确,保留X4 。 此模型中解释变量仍存在多重此模型中解释变量仍存在多重共线性,但没有造成不利后果,这共线性,但没有造成不利后果,这是相对较好的服装消费模型。是相对较好的服装消费模型。