1、1第五章第五章 线性回归的定式偏差线性回归的定式偏差 2n前面介绍的线性回归分析建立在模型假设成立的基础上,但这些假设并不必然成立。 n本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等,导致线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响,判断和处理的方法等。 3本章结构本章结构第一节 变量关系非线性 第二节 异常值第三节 规律性扰动 第四节 解释变量缺落 第五节 参数变化4第一节第一节 变量关系非线性变量关系非线性一、问题二、发现与判断三、问题处理和非线性回归 5一、问题n线性回归模型都假设变量关系是线性随机函数关系,或者经过特定数学变换以后是线性随机函数关
2、系。 n但实际变量关系可能会存在偏差,存在用线性模型分析非线性关系的可能性。 n把非线性变量关系当作线性关系处理,也可以说是违反误差项均值为0的假设,对线性回归分析的有效性有根本性的破坏作用。 6n例如若两个变量之间的真实关系为: n其中 满足 =0和线性回归模型的其他假设,但如果我们直接用: 进行回归分析,那么因为:n因此:n 显然不可能始终为0。210XY)(EXY10XX12100 XXE12100)(E7n把非线性变量关系作为线性关系进行分析是变量关系的误识别。n不仅会使得回归分析的拟合程度降低,还会对经济规律作出错误判断,以及导致较大的预测偏差,属于计量经济分析比较严重的问题。 8二
3、、发现与判断n由于有随机扰动因素的影响,线性回归模型的错误设定并不是很容易发现的。 n发现和判断变量关系非线性,首先是用数理经济分析的方法,对模型的函数关系进行更深入的分析。 n其次是根据数据和及其分布图形、散点图进行直接判断。9n更重要的方法是根据回归残差序列,从技术角度发现和判断异常值问题。 n回归残差序列根据被解释变量的实际值和回归理论值之差计算。 n在EViews软件进行回归分析时,可以在得到回归结果后在回归结果窗口点击View/Actual,Fitted,Residual/ Actual,fitted,residual table,直接得到回归残差序列和残差序列图。n如果模型存在变量
4、关系非线性问题,回归残差序列会表现出有规律的变化。 10n例如当发现模型的回归残差序列有图5.1所示的规律性变化,就应该考虑存在把非线性关系(二次函数等)当作线性关系进行回归的问题,必须进行处理。 图图5.1 非线性变量关系的残差序列非线性变量关系的残差序列 ei11n用回归残差序列判断变量关系非线性的最大问题是,线性回归模型的其他某些一些问题,如参数(结构)改变等,与变量关系非线性的表现形式常常很相似,不容易正确区分。 n因此必须结合问题背景分析、相关理论和经验进行综合判断,然后再通过处理和结果的反复比较加以确定。 12三、问题处理和非线性回归 n解决错误的第一步,是恢复变量之间的真实函数关
5、系。n然后再设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。 n如果变量关系可以用初等数学变化转化为线性模型,那么只要在转化后再进行线性回归分析就可以了。 13n但也有不少非线性变量关系无法通过初等数学变换转化为线性模型。例如Y和X之间有两变量关系如下:n其中 、 、 是未知参数,这个函数就无法通过初等数学变换转化为线性模型。n这时候就需要直接处理非线性回归模型。非线性回归分析是线性回归分析的自然扩展。 XeY14n我们假设非线性函数关系为:n其中 是K个解释变量, 是模型的P个参数, 为多元非线性函数,且对 是连续可微的。n对于这种非线性回归模型,解决的方法之一是利
6、用级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。 PKXXfY,;,11KXX,1P,1fP,115n泰勒级数展开先要取一组参数的初始值:n然后将上述非线性函数在该点处对 作泰勒级数展开,并只取其中的线性项而忽略所有高次项,得到: 010,PbbP,11001001100110,10,;PPKPbbPPbbPfYfXXbbbfb16n其中 为原变量关系中的误差项 与泰勒级数展开的高阶项之和。 n整理上述展开式,移项合并可化为:10010011000,11,;PPKPPPiibbbbiiiiYfXXbbffb17n若令:n我们得到:n这是一个 对 的线性回归模型,可以用最小二
7、乘法估计其中参数 的估计值,我们记为 PiibbiPKbfbbXXfYMP10,0101010;,010,PbbiifZPPZZZM2211MPZZ,1P,1111,Pbb 18n经过泰勒级数展开得到的线性模型只是原变量关系的近似,虽然可以把 作为原模型参数的估计,但效果可能没有保证。 n由于 和参数真实值的近似程度越高,级数展开忽略的高阶项越不重要,因此提高级数展开初始值与参数真实值的近似程度有利于提高上述间接估计的精度。n提高近似程度的方法是,把前一次回归得到的估计值作为新的级数展开初始值,再进行新的级数展开。然后再作变换和线性回归,得到另一组参数估计值。 111,Pbb 010,Pbb1
8、9n这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。 n最后得到的 就是非线性回归模型的参数估计值。n除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接进行非线性回归分析。 n不过由计量软件进行非线性回归的迭代优化分析就不存在这方面的困难,只要直接输入相关命令即可。 Pjjbb,120例51某地消费函数 表表5.1 某地消费函数相关数据某地消费函数相关数据年度 Y C 年度 Y C 年度 Y C1950 791.8 733.2 1962 1170.2 1069.0 1974 1896.6 1674.01951 819.0 748.7 1963 1207.3 1108.4 197
9、5 1931.7 1711.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81954 894.0 822.7 1966 1431.3 1298.9 1978 2167.4 1961.01955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41956 989.4 899.8 1968 1551.3 1405.9 1980 2214.3 2000.41957 1012.1 919
10、.7 1969 1599.8 1456.7 1981 2248.6 2024.21958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71959 1067.2 979.4 1971 1728.4 1538.8 1983 2334.6 2145.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91961 1123.2 1025.2 1973 1916.3 1689.6 1985 2509.0 2312.621n为了选择进行回归分析的模型,可以用EViews软件作两个变量的散点图。
11、 n建立工作文件和输入收据后,用Graph命令或菜单操作可得到两个变量的如下散点图: 22图5.2 某地收入对消费的散点图 500100015002000250030005001000150020002500CCYY vs. CC23n根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。n但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,如图5.3,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。24图5.3 某地消费函数回归残差序列图 -60-40-2002040605055606570758085CC Residuals25n根据该残
12、差序列图,可以考虑变量之间存在非线性关系的可能,因此可考虑采用泰勒级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。 26第二节第二节 异常值异常值一、问题二、异常值的发现判断三、问题的处理27一、问题n现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。n这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。 n这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。 28n如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误
13、差项在相应时点存在均值非0的问题。 n例如变量Y 和X 在长期中的关系基本满足线性回归模型的各个假设,但在时刻 有一个突发情况,使得Y 出现一个C 单位的暂时性波动。那么如果用线性回归模型: 分析这两个变量的关系,其误差项的均值是: 0iXY29n显然不是 对任意i 都成立,也就是模型的假设(2)是不成立的。n这种情况如果不作处理,线性回归分析的有效性也会受到不利影响。n异常值会使回归分析结果出现较大偏差,参数估计量的性质和相关统计推断都会失效。 000)(iiCiiEi当当0)(iE30二、异常值的发现判断n发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济
14、事件以及数据序列的直接分析等。n残差序列分析也是从技术角度发现和判断异常值问题的基本方法。n因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。 31回归残差序列分析发现和判断异常值问题的方法 n在模型假设成立的前提下,回归残差是服从正态分布的随机变量,其取值95%左右的概率应分布在均值加减2倍标准差的范围内。 n如果发现某个残差 出现: 其中 是残差的标准差,模型在时点i处就很可能存在异常值问题。 ie2Sei122KneSSii32n上述回归残差序列分析等价于下列残差序列图分析。n把根据回归残差序列和残差标准差计算出的 /S数据序
15、列,描绘到以i为横轴,以 /S为纵轴的坐标平面上,再在纵轴的 处画上两条水平的临界线。n以误差序列中是否有点落在两条临界线范围之外作为判断异常值的初步标准。 iee233图5.4 异常值的残差序列图检验i2234n用EViews软件进行回归分析可以直接输出残差序列图,并且在图形中包括有两倍标准差的临界值,因此可以直接根据EViews输出的残差序列图判断是否有异常值的可能性。n如果有个别 /S坐标落在两条临界线的范围以外,就意味着在i 时点上有异常值。 n当然,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。 ie35n存在多个较大残差不
16、能简单地认为是多个异常值,而是应该作进一步的深入分析,结合对其他问题的分析进行判断。 n此外,上述残差序列判断异常值的临界值标准是95%置信度的,当 /S的绝对值落在2到3之间时,用95%的置信度判断有异常值,而用99%的置信度判断则可能没有异常值,因此仍然存在模糊的地方。n这时候必须与问题背景分析结合起来考虑,并考虑各点残差相对情况等。ie36三、问题的处理n如果判断模型存在异常值问题,必须作针对性的处理。 n例如一个两变量线性回归模型 ,在 处存在异常值问题: n解决的方法是引进一个针对性的虚拟变量D,其定义式为: XY0ii 000)(iiCiiEi当当37n把这个虚拟变量引进原来的模型
17、,得到一个新的回归模型 , 因此n在引进虚拟变量D的新模型中,异常值就不会造成模型误差项出现均值非0的问题了,从而可以保证回归分析的有效性。 0010iiiiDi当当CDXYCD0001000)() (iiCCiiCDEEii38例例5-2 消费函数模型的异常值问题 -600-400-20002004006008284868890929496980002Y Residuals图图5.5 消费函数残差序列图消费函数残差序列图 39n根据图中的残差分布可以看出,1996、2001和2002年的回归残差绝对值,都大于2倍的残差标准差,因此可能属于异常值。n由于相比之下1996、1999、2000和2
18、001四年的残差偏离更大,而在去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考虑引进四个虚拟变量。 40n再看引进虚拟变量后回归的下列残差序列图,则现在是有多点而不是个别点在2倍标准差临界值之外,而且都离临界值不远,并且2倍标准差的临界值范围也比未引进虚拟变量时小了许多,因此可不再认为存在异常值。41图图5.6 引进虚拟变量后的回归残差引进虚拟变量后的回归残差 -150-100-500501001508284868890929496980002Y Residuals42第三节第三节 规律性扰动规律性扰动一、问题二、问题的发现和判断三、问题的处理43一、问题n周期性或其他规律性扰动,也会
19、使线性回归模型的误差项偏离零均值假设。 n周期性扰动比较典型的例子是商业销量指标的季节性变化。 n这些问题并不影响变量关系的总体趋势,但都会对变量关系产生规律性的影响,如果不预先加以处理或排除掉,就会导致误差项均值非0问题的出现,影响回归分析的效果。 44n例如变量Y 的季度数据中,第一季度总是受到一个季节性因素的影响。 n如果我们忽视这种影响,用两变量模型或多元模型研究Y 规律,就会遇到误差项均值非0问题 第一季度第一季度iCiEi0)(45二、问题的发现与判断n由规律性扰动导致的误差项均值非零问题的发现、判断和处理,与异常值问题基本相似。 n在发现和判断方面,经济问题的背景分析,以及同样的
20、回归残差序列分析,基本上都可以适用于规律性扰动问题。 n规律性扰动在残差序列图上会表现为多个有规律的较大残差,可以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。 46三、问题的处理n解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。 n但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另一种问题,就是误差序列自相关问题(以后会介绍)。 n因此平滑处理并不是克服规律性扰动对线性回归分析影响的好方法。47n处理规律性扰动问题的较好方法也是引进虚拟变量,但有时需要引进多个虚拟变量。 n以上面
21、第一季度存在季节性因素影响的问题为例。如果在这个例子中,使用虚拟变量第一季度当第一季度当iiDi1048n把模型改为 或 Yn那么新模型就不再存在误差项均值非0的问题,回归分析的效果就能得到保证。n如果第一季度受到一种季节性因素扰动,第三季度受到另一种方向和力度不同因素的扰动。那么可以引进两个虚拟变量 CDXYCDXXKK110第一季度第一季度iiDi101第三季度第三季度iiDi10349n把这两个虚拟变量同时引入模型,模型变为 或 Yn新模型同样可以避免由于上述季节性扰动所导致的误差项均值非0问题。n在对截面数据的计量经济分析中,观测对象特征差异导致的规律性扰动,也可以利用虚拟变量加以处理
22、。 3311DCDCXY3311110DCDCXXKK50n利用虚拟变量解决规律性扰动需要注意的是,引进虚拟变量是有限度的,需要谨慎,不能随意引进。 n因为引进更多虚拟变量意味着要估计更多参数和损失自由度,对回归分析的效果有不利影响。 n此外引进虚拟变量还可能落入“虚拟变量陷阱”。 51n例如如果上述季节性扰动模型中同时引进对应全部四个季节的,按照类似规则定义的四个虚拟变量为 、 、 和 ,那么这四个虚拟变量满足相加和为1。n同时出现在一个模型中必然导致解释变量严格线性相关,导致模型的崩溃。n因此在计量经济分析中引进虚拟变量时需要谨慎,要注意避免虚拟变量陷阱。 1D2D3D4D52第四节第四节
23、 解释变量缺落解释变量缺落一、 问题二、发现与判断53一、问题n除了异常值和规律性扰动以外,还有一些定式偏差,如解释变量缺落和参数改变,也是引起误差项均值非0问题的常见原因。 n所谓解释变量缺落就是线性回归模型设定的变量关系中,忽略了某些具有重要的,对被解释变量有趋势性影响的因素。n解释变量缺落会引起误差项均值非0很容易理解,因为被忽略的因素对被解释变量的影响,会在误差项中表现出来,导致误差项不再是纯粹的随机扰动。 54n例如若真实变量关系应该为 其中 满足 及多元线性回归模型的其他假设。n如果建模时忽略了其中的变量 ,即采用变量关系 那么其中的误差项 3322110XXXY0)(E3X221
24、10XXY 3322211100XXX55n满足n由于 、 和 之间不存在线性关系, 不可能始终等于0。n因此缺落重要解释变量的线性回归模型,必然违反误差项0均值的假设。 3322211100)(XXXE1X2X3X)(E56二、发现与判断n发现和判断解释变量缺落或模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。 n在原模型回归分析的基础上对回归残差序列进行分析,如果发现残差序列有某种趋势性,那么可以根据问题背景考虑是否忽略了有重要性的因素。 57n若以怀疑缺落的变量 为横轴,残差e为纵轴,作残差序列分布图。如发现 和e 确实有相关性,如图所示,可初步认为模型缺落了 。 0X
25、0X0Xe0X58n解释变量缺落和模型参数改变问题的处理方法比较简单,因为针对性地加入所缺落的变量,或根据参数改变的时间分不同时期段进行分段回归,就可以解决这些问题。 59第五节第五节 参数变化参数变化一、 问题二、 发现和判断60一、 问题n参数改变指在考察期间(样本数据观测范围),变量关系中的参数发生变化,就是变量关系本身发生变化。 n这时实际上不能用同一个线性回归模型研究变量在整个考察期间的关系。 n如果忽略这种模型参数变化,也会导致误差项均值非0问题。 61n以两变量线性关系在考察期0,T 中的t时刻参数发生变化为例。 n真实的变量关系可以用0,t 和(t,T)两个时期中的两个模型分别
26、表示n其中 和 都满足均值为0和线性回归模型的其他假设,且 , 。 11110XY22120XY122010211162n如果忽略了模型参数的上述变化,简单地用同一变量关系 ,代表Y和X在整个0,n时期的关系,那么因为在两个时期中模型的误差项 分别为:n因此两个时期误差项的均值分别为 XY10 1111010X 2121020X XE111010)( 200211( )EX63n很显然,除非 和 同时成立,否则的均值不可能在两个时期都始终为0。 n如果两个等式同时成立,就意味着两个时期参数没有变化,与假设的情况不一致。因此在参数发生改变时,必然导致误差项均值非0的问题。 02010121116
27、4二、发现与判断n发现和判断模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。 n如果以i为横轴,残差e为纵轴的残差序列分布,存在某个时刻附近转折的情况,如图5.8所示,应该考虑变量关系在该时刻可能存在参数改变。65图图5.8 参数变化参数变化 ei66n根据情况分析和残差序列图的判断不是绝对可靠的,问题典型性不强时更难下结论。 n而且变量关系非线性、解释变量缺落和参数变化等问题在残差分布中的表现往往很相似,因此准确识别的难度很大,常常需要借助经验和用试错的方法进行判断。n检验线性回归模型结构(参数)稳定性,另外有一种专门的“邹检验”(Chow test)方法。 67n具体方法
28、是以怀疑发生结构(参数)变化的时点为界,把观测样本分为两组 。n然后用两组子样本和全样本分别进行回归,将两组子样本回归的残差平方和加总得到 ,称为“无约束残差平方和”,再与全样本回归的残差平方和 ,称为“有约束的残差平方和”,构造下列F统计量: URSSERSSE)22/() 1/()(21KnnSSEKSSESSEFURURR68n其中K是模型(不包括常数项)的解释变量个数, 和 分别是两个子样本的样本容量。 n该统计量服从两个自由度为K+1和 的F 分布。 n因此,如果该F 统计量不大于相应自由度的F 分布临界值,说明有约束和无约束的两个回归残差平方和的差别不明显,模型结构(参数)并没有发
29、生显著变化。反之则说明模型结构确实发生了明显变化。 1n2n2221Knn69n模型参数改变问题的处理方法比较简单,根据参数改变的时间分不同时段进行分段回归就可以解决这些问题。 n在作处理以后,还可以通过对处理后回归结果的比较,确定初步判断是否正确并进一步调整。 70【例53】n这里用例5-1中存在变量关系非线性问题的例子,作为邹检验的例子。 n根据数据散点图和残差序列图显示的情况,我们直接把1972到1973年作为发生可能的结构变化的转折点,也就是把样本区间分为1950,1972和1973,1985两个区间。n直接对这两个样本区间分别回归,得到两个残差平方和分别为2041.117和2577.161,因此邹检验的无约束残差平方和为4618.278。 71n前面已经得到整个样本区间回归的残差平方和,也就是邹检验的有约束残差平方和为12067.83。 n把这两个残差平方和与样本容量和模型解释变量数一起代入邹检验的F统计量,得到 25.82n显然,该统计量是显著的,可以认为模型的结构发生了变化。 )22/() 1/()(21KnnSSEKSSESSEFURURR