1、1异方差性序列相关性多重共线性随机解释变量模型设定误差2一、方差非齐性的概念 二、二、实际中的异方差性三、异方差性的后果 四、异方差性的检验 五、异方差的解决加权最小二乘法(WLS) 3 经典线性回归分析的一个基本假设是:回归模型中随机误差项的方差为常数,即n , 2, 1,i 2uiVar这一假设称为方差齐性假定或同方差性假定。4如果回归模型中的随机误差项的方差不是常数,即对于不同的样本点,随机误差项的方差不再是常数,则称随机误差项的方差非齐性或为异方差。n , 2, 1,i 2iiVar5情形之一:随机误差项的方差是随着某一个解释变量观测值的变化而呈现规律性的变化;例如,越来越小,边错边改
2、学习模型在学习过程中行为误差随时间而减少;随着收入的增加,储蓄的变异越来越大;情形之二:数据采集技术的改进带来差错率的减小;6情形之三:回归模型的设定不正确,如遗漏了重要变量;情形之四:因为存在异常值;最常见情形:采用截面数据作样本的经济计量学问题,由于在不同样本点上解释变量以外的其他因素的差异较大,所以往往存在异方差性。 7 一旦出现异方差性,如果仍采用普通最小二乘法估计模型参数。会产生以下不良后果: 参数估计量非有效。(是无偏和一致量) 变量的显著性检验失去了意义 。可能由显著变成不显著。 模型的预测失效。 8 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性。如果相关
3、,就说明存在异方差性,如果不相关,严格说,不能认为不存在异方差。但在实际中,如果不相关,就不再进行异方差处理了。 9 一般情况下,当回归模型满足所有假定时,残差图上的个点散布应是随机的、无任何规律。如果回归存在异方差时,残差图上的点的散布呈现出相应的趋势:残差值随被解释变量值的增大而增大 ,或增大而减小,或呈现蛛网现象(表明具有自相关)。这都表明,方差非齐性。 对于多元模型,需要选择残差对多个解释变量描点。 10 又称斯皮尔曼(spearman)检验,是一种应用较广泛的方法。它既可用于大样本,又可用于小样本。等级相关检验的步骤有三:第一步,对y进行x的普通最小二乘回归,求出残差的估计值;第二步
4、,取残差的绝对值,把自变量与残差估计值按递增或递减的次序排列后分成等级,按下式计算出等级相关系数11其中,为样本容量,为等级的差数。 第三步,对等级相关系数进行显著性检验。在8下,用下式对样本等级相关系数进行检验。检验统计量为niisdnnr122161212ssrnrt如果, 可以认为异方差性问题不存在,反之,说明自变量与残差之间存在系统影响关系,异方差性问题存在。(等级相关系数可以如实反映单调递增或单调递减趋势的变量之间相关性,而简单相关系数适宜衡量直线趋势变量之间相关性)22/ntt12 又称戈德菲尔德匡特检验。其思路如下:首先将样本按某个解释变量的大小顺序排列,并将样本从中间(略去居中
5、的c个观测)截成两段;然后各段分别用普通最小二乘法拟合回归模型,计算各段的残差平方和,从而计算出各段模型的随机误差的方差估计量 。2221 和13由此可构造出检验统计量F其中,为样本容量,为解释变量个数。该统计量服从自由度为(-1)和( -1)的F分布。在给定的显著性水平下,若统计量F值大于临界值,则认为存在异方差。 1/1/2221112221kneekneeF14其思想是:对于多元模型,如果误差方差与解释变量具有线性函数关系,则通过对该方程回归系数的联合检验可以判断是否同方差。15其步骤如下:第一步,采用方法估计原模型,得到残差估计值;第二步,计算 这是随机误差项方差的极大似然估计量。第三
6、步,构造:第四步,建立对诸的回归:第五步,求出(回归平方和),并计算统计量nei2222iiep imimiiivxxxp2211016假定随机误差项是正态分布的。可以证明:如果有同方差性,当样本容量无限增大时,统计量服从自由度为的方分布。判断:如果超过给定显著性水平对应的临界值,就可拒绝同方差性假设;否则不拒绝。ESS2117 它采用普通最小二乘估计的残差或其绝对值或其平方作为被解释变量,建立各种回归方程,然后通过检验回归系数是否为0,来判断模型的随机误差项是否有某种变动规律。如果为0,,说明没有规律存在,如果不为0,说明有规律存在。如果有规律存在,则存在异方差。 18 戈德菲尔德匡特检验要
7、求按照被认为是引起异方差性的解释变量观测值的重新排序,而则容易受到偏离正态性假定的影响。怀特的检验更具实用性。用残差平方对所有解释变量及其平方项和交叉乘积项进行回归,并检验各回归系数是否为0,这是H.White 提出的方法。19其基本步骤如下:步骤一,对给定的数据采用方法估计模型,并得到残差;第二步,建立如下辅助回归模型,得到 :第三步,构建统计量在无异方差性的零假设下,该统计量渐进服从自由度为解释变量个数的方分布。iiiiiiivxxxxxxei2152242322110212R2Rn20第四步,当计算的统计量数值超过给定显著性水平下的方临界值时,拒绝零假设,认为存在异方差性,否则,接受零假
8、设,即不存在异方差性。值得注意的是:怀特检验可能是异方差性的一个检验,也可能是设定错误的一个检验,或两者兼有。21(1)用残差对理论值的平方或立方进行线性回归,然后检验各回归系数是否显著不为0。(2)用残差绝对值对每个解释变量建立各种(线性一次、倒数、二次方)回归模型,并检验回归系数是否显著为0。这是格莱泽(Glejser)在1969年提出的方法。 22如果模型被证明存在异方差性,则需要发展新的方法估计模型,最常用的方法就是加权最小二乘法。一般情况下,对于模型 WUUEUUCovUEUXBY2)()(0)(23 w wn21wW即存在异方差性。设DDW用 左乘线性回归模型 1DUXBY得到:
9、UDXBDYD111该模型具有同方差性。 24因为 IDDDDWDDDUUEDDUUDEUUE21211211111*)()()*(于是用普通最小二乘法得到参数估计量为25YWXXWXYDDXXDDXYXXXB11111111*1*)(这就是原模型的加权最小二乘估计量,是无偏的、有效的估计量。 26 以原模型的普通最小二乘估计的随机误差的近似估计量为权矩阵的估计量。即 22221 neeeW27 利用统计软件计算时,只要选择加权最小二乘法,将上述权矩阵输入,估计过程即告完成。在实际使用时,并不对原模型进行异方差性检验,而是直接选择加权最小二乘法,如果确实存在异方差性,则被有效地消除了;如果不存
10、在,则加权最小二乘法等价于普通最小二乘法。 28 1.选择普通最小二乘法估计原模型,得到随机误差项的近似估计值 ; 2.建立近似估计值倒数的数据序列 ; 3.选择加权最小二乘法,以序列作为权,进行估计得到参数估计量。实际上是以 乘原模型的两边,得到一个新模型,采用普通最小二乘法估计新模型。ieie/1ie/1ie/129可以用SPSS软件完成如果方差已知,观测值的权数应该是观测值误差项方差的倒数,即21iiw分母为第i个观测值误差项的方差。误差项较大的观测值接受较小的权数;误差项方差较小的观测值接受较大的权数。误差项方差随一个自变量变化。 如果误差项的方差常常是未知的,而当误差项方差随自变量水
11、平以系统的形式变化时,可以利用这种关系来构造权数。(书中列出了四种假设)即 3021iikxw而比例系数k在参数估计时可以消去。类似地,可设定特殊的权函数为(其中m为待定的未知参数).miixw1statistics Regression Weight Estimation 进入权函数对话框x选入Weight变量框,幂指数Power取默认值,可得输出结果。(取似然函数的极大值) 31计算加权最小二乘估计的残差,这需要重新作回归:第一步,在weight estmation对话框中的option选项中,保存最优权作为新变量;第二步,进入线性回归对话框,点选WLS,线性回归对话框会增加一行weigh
12、t变量框,选入第一步的最优权变量;第三步,点选线性回归对话框的Save选项,保存残差变量,运行;第四步,以自变量为横轴,加权最小二乘估计的残差为纵轴画残差图。 32几点说明:怀特的“异方差性相一致”的方差与标准差。见Eviews软件。对原始数据取对数,也可以减低异方差性。但如果数据中出现负数或零的数据时便不适用。33等级相关戈德菲尔德-匡特检验34一、序列相关的概念二、序列相关产生的背景与原因 三、序列相关性的后果 四、序列相关性的检验 五、序列相关问题的处理方法 35 在回归模型中我们总假定不同时点的随机误差项之间是不相关的,即 ji 0),(jiCov如果一个回归模型不满足上述假设,即 j
13、i 0),(jiCov则我们称随机误差项之间存在序列相关现象。 36 如果仅存在 0)(1iiE称为一阶序列相关,这是最常见的一种序列相关问题。序列相关不是指两个或两个以上的变量之间的相关关系,而是指一个变量前后期数值之间存在的相关关系。序列相关又称自相关。本节主要讨论序列相关现象产生的背景和原因,序列相关现象对回归分析带来的影响,诊断序列相关是否存在的方法,以及如何克服序列相关现象带来的影响。 371.遗漏关键变量时会产生序列自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起序列相关4.蛛网现象可能带来序列的自相关性5.因对数据加工整理而导致误差项之间产
14、生自相关性。38 一旦出现序列相关,而仍采用普通最小二乘法估计模型参数,会产生下列不良后果:1.参数估计量是无偏和一致的,但不是有效的,而且呈现出低估的情形。2.变量的显著性检验失去意义3.模型的预测失效39其一般线性回归模型可表示为:T tXXXYttkkttt, 2 , 1 33221式中随机误差项往往前后期相关,即序列相关。序列相关的表现形式有多种,对于多数经济现象而言,其现期数值受过去近期的数值影响较大,而受过去远期的数值影响较小,并且时间的间隔越远,其影响就越小。 40这种形式的序列相关可用一阶自回归形式来描述,且系数要限制为:且假设: 1 st 0, Var 0 21stvtttt
15、tvvCovvvEv在 假定下,一阶自回归过程是平稳的,即随机误差项ut的均值、方差和各阶协方差都为常数,并不随时间的改变而改变。 141将随机误差项ut的各期滞后值 2321211tttttttttvvv代入一阶自回归模型得到: 0221kktkttttvvvv42这表明回归模型的随机误差项可表示为独立同分布的随机误差序列的加权和,权数分别为1,,2,。当01时,这些权数随时间推移而几何衰减;而当-10),那么 接近奇异的程度就会比 小得多。 0XXXX kIXXXX 98将数据标准化后,这时可以得到的岭回归估计量:如果Y也标准化,则得到标准化岭回归估计。 作为的估计应比最小二乘估计稳定,当
16、k=0时的岭回归估计实际就是普通最小二乘估计。 YXkIXXk1 k99这是岭回归的编程语句:INCLUDEE:SPSS10Ridge Regression.sps.RIDGEREG DEP=zy/ENTER zx1 zx2.运行后(run all)结果如下:当k较小时,回归系数很不稳定,而当k逐渐增大时,回归系数呈现稳定状态,那么k取何值时,回归参数才优于普通最小二乘估计呢?100在讨论中,假设因变量观测值向量未经标准化。性质1:岭回归的参数估计是回归参数的有偏估计 XXkIXXyEXkIXXyXkIXXEkE111101显然,只有当k=0时, ,当k0时, 是的有偏估计。有偏性一岭回归估计
17、的一个重要性质。性质2:在岭参数k与y无关的情形下,是最小二乘估计的一个线性变换,也是理论值y的线性函数。因为 0E k 1111XXkIXXyXXXXXkIXXyXkIXXk102性质3:以MSE表示估计向量的均方误差,则存在k0,,使得pjjpjjjDkEMSEkMSE112即103我们的目的是要选择使MSE(k)达到最小的k,而最优k值依赖于未知参数和 ,因而在实际应用中必须通过样本来确定。目前还没有形成一个公认的最优方法。但常用的方法主要有:岭迹法、方差扩大因子法、残差平方和方法。我们主要介绍岭迹法。2104 如果最小二乘估计看来有不合理之处,就可采用适当的岭估计来加以一定程度的改善,岭参数k 值的选择很重要。选择k值的一般原则是:各回归系数的岭估计基本稳定;105用最小二乘估计时回归系数符号不合理,其岭估计的符号变得合理;回归系数没有不符合经济意义的绝对值;残差平方和增大不多。显然,岭迹法确定的k值,缺乏令人信服的理论依据,具有主观性,可以较好地发挥定性分析与定量分析相结合的方法。 106岭回归一个重要应用就是确定哪些变量可以从方程中剔除。其一般原则:数据中心化与标准化后,一般剔除标准化岭回归系数较稳定且绝对值很小的自变量;剔除那些岭回归系数不稳定、震动趋于零的自变量;去掉标准化岭回归系数很不稳定的自变量。去掉几个依据定性分析和新建模型效果来决定。