违背基本假设的情况课件.ppt

上传人(卖家):晟晟文业 文档编号:4946128 上传时间:2023-01-27 格式:PPT 页数:86 大小:2.70MB
下载 相关 举报
违背基本假设的情况课件.ppt_第1页
第1页 / 共86页
违背基本假设的情况课件.ppt_第2页
第2页 / 共86页
违背基本假设的情况课件.ppt_第3页
第3页 / 共86页
违背基本假设的情况课件.ppt_第4页
第4页 / 共86页
违背基本假设的情况课件.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

1、第第4 4章章 违背基本假设的情况违背基本假设的情况 4.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 异常值与强影响点 4.6 本章小结与评注 第四章第四章 违背基本假设的情况违背基本假设的情况),2,1,()(,2,1,)(ni,j j0 ,ij,i,cov n0,iE2jiiGauss-Markov条件 4.1 4.1 异方差性产生的背景和原因异方差性产生的背景和原因 一、异方差产生的原因一、异方差产生的原因 例例4.1 4.1 居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额

2、,一个简单的消费模型为:yi=0+1xi+i,i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。4.1 4.1 异方差性产生的背景和原因异方差性产生的背景和原因 二、异方差性带来的问题二、异方差性带来的问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(一)残差图分析法(一)残差图分析法 图2.5(b)存在异方差4.2

3、4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(二)等级相关系数法(二)等级相关系数法 等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:niisdnnr122)1(61其中,n为

4、样本容量,di为对应于xi和|ei|的等级的差数。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:如果tt/2(n-2)可认为异方差性问题不存在,如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。212ssrrnt4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 例例4.3 4.3 设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点

5、图;(2)诊断该问题是否存在异方差;序号 储蓄y(万元)居民收入x(万元)1 2 3 3126410590230087779210995438200 4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 序号储蓄y居民收入xxi等级残差ei|ei|ei|等级di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477

6、-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.45101003123003820031-286.1286.1247492id4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 X40000300002000010000

7、0Unstandardized Residual6004002000-200-400-600图图4.1 残差图残差图4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 用用SPSSSPSS计算等级相关系数。计算等级相关系数。Correlations1.000.686.0003131.6861.000.000.3131Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NABSEXSpearmans rhoABSEX4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 (2 2)计算等级相

8、关系数。)计算等级相关系数。6859.01558)131(31612sr076.56859.016859.02312t4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 Spearman等级相关系数可以反映非线性相关的情况,Pearson简单相关系数不能反映非线性相关的情况。例如x与y的取值如下,序号1 2 3 4 5 6 7 8 9 10 x1 2 3 4 5 6 7 8 9 10y1 4 9 16 25 36 49 64 81 1002iixy 容易计算出y与x的简单相关系数r=0.9746,而y与x的等级相关系数rs=1具有完全的曲线相关。4.2 4.2 一元加权最小二乘估计一元加

9、权最小二乘估计 二、一元加权最小二乘估计二、一元加权最小二乘估计消除异方差性的方法通常有:l 加权最小二乘法,l Box-Cox变换法,l 方差稳定性变换法加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 二、一元加权最小二乘估计二、一元加权最小二乘估计 )()(),(11210210niniiiiixyyyQ一元线性回归普通最小二乘法的残差平方和为:一元线性回归的加权最小二乘的离差平方和为:niiiiniiiiwxywyywQ12101210)()(),(4.2 4.2 一元加

10、权最小二乘估计一元加权最小二乘估计 加权最小二乘估计为:211110)()(niwiiwiniwiiwwwwwxxwyyxxwxy其中,iiiwxwwx1iiiwywwy1是自变量的加权平均;是因变量的加权平均。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 观测值的权数应该是观测值误差项方差的倒数,即21iiw在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例,其中m是待定的未知参数。此时权函数为miixw14.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 三、寻找最优权函数三、寻找最优权函数利用SPSS软件可以确定幂指数m的最优取值。依次点选Analyze

11、-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 Log-likelihood Function=-224.258830 POWER value=-2.000Log-likelihood Function=-221.515008 POWER value=-1.500Log-lik

12、elihood Function=-218.832193 POWER value=-1.000Log-likelihood Function=-216.252339 POWER value=-.500Log-likelihood Function=-213.856272 POWER value=.000Log-likelihood Function=-211.773375 POWER value=.500Log-likelihood Function=-210.185972 POWER value=1.000Log-likelihood Function=-209.316127 POWER v

13、alue=1.500Log-likelihood Function=-209.379714 POWER value=2.000The Value of POWER Maximizing Log-likelihood Function=1.500Log-likelihood Function=-209.316127 4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 Multiple R .96744R Square .93595Adjusted R Square .93374Standard Error .12532 DF Sum of Squares Mean Square F Sig

14、Regression 1 6.6548981 6.6548981 423.741 0.000Residuals 29 .4554477 .0157051Analysis of Variance:Variable B SE B Beta T Sig TX .08793 .004272 .967443 20.585 .0000(Constant)-719.12 78.316 -9.182 .0000Variables in the Equation4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 幂指数m的最优取值为m=1.5。加权最小二乘的r2=0.9360,F值=423.741;普通最

15、小二乘的r2=0.912,F值=300.732。说明加权最小二乘估计的效果好于普通最小二乘的效果。4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 X400003000020000100000Unstandardized Residual6004002000-200-400-600图图4.2 加权最小二乘残差图残差图加权最小二乘残差图残差图4.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 iyixiwieiwe 序号小方差组126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105

16、089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 iyixiwieiwe 序号中等方差组11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-1351

17、4819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2 4.2 一元加权最小二乘估计一元加权最小二乘估计 iyixiwieiwe 序号大方差组222017274302.2012E-073433242321052956

18、01.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.3 4.3 多元加权最小二乘多元加权最小二乘 当误差项i存在异方差时,加权离差平方和为niippiiiiwxx

19、xywQ1222110)(nwww 21W W记 WyWyX XWXWXX X-1w)(加权最小二乘估计WLS的矩阵表达4.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 通常取权函数W为某个自变量xj(j=1,2,,p)的幂函数,即,在x1,x2,xp这p个自变量中取哪一个?这只需计算每个自变量xj与普通残差的等级相关系数,选取等级相关系数最大的自变量构造权函数。mjxW 4.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 例例4.4 4.4 续例3.2,研究北京市各经济开发区经济发展与招商投资的关系。因变量y为各开发区的销售收入(百万元),x1为截至1998年底各开发区累计招商

20、数目,x2为招商企业注册资本(百万元)。计算出普通残差的绝对值abse=|ei|与x1、x2的等级相关系数,re1=0.443,re2=0.721,因而选取x2构造权函数。4.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 Correlations1.000.443.721.098.002151515.4431.000.432.098.108151515.721.4321.000.002.108.151515Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)NCorrelation Coe

21、fficientSig.(2-tailed)NABSEX1X2Spearmans rhoABSEX1X24.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 仿照例4.3,用Weight Estimate估计幂指数m,得m的最优值为m=2。由于m=2是在默认范围-2,2的边界,因而应该扩大范围重新计算。取m从1到5,步长仍为0.5,得m的最优值为m=2.54.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 Multiple R .92163R Square .84941Adjusted R Square .82431Standard Error .03238 DF Sum of Sq

22、uares Mean Square F SigRegression 2 .07096521 .03548261 33.84 0.000Residuals 12 .01258145 .00104845Variable B SE B Beta T Sig TX1 1.696439 .404370 .587146 4.195 .0012X2 .470312 .149306 .440853 3.150 .0084(Constant)-266.9621 106.742 -2.501 .02794.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 加权最小二乘的R2=0.84941,F值=33.84;

23、普通最小二乘的R2=0.842,F值=31.96。加权最小二乘估计的拟合效果略好于普通最小二乘。加权最小二乘的回归方程为:=-266.96+1.696x1+0.4703x2普通最小二乘的回归方程为:=-327.039+2.036x1+0.468x2y y 4.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 方差稳定变换 4.3 4.3 多元加权最小二乘估计多元加权最小二乘估计 Box-Cox变换 0,ln0,1)(YYY4.4 4.4 自相关性问题及其处理自相关性问题及其处理 如果一个回归模型的随机误差项cov(i ,j)0则称随机误差项之间存在着自相关现象。这里的自相关现象不是指两个或

24、两个以上的变量之间的相关,而指的是一个变量前后期数值之间存在的相关关系。4.4 4.4 自相关性问题及其处理自相关性问题及其处理 一、自相关性产生的背景和原因一、自相关性产生的背景和原因 1.遗漏关键变量时会产生序列的自相关性。2.经济变量的滞后性会给序列带来自相关性。3.采用错误的回归函数形式也可能引起自相关性。4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。5.因对数据加工整理而导致误差项之间产生自相关性。4.4 4.4 自相关性问题及其处理自相关性问题及其处理二、自相关性带来的问题二、自相关性带来的问题 1.参数的估计值不再具有最小方差线性无偏性。2.均方误差M

25、SE可能严重低估误差项的方差。3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。4.当存在序列相关时,仍然是的无偏估计量,但在任一特定的样本中,可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。4.4 4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断(一)图示检验法 1.绘制(et,et-1)的散点图。4.4 4.4 自相关性问题及其处理自相关性问

26、题及其处理 三、自相关性的诊断三、自相关性的诊断(一)图示检验法 2.按照时间顺序绘制回归残差项et的图形。4.4 4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断(二)自相关系数法误差序列1,2,n的自相关系数定义为nttnttnttt2212221eeee自相关系数的估计值为 nttnttnttteeee22122214.4 4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断(三)D.W检验 D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本的一种检验方法。D.W检验验只能用于检验随

27、机扰动项具有一阶自回归形式的序列相关问题。这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 随机扰动项的一阶自回归形式为:t=t-1+ut 其中ut是不相关序列。为了检验序列的相关性,构造的假设是H0:=04.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 ntitntteeeWD22212)(.定义D.W统计量为:ntttnttnttntteeeeeWD2212221222.ntitntteee2212124.4 4.4 自相关性问题及其处理自相关性问题及其处

28、理(三)D.W检验 nttnttteee2221nttnttnttteeee2212221)1(2.WD得D.W的取值范围为:0D.W44.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 因而D.W值与 的对应关系为D.W误差项的自相关性-14完全负自相关(-1,0)(2,4)负自相关02无自相关(0,1)(0,2)正自相关10完全正自相关4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 根据样本容量n和解释变量的数目k(这里包括常数项),查D.W分布表,得临界值dL和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态:0D.WdL,

29、误差项1,2,n间存在正相关;dLD.WdU,不能判定是否有自相关;dUD.W4-dU,误差项1,2,n间无自相关;4-dUD.W4-dL,不能判定是否有自相关;4-dLD.W4,误差项1,2,n间存在负相关。4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 4.4 4.4 自相关性问题及其处理自相关性问题及其处理 4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 D.W检验尽管有着广泛的应用,但也有明显的缺点和局限性。1.D.W检验有一个不能确定的区域,一旦D.W值落在这个区域,就无法判断。这时,只有增大样本容量或选取其他方法。2.D.W统计量

30、的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断。3.D.W检验不适应随机项具有高阶序列相关的检验。4.4 4.4 自相关性问题及其处理自相关性问题及其处理四、自相关问题的处理方法四、自相关问题的处理方法 (一)迭代法 以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关 yt=0+1xt+tt=t-1+utn),2,1,st,(s t,0 t,),cov(n ,2,1,t,0)E(2suuustt4.4 4.4 自相关性问题及其处理自相关性问题及其处理(一)迭代法 根据回归模型 yt=0+1xt+t有 yt-1=0+1xt-1+t-1

31、则有(yt-yt-1)=(0-0)+1(xt-xt-1)+(t-t-1)令 11ttttttxxxyyy1100)1(tttuxy10得4.4 4.4 自相关性问题及其处理自相关性问题及其处理四、自相关问题的处理方法四、自相关问题的处理方法 (一)迭代法 其中自相关系数用公式 估计。用变换因变量与变换自变量作普通最小二乘回归。如果误差项确实是一阶自相关,通过以上变换,回归模型已经消除自相关。WD.2114.4 4.4 自相关性问题及其处理自相关性问题及其处理(一)迭代法 实际问题中,有时误差项并不是简单的一阶自相关,而是更复杂的自相关形式,(4.24)式的误差项ut可能仍然存在自相关,这就需要

32、进一步对(4.24)式的误差项ut做D.W检验,以判断ut是否存在自相关,如果检验表明误差项ut不存在自相关,迭代法到此结束。如果检验表明误差项ut存在自相关,那末对回归模型(4.24)式重复用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。这种迭代消除自相关的过程正是迭代法名称的由来。4.4 4.4 自相关性问题及其处理自相关性问题及其处理(二)差分法一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。在迭代法(4.24)式中,当=1时,得 (yt-yt-1)=1(xt-xt-1)+(t-t-1)以yt=yt-yt-1,xt=xt-xt-1代之,得yt=1xt+ut是不带有常

33、数项的回归方程 nttntttxxy22214.4 4.4 自相关性问题及其处理自相关性问题及其处理(二)差分法 一阶差分法的应用条件是自相关系数=1,在实际应用中,接近1时我们就采用差分法而不用迭代法,这有两个原因。第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率;第二,差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)科克伦奥克特(Cochrane-Orcutt)迭代 方法(一)中的迭代法近似取可以使用其他迭代法给出的更精确的估计,最常用的是科克伦奥克特迭代法。以一元线性回归为例,方法

34、(一)的迭代是1步迭代,根据1步迭代计算出的 和回归系数,由(4.18)式的回归方程重新计算残差,得到新的残差序列后就可以计算出新的DW值,新的 和回归系数,如果新的 与前一次迭代的相差很小,低于给定的界限,就停止迭代,否则继续下一步迭代。11DW2 4.4 4.4 自相关性问题及其处理自相关性问题及其处理(三)科克伦奥克特(Cochrane-Orcutt)迭代 有一点需要说明的是,迭代的起始步骤认为是从第0步开始的,就是用(4.18)式做普通最小二乘回归,相当于认为=0。这样方法(一)中的迭代实际上包括第0步和第1步共两步迭代过程,也称为科克伦奥克特两步法。通常情况下,科克伦奥克特多步迭代与

35、两步迭代相差不大。4.4 4.4 自相关性问题及其处理自相关性问题及其处理(四)普莱斯温斯登(Prais-Winsten)迭代法 采用迭代法用(4.23)式计算迭代值时不能计算第1期的迭代值,因此样本量从n减少到n-1。对大样本量时这无足轻重,但是当样本量较小时每一个样本值都是宝贵的。为此可以使用普莱斯温斯登变换,对t=1,令,经过普莱斯温斯登变换的迭代法就称为普莱斯温斯登迭代法。2111yy 2111xx 4.4 4.4 自相关性问题及其处理自相关性问题及其处理五、五、自相关实例分析自相关实例分析【例4.5】续例2.24.4 4.4 自相关性问题及其处理自相关性问题及其处理年份序号xtyte

36、t198019811982198319841985198619871988198919901991199219931994199519961997199812345678910111213141516171819460489525580692853956110413551512163418792287293939234854557660536392234.75259.26280.58305.97347.15433.53481.36545.40687.51756.27797.08890.661063.391323.221736.322224.592627.062819.362958.18-12.

37、11-.814.134.47-5.337.758.695.3533.1830.4715.73-2.22-15.24-52.24-87.12-22.7051.0726.2110.70229.56249.20283.90364.88462.71474.91564.82732.34747.78781.23957.421227.241649.132265.402641.432838.342908.142978.11126.86134.36147.72174.59237.74236.85273.91379.90368.52370.54441.11561.05723.47990.021245.311372

38、.391337.701368.075.924.462.00-8.0810.454.00.0429.6211.19-2.05-11.85-14.98-45.02-59.5824.1861.43-5.09-6.64txtyte4.4 4.4 自相关性问题及其处理自相关性问题及其处理4.方法比较自回归方法DW迭代法0.56437.20216.2200.4561.37226.96差分法00.4651.59629.34精确最大似然0.54433.53215.2910.45727.055科克伦奥克特0.56337.21416.2630.4561.38127.840普莱斯温斯登0.57033.11014.2

39、370.4571.38527.039000(1)11u4.4 4.4 自相关性问题及其处理自相关性问题及其处理对回归模型 yt=0+1xt+t做变换11,ttttttxxxyyy1100),1(tttuxy10得其中问题:为什么变换后的回归模型参数估计性质好4.4 4.4 自相关性问题及其处理自相关性问题及其处理自相关的危害tutet=et-1+uty=2+0.5t+et03510.53.562-0.72.85.830.33.16.6403.17.15-2.30.85.36-1.9-1.13.970.2-0.94.68-0.3-1.24.890.2-15.510-0.1-1.15.94.4 4

40、.4 自相关性问题及其处理自相关性问题及其处理自相关的危害4.4 4.4 自相关性问题及其处理自相关性问题及其处理5 预测tyte以迭代法为例说明回归预测值和残差的计算方法。4.4 4.4 自相关性问题及其处理自相关性问题及其处理5 预测ty01tx0111()ttttyyxx注意:在自相关回归中,回归预测值不是用其一般性的公式为 tyteSPSS软件提供的3种方法可以直接保存回归预测值和残差 计算4.4 4.4 自相关性问题及其处理自相关性问题及其处理4.4 4.4 自相关性问题及其处理自相关性问题及其处理例如,取x20=6600,则31.3050)6392564.06600(456.015

41、.2958564.022.1620y31.3050226.6564.06600456.0202.37226.6)6392456.0202.37(18.29582019ye第二种方法0111()ttttyyxx4.5 4.5 异常值与强影响值异常值与强影响值 异常值分为两种情况:一种是关于因变量y异常;另一种是关于自变量x异常。4.5 4.5 异常值与强影响值异常值与强影响值 一、关于因变量一、关于因变量y的异常值的异常值标准化残差iieZRE 学生化残差iiiiheSRE14.5 4.5 异常值与强影响值异常值与强影响值 4.5 4.5 异常值与强影响值异常值与强影响值)()(iiiyye可以

42、证明:iiiihee1)(4.5 4.5 异常值与强影响值异常值与强影响值 212)(221pnSREpnpnSRESREiii4.5 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值4.5 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值nphnhniii1114.5 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值npchnchniii114.5 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值 虽然强影响点并不总是y的异常值点,不

43、能单纯根据杠杆值hii的大小判断强影响点是否异常,但是我们对强影响点应该有足够的重视。为此引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:222)1()1(iiiiiihhpeD4.5 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值 对于库克距离,判断其大小的方法比较复杂,一个粗略的标准是 当Di1时,认为是异常值点。4.5 4.5 异常值与强影响值异常值与强影响值 三、异常值实例分析三、异常值实例分析 以例3.2的北京开发区的数据为例,做异常值的诊断分析。分别计算普通残差ei,学生化残差SREi,删除残差e(i),删除学生化残

44、差SRE(i),杠杆值chii,库克距离Di,见表4.104.5 4.5 异常值与强影响值异常值与强影响值 4.5 4.5 异常值与强影响值异常值与强影响值 绝对值最大的学生化残差为SRE15=2.613,小于3。绝对值最大的删除学生化残差为SRE(15)=3.810,因而根据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值chii=0.339位于第3大,库克距离 Di=1.555位于第一大。由于13333.0152npch4.5 4.5 异常值与强影响值异常值与强影响值 异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误

45、差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型4.5 4.5 异常值与强影响值异常值与强影响值 4.5 4.5 异常值与强影响值异常值与强影响值 序号x1x2yeiSREie(i)SRE(i)chiiDi1253547.79553.96-890-1.149-1165-1.16580.23410.1360220896.34208.55200.135230.12930.06040.000936750.323.10-93-0.795-110-0.78240

46、.05010.0385410012087.052815.404031.1757161.19630.42940.358155251639.311052.12-343-1.135-429-1.14980.18640.108168253357.703427.007150.9378410.93200.14710.05157120808.47442.821260.9491390.94480.00930.0318828520.2770.12450.717740.70150.13390.111597671.13122.24620.617760.60080.04630.0287105322863.321400

47、.00-582-0.926-677-0.91990.13660.046611751160.00464.00580.281650.27020.07480.00331240862.757.50-199-1.391-223-1.45440.03240.076513187672.99224.18-143-1.611-224-1.74240.22720.495114122901.76538.941751.1371891.15280.01120.036015743546.182442.799161.17311791.19390.22090.13174.5 4.5 异常值与强影响值异常值与强影响值 采用加权最小二乘回归后,删除学生化残差SRE(i)的绝对值最大者为|SRE(13)|=1.7424,库克距离都在0.5至1.0之间,说明数据没有异常值。这个例子也说明了用加权最小二乘法处理异方差性问题的有效性。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(违背基本假设的情况课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|