四讲回归分析回归诊断课件.ppt

上传人(卖家):晟晟文业 文档编号:3876568 上传时间:2022-10-21 格式:PPT 页数:114 大小:2.14MB
下载 相关 举报
四讲回归分析回归诊断课件.ppt_第1页
第1页 / 共114页
四讲回归分析回归诊断课件.ppt_第2页
第2页 / 共114页
四讲回归分析回归诊断课件.ppt_第3页
第3页 / 共114页
四讲回归分析回归诊断课件.ppt_第4页
第4页 / 共114页
四讲回归分析回归诊断课件.ppt_第5页
第5页 / 共114页
点击查看更多>>
资源描述

1、第四讲回归分析回归诊断 通过简单回归和多元回归模型可以有了计算结果。这些结果能做推断,需要建立在一些概述性统计量的基础之上,这些统计量由数据来计算。而只有当标准的回归假定满足时,所做的推断才有可能是合理的,有意义的。而对假定的核定,可以用图形的方法,也可以用严格的数值去检查。数据也需要考虑 还有模型的设定第四讲回归分析回归诊断第四讲回归分析回归诊断标准的回归假定:1,关于模型设定的假定 2,关于误差的假定 3,关于预测变量的假定 非随机的 其取值是误差取得的,但几乎不可能。测量误差将影响到误差方差,相关系数,复相关系数及回归系数的估计,其影响程度的大小取决于多个因素。是线性无关的4,关于观测的

2、假定 所有观测是同样可靠性第四讲回归分析回归诊断数据的诊断 异常值 强影响点 假定是否满足模型的诊断第四讲回归分析回归诊断线性回归模型中的异常点分析第四讲回归分析回归诊断6 异常点的识别与处理,是统计诊断中很重要的一项内容。异常点的出现会影响分析结果的可信度。异常点的存在往往蕴涵着重要的信息。在有些情况下,异常点的出现是因为有新事物出现或者新情况发生,比如经济模型中某种经济政策的出台等,都能表现出异常,这通常是我们的研究兴趣所在。第四讲回归分析回归诊断 在另外一些情况下,异常点的出现是由于人为差错或者仪器的故障所引起的。在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候

3、,异常点的出现会对我们的工作产生很强的影响,这样的结果是令人怀疑的。因此,异常点的研究受到了广大研究者的重视,自Bernoulli首次提出了异常点的概念,接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。第四讲回归分析回归诊断异常点的成因与处理 为什么会出现异常点?对这个问题的回答大致可以归结为以下三种情况:整体模型变化、局部模型变化和自然变异。在前两种情况下在前两种情况下,异常点出现的多而且连续,往往蕴涵着机制的变化、新事物的出现或者新局面的形成,大量而且连续的异常点可以用新的模型来拟合。对于整个数据集,实质上已经成为一个混合模型。而第三种成因更为常见第三种成因更为常见,偶尔的人为

4、差错或者仪器的故障都可以引起异常。对于由不同的原因引起的异常点,它们的处理方法是不同的。在进行统计诊断时,判断异常点的成因是很重要的,是对异常点进行正确处理的先决条件。第四讲回归分析回归诊断 通常对异常值的处理方法有两种。一种是把异常点作为工作重点,目标就是发现异常点并确定是否要作进一步的研究,这样的异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否,还要确定异常点出现的位置以及影响大小。这是统计诊断中一个重要内容,围绕此类问题出现了大量的统计量检验方法及影响分析研究。第四讲回归分析回归诊断 对于由第三种成因引起的异常点,发现之后可以进行删除,以免影响参数估计等以后的工作效果。另外一

5、种方法就是对于异常点采取容忍的态度,把整个数据集作为研究的基础,对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策第四讲回归分析回归诊断 回归系数一般采用“最小二乘估计”(least squares estimator,LS estimator)求解,但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质,如要求误差服从正态分布、总体方差相同且相互独立等。当实际数据没有近似满足这些假定时,就会出现一些异常点(outliers)、杠杆点(leverage point)及影响点(influential observations),使分析结

6、果变得不可靠,不能发现数据中的真实结构,从专业上难以解释结果,甚至得到完全错误的结论。尤其是随着统计软件的日渐普及,我们倾向于简单地将数据交给软件来分析,而不注意具体方法的应用条件,尽管采用了SAS、SPSS这些国际标准软件,但是输出结果有时却与专业解释相悖。第四讲回归分析回归诊断异常点在统计诊断中的地位 异常点(outlier)是统计诊断中很重要的一个概念。统计诊断(Statistical Diagnostics)就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析,并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病,进而提出治疗

7、方案,进行模型或者推断方法的改进。统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容,异常点的识别是处理统计诊断的重要内容异常点的识别是处理统计诊断的重要内容之一,它进行的好坏通常影响到整个过程的诊断之一,它进行的好坏通常影响到整个过程的诊断。第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断异常值有时一个,有时多个第四讲回归分析回归诊断 在回归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。目前对异常点有以下两种较为流行的看法:

8、异常点第四讲回归分析回归诊断 把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧点,即落在分布的单侧或双侧 分位点以外的点,分位点以外的点,而 通常取很小的值(如:0.005),致使观察者对数据中出现如此极端的点感到意外。把异常点视为杂质点。它与数据集的主体不是来自同一分布,是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”第四讲回归分析回归诊断残差 在回归分析中,异常数据的发现或模型的检测、标准假设的检测的一个简单而有效的方法是研究残差图。残差图能够指

9、明哪个或哪些标准假定不成立。更重要的是,残差分析可能引导我们发现数据中的结构,也可能指出那些蕴涵在数据中的、在只用一些概述性统计量分析时容易被疏漏的信息。这些启发或线索可能帮助我们更好地理解所研究的问题,或者找到更好的模型。对残差进行图形分析往往是回归分析中最重要的一部分工作。第四讲回归分析回归诊断残差 普通最小二乘法的残差普通最小二乘法的残差:学生化残差学生化残差:第四讲回归分析回归诊断第四讲回归分析回归诊断强影响点 强影响点和异常点是两个不同的概念,它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。第四讲回归分析回归诊断已知20条河

10、流流域的有关测量数据.研究者感兴趣的是,河流周边地区土地的利用程度对水污染(平均氮浓度)有何影响河流农田覆盖率森林覆盖率住宅地占土地总面积百分比工业及商业用地占总面积百分比春夏秋冬各季度采集到的样本的平均氮浓度mg/升RiverAgrForestRsdntialComIndlNitrogenOlean26631.20.291.1Cassadaga29570.70.091.01Oatka54261.80.581.9Neversink2841.91.981Hackensack32729.43.111.9919613.40.561.42Fishkill16605.61.112.04Honeoye 4

11、0431.30.241.65Susquehanna28621.10.151.01Chenango26600.90.231.21East Canada6840.50.120.73Saranac3810.80.350.8Ausable2890.70.350.76Black6820.50.150.87Schoharie22700.90.220.8Raquette4750.40.180.87 Oswegatchie21560.50.130.66Cohocton40491.10.131.25第四讲回归分析回归诊断 利用三个数据集合获得的回归系数和其T检验统计量相差很大 1.用全部数据 2.剔除NEVER

12、SINK数据(4)3.提出HACKENSACK数据(5)第四讲回归分析回归诊断回归统计回归统计Multiple RMultiple R0.8422570.842257R SquareR Square0.7093980.709398Adjusted R Adjusted R SquareSquare0.6319040.631904标准误差标准误差0.2649190.264919观测值观测值2020方差分析方差分析dfdfSSSSMSMSF FSignificanSignificance Fce F回归分析回归分析4 42.5698462.5698460.6424620.6424629.15423

13、19.1542310.0005960.000596残差残差15151.0527291.0527290.0701820.070182总计总计19193.6225753.622575CoefficienCoefficientsts标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept1.7222141.7222141.2340821.2340821.3955431.3955430.1831690.183169-0.90817-0.908174.3525964.352596X 1

14、X 10.0058090.0058090.0150340.0150340.38640.38640.7046260.704626-0.02624-0.026240.0378530.037853X 2X 2-0.01297-0.012970.0139310.013931-0.93083-0.930830.366680.36668-0.04266-0.042660.0167260.016726X 3X 3-0.00723-0.007230.033830.03383-0.21362-0.213620.833720.83372-0.07933-0.079330.064880.06488X 4X 40.3

15、050280.3050280.1638170.1638171.8620071.8620070.082310.08231-0.04414-0.044140.6541950.654195第四讲回归分析回归诊断回归统计回归统计Multiple RMultiple R0.9250640.925064R SquareR Square0.8557440.855744Adjusted R Adjusted R SquareSquare0.8145280.814528标准误差标准误差0.1925040.192504观测值观测值1919方差分析方差分析dfdfSSSSMSMSF F回归分析回归分析4 43.07

16、76523.0776520.7694130.76941320.7624220.76242残差残差14140.5188110.5188110.0370580.037058总计总计18183.5964633.596463CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueInterceptIntercept1.0994711.0994710.9116360.9116361.2060421.2060420.2477880.247788X Variable 1X Variable 10.0101370.0101370.0109840.01

17、09840.9228730.9228730.3717050.371705X Variable 2X Variable 2-0.00759-0.007590.0102220.010222-0.74244-0.742440.4700980.470098X Variable 3X Variable 3-0.12379-0.123790.0393370.039337-3.14698-3.146980.0071340.007134X Variable 4X Variable 41.5289561.5289560.3437190.3437194.4482734.4482730.0005510.000551

18、第四讲回归分析回归诊断第四讲回归分析回归诊断 尽管三个数据集只差一观测数据,但回归结果有巨大差异 比如,看X3回归系数的T检验值,使用全部数据时该检验是不显著的,剔除掉数据4后,显著为正;可见,仅一个观测就能导致根本不同的结论 数据(4)(5)称为强影响观测,因为他们对回归的影响远强于其他观测。第四讲回归分析回归诊断 看数据,一眼就能发现数据(5)其X3的值突出的高。然后再分析其背景第四讲回归分析回归诊断 数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时,有几个基本问题需要考虑:首先必须明确“是对哪个统计量的影响?”例如,对线性回归模型所考虑的是对回归系数的估计量

19、的影响;不是对误差方差的估计影响;或是对拟合优度统计量的影响等等。分析目标不同,所考虑的影响亦有所不同。强影响点第四讲回归分析回归诊断 其次,必须确定“度量影响的尺度是什么?”为了定量地刻划影响的大小,迄今为止已提出多种尺度,基于置信域的尺度,基于似然函数的尺度等等。在每一种类型中又可能有不同的统计量。每一种度量都是着眼于某一方面的影响,并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性,另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程。第四讲回归分析回归诊断 强影响点通常是数据集中更为重要的数据点,它往往能提供比一般数据点更多的信息,因此需引起特别注意。第四讲回归分

20、析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)第四讲回归分析回归诊断有影响的观测值(图示)有影响的观测值存在影响值的趋势第四讲回归分析回归诊断有影响的观测值(图示)不存在影响值的趋势有影响的观测值存在影响值的趋势第四讲回归分析回归诊断 强影响观测或者其影响变量取值异常,或者其预测变量取值异常。响应变量取值异常 标准化残差大的观测其响应变量的取值异常,因为在Y方向上他们远离拟合的回归方程。由于各标准化残差近似服从标准正态分布,那么标准化的残差之绝对值大于2或3的点称为异常点。第四讲回归分析回归诊断 预测变量取值异常异常点也

21、可能出现在预测变量中,他们同样也会影响回归结果,杠杆值可用于度量观测在预测变量中的异常程度。第四讲回归分析回归诊断 伪装与淹没的问题第四讲回归分析回归诊断第四讲回归分析回归诊断 光看残差是不够的,需要其他的度量指标第四讲回归分析回归诊断 看这个图形,(5)(4)是强影响点第四讲回归分析回归诊断但看标准化残差看不出来第四讲回归分析回归诊断残差图也看不出来第四讲回归分析回归诊断杠杆值的序列图可以看出来了第四讲回归分析回归诊断第四讲回归分析回归诊断我们还需要相关的度量指标第四讲回归分析回归诊断影响的各种度量第四讲回归分析回归诊断影响的各种度量 如果有些数据的如果有些数据的C C比其余点突出比其余点突

22、出,那么该对此点打上标记那么该对此点打上标记第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断影响点第四讲回归分析回归诊断通过图显示强影响点第四讲回归分析回归诊断第四讲回归分析回归诊断图形方法 图形方法在数据分析中起着重要的作用,在对数据拟合线性模型时,图形方法尤其重要.没有哪种统计工具能象一张精选出来的图形一样有威力.图形方法可以被视为探索性的工具,同时也是验证分析或统计推断不可缺少的一部分.第四讲回归分析回归诊断图形方法的作用 1.发现数据中的错误(如印刷错误)2.辨别数据中的模式(如密集群,异常点,明显的差距等)3.探索变量间的关系 4.发现新现象

23、5.确认或否认各项假定 6.评价拟合的模型是否充分 7.建议修正措施(例如数据变换,收集更多的数据等)第四讲回归分析回归诊断图形 1.一维图(看变量的分布)2.二维图 3.旋转图 4.动态图第四讲回归分析回归诊断一维图 直方图 茎叶图 点图 箱线图第四讲回归分析回归诊断二维图第四讲回归分析回归诊断 我们希望图中的各散点图看上去是怎么样的呢?对于简单回归,我们预期Y与X之间呈现某种直线模式,但对于多元回归,Y与各自变量之间的散点图可能呈直线状.在线性模式较为肯定的场合,这些散点图的非线性状态并不说明线性模型不正确.第四讲回归分析回归诊断 应同时依赖于各个预测变量而不是单个从上面的二维图看到,Y与

24、X1之间,Y与X2之间都不存在线性关系,然而作Y关于X1和X2两个变量的回归时,拟合程度几近完美.第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断 我们假定预测变量之间是线性无关的,所以预测变量对散点图不应该呈直线状,更理想地,我们希望从中看不出任何可辩识的模式.无论是线性的还是非线性的.但是上面例中,该假定是不成立.因为X1和X2有明显的线性关系.当然这些散点图不呈直线状还不能说明全部变量间的线性无关的,因为线性关系可能存在与多个预测变量之间.第四讲回归分析回归诊断旋转图第四讲回归分析回归诊断如何处理异常点?异常点和强影响观测值不应该机械被删除或自动降低权重,因为他们不一定

25、是坏的观测。相反,如果它们是准确的,它们就可能是数据中含信息最多的点。比如,他们可能指出数据并非来自正态总体,或者模型不是线性的,我们看下例中的数据看异常点及强影响点可能是数据中含信息量最多的点。第四讲回归分析回归诊断 图中是XY两个变量的散点图,数据主体显示了X与Y之间的某种线性关系。但右上角的22和23两个点是异常值。如果这两个点是正确的,那么它们则是数据集中仅有的、显示着这批数据可能服从某种非线性模型的观测。我们把这想象为一个细菌的群体,它在异端时间内最后的非常缓慢,但过了某个时间的临界点之后,迅速增长。第四讲回归分析回归诊断 一旦鉴别出了异常点和强影响观测后,如何处理呢?因为异常点和强

26、影响观测可能是数据集中信息最丰富的观测,因而不应该不加说明、自动地抛弃它们。相反,应当通过考察,判断它们为何是异常的或强影响点。根据这些考察才可能采取合适、正确的措施 正确的措施包括:改正数据中的错误、删除异常点或降低他们的权重、变换数据、考虑不同的模型、重新收集或补充更多的数据。第四讲回归分析回归诊断模型的误设及其后果 1.包含不相干的解释变量:则估计量是一致、无偏的,但不是最佳线性无估计量是一致、无偏的,但不是最佳线性无偏估计量偏估计量。假设检验是有效的。此外,如果包含的不相干的变量与其它解释变量相关,则引起的主要后果是解释变量之间的多重共线性.第四讲回归分析回归诊断 设 Y=0+1X1+

27、v (*)为正确模型,但却估计了 Y=0+1X1+2X2+(*)如果2=0,则(*)与(*)相同,因此,可将(*)式视为以2=0为约束的(*)式的特殊形式。包含无关变量偏误包含无关变量偏误第四讲回归分析回归诊断 由于所有的经典假设都满足,因此对 Y=0+1X1+2X2+(*)式进行OLS估计,可得到无偏无偏且一致一致的估计量。但是,但是,OLS估计量却不具有最小方差性。估计量却不具有最小方差性。Y=0+1X1+v 中X1的方差:2121)(ixVarY=0+1X1+2X2+中X1的方差:)1()(2212121xxirxVar 当X1与X2完全线性无关时:)()(11VarVar 否则:)()

28、(11VarVar注意:注意:第四讲回归分析回归诊断 则 扰动项的性质完全起了变化。模型的估计会由于自相关而引起误差,估计量将不会是最佳线性无偏估计。假设检验将是无效的.2.遗漏解释变量遗漏解释变量第四讲回归分析回归诊断 例如例如,如果“正确”的模型为22110XXY而我们将模型设定为 vXY110即设定模型时漏掉了一个相关的解释变量。动态设定偏误动态设定偏误:遗漏相关变量表现为对Y或X滞后项的遗漏。第四讲回归分析回归诊断 采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误遗漏相关变量偏误。设正确的模型为 Y=0+1X1+2X2+却对 Y=0+1X1+v进行回归,得2111iiix

29、yx遗漏相关变量偏误遗漏相关变量偏误第四讲回归分析回归诊断将正确模型 Y=0+1X1+2X2+的离差形式 iiiixxy2211代入2111iiixyx得21121212121221112111)()(iiiiiiiiiiiiiixxxxxxxxxxyx(1)如果漏掉的X2与X1相关,则式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得OLSOLS估计估计量在小样本下有偏,在大样本下非一致量在小样本下有偏,在大样本下非一致。第四讲回归分析回归诊断 (2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计却是有偏的。由 Y=0+1X1+v 得2121)(ixVa

30、r由 Y=0+1X1+2X2+得)1()()(22122212221222121xxiiiiiirxxxxxxVar第四讲回归分析回归诊断 模型的估计会由于自相关而引起误差,估计量将不会是最佳线性无偏估计。假设检验将是无效的.例如,如果“真实”的回归函数为 eXAXY2121但却将模型设定为 vXXY22110 显然,两者的参数具有完全不同的经济含义,且估计结果一般也是不相同的。3.模型形式的误设模型形式的误设第四讲回归分析回归诊断 4.4.如果在设定的模型里用错误的解释变量代替如果在设定的模型里用错误的解释变量代替正确的解释变量正确的解释变量,则可看成出现 1和2两种情形误设的复合,即遗漏解

31、释变量的同时加入不相干的变量。分析四种模型误设的情形,后果最严重的是哪一种情况.第四讲回归分析回归诊断 可用可用t 检验与检验与F检验完成。检验完成。检验的基本思想检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。t t检验检验:检验某1个变量是否应包括在模型中;F F检验检验:检验若干个变量是否应同时包括在模型中 模型设定偏误的检验模型设定偏误的检验 1、检验是否含有无关变量、检验是否含有无关变量 第四讲回归分析回归诊断 (1 1)残差图示法)残差图示法2、检验是否有相关变量的遗漏或函数形式设定偏误、检验是否有相关变量的遗漏或函数形式设

32、定偏误第四讲回归分析回归诊断 残差序列变化图残差序列变化图趋势变化趋势变化:模型设定时可能遗漏了一随着时间的推移而持续上升的变量 循环变化:循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量 第四讲回归分析回归诊断 模型函数形式设定偏误时残差序列呈现正负模型函数形式设定偏误时残差序列呈现正负交替变化交替变化 第四讲回归分析回归诊断 (2 2)一般性设定偏误检验)一般性设定偏误检验 但更准确更常用的判定方法是拉姆齐(Ramsey)于1969年提出的所谓RESET RESET 检验检验 基本思想:基本思想:如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不

33、为零即可;问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。RESET检验中,采用所设定模型中被解释变量Y的估计值的若干次幂来充当该“替代”变量。3、检验是否有相关变量的遗漏或函数形式、检验是否有相关变量的遗漏或函数形式设定偏误设定偏误第四讲回归分析回归诊断 例如例如,先估计 Y=0+1X1+v 得 110XY3221110YYXY 然后再利用F F检验检验来判断是否增加这些“替代”变量。若仅增加一个“替代”变量,也可通过t t检验检验来判断。第四讲回归分析回归诊断 例如,例如,在一元回归中,假设真实的函数形式是非线性的,用泰勒定理将其近似地表示为多项式:313212110XX

34、XY因此,如果设定了线性模型,就意味着遗漏了相关变量X12、X13,等等。因此,在一元回归中,可通过检验各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。(*)RESET检验也可用来检验函数形式设定偏误的问题。检验也可用来检验函数形式设定偏误的问题。第四讲回归分析回归诊断 对多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可按遗漏变量的程序进行检验。例如,估计 Y=0+1X1+2X2+但却怀疑真实的函数形式是非线性的。322122110YYXXY 这时,只需以估计出的的若干次幂为“替代”变量,进行类似于如下模型的估计再判断各“替代”变量的参数是否显著地不为零即可。第四

35、讲回归分析回归诊断ttGDPM020.091.152 例例:建立了中国商品进口M与GDP的一元线性关系:并发现具有强烈的一阶自相关性。序列相关性的主要原因之一可能就是建模时遗漏了重要的相关变量造成的。下面进行RESET检验。R2=0.9484第四讲回归分析回归诊断320759.80028.0072.0860.3tttMEMGDPM (-0.085)(8.274)(-6.457)(6.692)R2=0.9842)1(/()1(/)(222qknRqRRFURU5.22)424/()984.01(2/)948.0984.0(在=5%下,查得临界值F0.05(2,20)=3.49判断:拒绝原模型与引

36、入新变量的模型可决系数无显著差异的假设,表明原模型确实存在遗漏相关变量的设定偏误。第四讲回归分析回归诊断 (3 3)同期相关性的豪斯蔓()同期相关性的豪斯蔓(HausmanHausman)检验检验 由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得OLS估计量有偏且非一致。因此,对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是豪斯蔓检验的主要思想豪斯蔓检验的主要思想。第四讲回归分析回归诊断 当解释变量与随机扰动项同期相关时,通过工具变量法可得到参数的一致估计量。而当解释变量与随机扰动项同期无关时,OLS估计量就可得到参数

37、的一致估计量。因此,只须检验只须检验IVIV估计量与估计量与OLSOLS估计量是否有估计量是否有显著差异来检验解释变量与随机扰动项是否同期显著差异来检验解释变量与随机扰动项是否同期无关。无关。对一元线性回归模型 Y=0+1X+所检验的假设是 H0:X与无同期相关。第四讲回归分析回归诊断设一元样本回归模型为 iiieXY10以Z为工具变量,则IV估计量为:iiiixzyziiiiiiiiixzezxzexz11)(*)(*)式表明,IV估计量与OLS估计量无差异当且仅当ziei=0,即工具变量与OLS估计的残差项无关。第四讲回归分析回归诊断检验时,求Y关于X与Z的OLS回归式:iiiZXY10

38、在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。第四讲回归分析回归诊断如对二元回归模型 iiiiXXY22110iiiiiXXXXY221122110 通过增加解释变量的增加解释变量的F F检验检验,检验联合假设:H0:1=2=0。拒绝原假设,就意味着(*)式中的解释变量与随机扰动项相关。(*)第四讲回归分析回归诊断模型设定的方法模型设定的方法 之之”从一般到简单从一般到简单”作为建模起点的总体模型必须能够包容所有经过约化得到的“简洁”的模型。它应该包含所有对被解释变量产生影响的变量,尽管其中的某些变量会

39、因为显著性不高或者不满足正交性条件等原因在后来的约化过程中被排除。第四讲回归分析回归诊断 回归分析是一种经验实证的方法,它是建立在证伪和证实不对称性的逻辑学基础之上的。一旦总体模型被设定,利用样本数据进行的经验检验只能发现已经包含其中的哪些变量是不显著的,而不能发现没有包含其中的显著变量;只能发现已经被采用的函数关系是不恰当的,而不能发现没有被采用的正确的函数关系。为什么?逻辑学回答第四讲回归分析回归诊断 作业:1.模拟 2.经典回归模型的应用-约束条件检验的应用.3.结合实际问题,进行影响因素的分析(重点在于自变量的选取)4.建立回归模型,对回归模型的诊断第四讲回归分析回归诊断关于假设条件第

40、四讲回归分析回归诊断检查线性和正态性的假定第四讲回归分析回归诊断2.标准化残差关于每个预测变量的散点图第四讲回归分析回归诊断第四讲回归分析回归诊断第四讲回归分析回归诊断1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的假定是否成立 3.检测有影响的观测值 一般残差图均要求n个点的散布是无规则的。当残差图中的点呈现某种规律或趋向时,就可以对模型的假设提出怀疑。利用残差图上点的散布规律作诊断的方法是回归分析中对模型的诊断的最有效的方法之一。残差图第四讲回归分析回归诊断第四讲回归分析回归诊断标准化残差:学生化残差:在残差分析中,一般认为超过3个标准差的残差成为异常值,考虑到

41、普通残差ei的方差不等,用ei作判断和比较会带来一定的麻烦,人们引入标准化残差和学生化残差的概念,改变普通残差的性质。iiiIheSRE1iIeZRE 改进的残差第四讲回归分析回归诊断 标准化残差:学生化残差:iiiIheSRE1iIeZRE 标准化残差标准化残差使残差具有可比性,标准化残差3的相应观测值即判定为异常值,这简化了判定工作。但是没有解决方差不等的问题。学生化残差学生化残差则进一步解决了方差不等的问题,因而在寻找异常值时,用学生化残差优于用普通残差,认为学生化残差3的相应观测值即为异常值第四讲回归分析回归诊断残差图(形态及判别)第四讲回归分析回归诊断残差图(例题分析)-4-2024680100200300400 x残差第四讲回归分析回归诊断T 第四讲回归分析回归诊断 X残差表示男生表示男生表示女生表示女生第四讲回归分析回归诊断此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!第四讲回归分析回归诊断

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(四讲回归分析回归诊断课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|