1、 第第6章章 回归模型的假设检验回归模型的假设检验 回归分析回归分析是要判断解释变量解释变量X是否是被解释变被解释变量量Y的一个显著性的影响因素。在一元线性模型一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性变量的显著性检验。检验。变量的显著性检验所应用的方法是数理统计变量的显著性检验所应用的方法是数理统计学中的学中的假设检验假设检验。计量经计学中计量经计学中,主要是针对变量的参数真值,主要是针对变量的参数真值是否为零来进行显著性检验的。是否为零来进行显著性检验的。第一节第一节 假设检验假设检验 所谓假设检验假设检验,就是事先对总体参数或总体分就是事先对总体参
2、数或总体分布形式作出一个假设,然后利用样本信息来判断布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易小概率事件不易发生发生”这一原理的这一原理的 1、显著性检验、显著性检验t检验检验),(2211ixN)2(1
3、112211ntSxtit t值是用来检验根据值是用来检验根据OLSOLS估计出来的回归系数是否显著估计出来的回归系数是否显著的统计量。的统计量。检验步骤:检验步骤:(1)对总体参数提出假设 H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断 若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;T=11(2)()bt nS b 对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:)2(0022200ntSxnXtii在上述收入-消费支出例中,首先
4、计算2的估计值 134022107425000777.04590020222221222nxyneiii0425.00018.07425000/13402221ixS41.98742500010/53650000134022220iixnXSt统计量的计算结果分别为:29.180425.0777.0111St048.141.9817.103000St 给定显著性水平=0.05,查t分布表得临界值 t 0.05/2(8)=2.306|t1|2.306,说明家庭可支配收入在家庭可支配收入在95%95%的置信的置信度下显著,即是消费支出的主要解释变量;度下显著,即是消费支出的主要解释变量;|t2|2
5、.306,表明在95%的置信度下,无法拒绝截距项为零的假设。2、显著性检验、显著性检验F检验检验 F检验属于回归方程的显著性检验,它是对所有参数感兴趣的一种显著性检验。其检验步骤为:第一步:提出假设。原假设H0:(同时为零)备择假设H1:不同时为零01,01=001,第二步:构造F统计量。可以证明:1(1,2)(2)ESSFFnRSSn(2.4.6)即F统计量服从第一自由度为,第二自由度为n-2的t分布。F统计量的计算一般通过下列方差分析表进行。表2.4.2 方差分析表 变差来源 平方和 自由度 均方 F统计量 回归 残差 ESS RSS 1 2n ESS 22eRSS nS 1(2)ESSF
6、RSSn 总变差 TSS 1n 21yTSS nS 第三步:给定显著水平 ,查F分布临界值得到第四步:做出统计决策(1,2)Fn例2.3.2仍以例2.2.1资料为例,F检验过程如下:第一步:提出假设。原假设H0:(同时为零)备择假设H1:不同时为零01,01=001,第二步:计算F统计量 因为ESS1602708.6(计算过程见表2.4.3)或直接取自输出结果2.2.1中的方差分析部分“回归分析(行)SS(列)”(1602708.6)。21()niiRSSyy 40158.071(计算过程见计算表2.3.3)或直接取自输出结果2.2.1中的方差分析部分“残差(行)SS(列)”(40158.07
7、1)。(见方差分析表2.3.4)1602708.6/11399.0999940158.071/10(2)ESSFRSSn或直接取自输出结果2.2.1中的方差分析部分“回归分析(行)F(列)”(399.09999)。(见表2.4.4)表2.4.3 计算表 汽车销售量(辆)y 广告费(万元)x iy 2()iiyy 2()iyy 1000 1100 1250 1280 1360 1480 1500 1720 1800 1890 2100 2200 357 385 420 406 490 525 602 651 735 721 840 924 1087.996761 1144.805205 1215
8、.81576 1187.411538 1357.83687 1428.847425 1585.070646 1684.485423 1854.910755 1826.506533 2067.94242 2238.367752 7743.429946 2007.506395 1168.562264 8572.623296 4.679131397 2616.585929 7237.014811 1261.285179 3015.191015 4031.420352 1027.688435 1472.084394 219651.4805 169629.8636 116179.3406 136349.
9、35 39533.28804 16337.75854 806.786042 16337.63447 88949.53623 72813.55346 261402.8959 464716.3697 表2.4.4 方差分析表 方差分析 变差来源 df SS MS F Significance F 回归 1 1602708.6 1602708.6 399.09999 2.16982E-09 残差 10 40158.071 4015.8071 总计 11 1642866.7 第三步:给定显著水平5%,查F分布临界值得到0.05(1,10)4.96F 第四步:做出统计决策,所以我们拒绝原假设0H,接受备
10、择假设,认为x与y 关系显著即回归方程显著,F检验通过。因为F=399.099990.05(1,10)4.96F三,结构变化的三,结构变化的F检验检验 结构变化的F检验,也成为Chow test,用于调查,检验经济分析中一个极其重要的问题,即“是否存在结构变化”。步骤步骤1:在利用时间序列所做的回归分析中,找出估算期间内发生结构变化的时点(分界点),以此时点为标准,将期间分为前期和后期。步骤步骤2:对前期,后期,全部期间进行回归分析,求各自的残差平方和 。步骤步骤3:根据结构变化的F检验公式,计算F值。RSRSSSRS,2S,1:1SSR前期的残差平方和 :1n前期的样本数:2SSR后期的残差
11、平房和 :2n后期的样本数:SRR 全部期间的残差平方和 :k解释变量的数(1),1,121knkn的情形。结构变化的 F 检验为 1)1(22S1)21S(21kknnRSSSRSSRRSSSRF(2),,11 kn的情形(以及)11 kn 21)1(11nknSSRSSRSSRF 步骤步骤4:利用F分布表,对步骤3计算出的F值进行检验。在检验时,分别就上述(1)的情形中,自由度(分子,分母)=,(2)的情形中,自由度 进行F检验。如果计算出的F值大于F分布表中的判定值,放弃“前期的回归系数与后期的回归系数完全相等”的假设,说明出现了结构性变化。相反,如果计算出的F值小于F分布表中的判定值,
12、不放弃“前期的回归系数与后期的回归系数完全相等”的假设,说明没有发生结构性变化。)22,1(21knnk)1,(12knn4、相关系数检验(r-Test)由于一元线性回归方程研究的是变量x与变量y之间的线性相关关系,所以我们可以用反映变量x与变量y之间的相关关系密切程度的相关系数来检验回归方程的显著性。由于总体相关系数定义为ov(,)()()Cx yVar xVar y设(,),1,2,.,iix yin是(,)x y的n组样本观测值,则我们称 12211()()()()ninniiiixxyyLxyrLxxLyyxxyy11122221111nnniiiiiiinnnniiiiiiiinx
13、yxynxxnyy 1LxxbLyy其中 xyL1()()nix xy y xxL21()niixxyyL21()niiyy为x与y的简单线性相关系数,简称相关系数。它表示x和y的线性相 关关系的密切程度。其取值范围为|r|1,即-1 r 1。当r=-1时,表示x与y之间完全负相关;当r=1时,表示x与y之间完全正相关;当r=0时,表示x与y之间无线性相关关系,即说明x与y可能无相关关系或x与y之间存在非线性相关关系。5、四种检验的关系 前面介绍了t检验、拟合优度()检验、F检验和相关系数(r)检验,对于一元线性回归方程来说,可以证明,这四种检验:2R221r ntr(2.4.8)2(2)FR
14、nF(2.4.9)2F t (2.4.10)2rR(2.4.11)因此,对于一元线性回归方程,我们只需作其中的一种检验即可。但对于多元线性回归方程这四种检验有着不同的意义,并不是等价的,需分别进行检验。是等价的。5、回归方程的标准记法 为了方便,我们往往将回归方程的参数估计和系数的显著性检验统计量结果放在一起。例如,对于例2.2.1,我们可以采用以下标准记法:363.6891 +2.028873x S(62.455288)(0.101558)t()()iy*5.8231909*19.977487 有时S(回归系数的标准差,有时也记为 )也可不写;t统计量右上角*的表示显著性水平的大小,*一般表
15、示在显著性水平1下显著,*一般表示在显著性水平5下显著,无*表示5下不显著。eS第第2节节 预测与控制预测与控制 一、预测一、预测 (点预测、区间预测)(点预测、区间预测)二、控制二、控制 对于一元线性回归模型iiXY10给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测值0 0,可以此作为其条件均值条件均值E(Y|X=X0)或个别值个别值Y0的一个近似估计注意:注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因:(1)参数估计量不确定;(2)随机项的影响一、预测(一)点预测即0 y是0()E y的无偏估计量,但不是0y的无偏估计量。但00()0E yy,说明预测误
16、差00()yy在多次观察中,平均值趋于零。因此,也可以用0 y作为0y的点估计值。于是,我们把点预测分为两种:一是平均值的点预测,二是个别值的点预测。利用回归方程,对于x的一个固定值,推算出y的平均值的一个估计值,就是平均值的点预测;如果对于x的一个特定值,推算出y的一个个别值的估计值,则属于个别值的点预测。例2.5.1仍以例2.2.1资料为例,若要估计广告费用为1000万元时,所有12个汽车销售分公司的汽车 销售量的平均数为 0()E y363.6891 2.02887310002393(辆),就是平均值的点预测;若要估计广告费用为602万元的那个汽车销售分公司的汽车销售量为 0 y363.
17、6891 2.0288736021585(辆)就属于个别值的点预测。(二二)、区间预测值、区间预测值 1、总体均值预测值的置信区间、总体均值预测值的置信区间 由于0100XY),(2211ixN),(22200iixnXN)(),(2)()(12010000VarXCovXVarYVar0101000)()()(XEXEYE于是可以证明 2210/),(ixXCov因此222022022202)(iiiixXxXXxnXYVar200222222XXXXnXnXxii)(20222XXnxxii故)(1(,(22020100ixXXnXNY)2()(00100ntSXYtY)(1(22020i
18、YxXXnS其中于是,在1-的置信度下,总体均值总体均值E(Y|X0)的置信区间为的置信区间为 0202000)|(YYStYXYEStY2、总体个值预测值的预测区间、总体个值预测值的预测区间 由 Y0=0+1X0+知:),(20100XNY于是)(11(,0(220200ixXXnNYY)2(0000ntSYYtYY式中:)(11(220200iYYxXXnS从而在1-的置信度下,Y0的置信区间的置信区间为002020000YYYYStYYStY在上述收入收入-消费支出消费支出例中,得到的样本回归函数为iiXY777.0172.103则在 X0=1000处,0=103.172+0.77710
19、00=673.84 29.37277425000)21501000(10113402)(20YVar而05.61)(0YS因此,总体均值总体均值E(Y|X=1000)的95%的置信区间为:673.84-2.30661.05 E(Y|X=1000)673.84+2.30661.05或 (533.05,814.62)同样地,对于Y在X=1000的个体值个体值,其95%的置信区间为:673.84-2.30661.05Yx=1000 673.84+2.30661.05或 (372.03,975.65)总体回归函数的置信带(域)置信带(域)(confidence band)个体的置信带(域)置信带(域)
20、对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间):(1)样本容量n越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。二、控制所谓控制实际上就是预测的反问题。即若因变量y取值于一定范围内,例如 ,已经给定,求自变量x应控制在什么范围内。这等价于求 与 ,使得当 时,因变量y以1-的概率取值于 。12yyy12yy和1x2x1212(,)(,)Min x xxMax x x1,2()y y 对于个别值的区间预测101 10022012002(2)()(2)()ybb x
21、tnVar yyybb xtnVar yy由可以解出1x与2x作为x的控制限。但应注意,要实现控制必须 ,即应有120 xx21002(2)()0yytnVar yy从而1y和2y应满足 210022(2)()yytnVar yy当此条件满足时,1212(,),(,)Min x xMax x x 即为x的控制范围。同理,对于平均值的区间预测2101 100222012002(2)()(2)()ybb xtnVar yE yybb xtnVar yE y由可以解出1x与2x作为x的控制限。第第3 3节节 案例:案例:一元线性回归模一元线性回归模型的应用型的应用 已知某地区1978年2003年的国
22、内生产总值GDP与货运周转量的数据如下表所示:年 份 GDP(亿元)货运周转量(亿吨公里)年 份 GDP(亿元)货运周转量(亿 吨 公里)1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 5.0 8.7 12.0 16.0 19.0 22.0 25.0 28.0 36.0 40.0 41.0 32.0 34.0 9.0 12.0 14.0 15.0 17.0 20.0 20.5 23.5 30.0 35.0 32.0 24.0 28.0 1991 1992 1993 1994 1995 1996 1997 1998
23、 1999 2000 2001 2002 2003 44.0 47.0 54.0 56.5 56.0 57.0 59.0 63.0 66.5 67.0 70.5 70.6 73.0 32.0 34.0 37.0 40.0 44.0 43.5 43.5 43.5 44.0 45.5 47.0 46.0 52.0 试对其进行一元线性回归分析。若2005年国内生产总值GDP达到80亿元,试对其货运周转量做出区间预测 。(5%)一、相关分析 绘制散点图,以观察国内生产总值GDP与货运周转量之间的关系形态。用Excel软件制作散点图的步骤如下:第一步:选择“插入”下拉菜单。第二步:选择“图表”选项 第三
24、步:选择XY散点图。第四步:输入数据区域。第五步:定义X轴为“国内生产总值GDP”、Y轴为“货运周转量”。第六步:选择新工作表插入还是作为其中的对象插入(在这里我们选择作为其中的对象插入)。按“完成”。图形如2.6.1所示。0102030405060020406080由图2.6.1可以看出,国内生产总值GDP与货运周转量之间具有线性相关关系。于是我们可以对国内生产总值x与货运周转量y建立一元线性回归方程 iy01bbix进行回归分析。二、回归分析 用Excel软件进行回归计算的步骤如下:第一步:选择“工具”下拉菜单。第二步:选择“数据分析”选项。第三步:在分析工具中,选择“回归”,然后按“确定
25、”。第四步:定义自变量、因变量、置信度、输出区域。选择“确定”后得到如输出结果62.6.1所示。SUMMARY OUTPUT 回 归 统 计 Multiple R 0.9893081 R Square 0.9787304 Adjusted R Square 0.9778442 标 准 误 差 1.8803252 观 测 值 26 方差分析 df SS MS F Significance F 回归分析 1 3904.645052 3904.6451 1104.3726 1.395E-21 残差 24 84.85494771 3.5356228 总计 25 3989.5 Coefficients
26、标 准 误 差 t Stat P-value Lower 95%Upper 95%Intercept 6.7511935 0.844534388 7.9939829 3.198E-08 5.0081605 8.4942264 X Variable 1 0.5952747 0.017912641 33.232102 1.395E-21 0.5583049 0.6322446 输出结果包括三部分内容:第一部分是“回归统计”。给出了相关系数(Multiple R)、可决系数(R Square)、修正的可决系数(Adjusted R Square)、标准误差和观测值的个数。第二部分是“方差分析”。给出
27、了自由度(df)、回归平方和与残差平方和(SS)、回归平方和与残差平方和的均方(MS)、F统计量和F检验的显著水平(SignificanceF)。第三部分是参数估计的有关内容。给出了回归方程的截距(Intercept)的估计值 (Coefficients)、斜率(X Variable 1)的估计值(Coefficients)、截距和斜率标准误差 00bt检验中的t统计量(t Stat)、P-值.(P-value)以及截距和斜率标准误差、t检验中的t统计量、P-值。由输出结果2.6.1知,;Significance F=1.395E-21;P-value=1.395E-215%;R=0.9893081;R2=0.9787304;=1.88032526.7511935+0.5952747yx