1、1第三节第三节 线性回归拟合度评价、统线性回归拟合度评价、统计推断和预测计推断和预测一、回归拟合度评价一、回归拟合度评价二、统计推断和假设检验二、统计推断和假设检验 2 回归分析回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质统计性质上已知,如果有足够多的重复 抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验统计检验。主要包括拟合优度检验拟合优度检验、变量的显著性检验显著性检验及参数的区间估计区间估计。
2、3一、回归拟合度评价一、回归拟合度评价对样本回归直线与样本观测值之间拟合程度的检验。:决决定系数定系数(可决可决系数系数)R2 2 问题:问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?4 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线 iiXY10iiiiiiiyeYYYYYYy)()(1 1、总离差平方和的分解、总离差平方和的分解5 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。6 对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记2
3、2)(YYyTSSii总体平方和总体平方和(Total Sum of Squares)22)(YYyESSii回归平方和回归平方和(Explained Sum of Squares)22)(iiiYYeRSS残差平方和残差平方和(Residual Sum of Squares)7TSS=ESS+RSS Y的观测值围绕其均值的总离差总离差(total variation)可分解为两部分:一部分来自回归线一部分来自回归线(ESS),另一部,另一部分则来自随机势力分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此 8TSSRSS
4、TSSESSR1记2称 R2 为(样本)(样本)决决定定系数系数/判定系数判定系数(coefficient of determination)。决决定定系数系数的取值范围取值范围:0,1 R2 2越接近越接近1 1,说明实际观测点离样本线越近,拟,说明实际观测点离样本线越近,拟合优度越高合优度越高。2、决、决定定系数系数R2 2统计量统计量9注:决定系数注:决定系数是一个非负的统计量。它也是随着是一个非负的统计量。它也是随着抽样的不同而不同。抽样的不同而不同。决定系数可通过Eviews直接给出计算结果。问题:问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大(Why?)这就给人
5、一个错觉一个错觉:要使得模型拟合得好,只要增加要使得模型拟合得好,只要增加解释变量即可解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整需调整。10 调整的可决系数调整的可决系数(adjusted coefficient of determination)在样本容量一定的情况下,增加解释变量必定使得RSS自由度减少,所以调整的思路是:将残差将残差平方和与总离差平方和分别除以各自的自由度,平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响以剔除变量个数对拟合优度的影响:)1/()1/(12nTSSknRSSR其中:n-k-1为残
6、差平方和RSS的自由度,n-1为总体平方和TSS的自由度。1111)1(12knnR2R12例3-3-1(教材例3-2)Dependent Variable:YMethod:Least SquaresDate:03/02/08 Time:15:13Sample:1981 2002Included observations:22 Variable Coefficient Std.Errort-Statistic Prob.C 237.7530 68.35517 3.478200 0.0024 X 0.751089 0.010396 72.24472 0.0000R-squared0.996183
7、 Mean dependent var3975.000Adjusted R-squared0.995992 S.D.dependent var3310.257S.E.of regression209.5727 Akaike info criterion13.61453Sum squared resid878414.7 Schwarz criterion13.71371Log likelihood-147.7598 F-statistic5219.299Durbin-Watson stat1.287765 Prob(F-statistic)0.00000013二二、统计推断和假设检验、统计推断和
8、假设检验 为了进一步判断模型变量关系的真实性和得到修改模型的思路,常常需要对线性回归模型作统计推断和假设检验。统计推断分析也是对模型与特定经济理论之间内在联系等的检验。14(一)参数估计量的分布(一)参数估计量的分布(二)误差方差的估计(二)误差方差的估计(三)单参数置信区间(三)单参数置信区间(四)参数的显著性检验(四)参数的显著性检验(五)模型参数的线性约束检验(五)模型参数的线性约束检验(六)模型总体显著性检验(六)模型总体显著性检验15(一)参数估计量的分布(一)参数估计量的分布 参数估计量的分布是对线性回归模型进行推断分析的基础。在满足模型假设的情况下,参数的最小二乘估计量是最小方差
9、最小方差线性线性无偏无偏估计量。对一元线性回归模型N(0,),Y是的线性函数,因正态分布的线性函数仍服从正态分布,故Y服从正态分布。可以证明:XY102分布线性函服从正 态数,是Y的11),(2211ixN16 对多元回归分析 上面的表达式中含有未知参数,不能作为统计分析的统计量。211,1N0,1()kkkkkbZXX)1,0(2211NxZi17(二)误差方差的估计(二)误差方差的估计 根据最小二乘估计及其误差项的性质,不难证明下述统计量是 的无偏估计:用 代替中的 ,得到服从自由度为(n-K-1)t 分布的统计量:t(n-k-1)22S221iieSnK2211,1()kkkkkbtSX
10、X18 t(n-k-1)是估计参数的标准差的估计值,Eviews可直接给出结果,在Std.Error下面。kSXXSkk11,12)(kStkkkkS19 假设检验假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计置信区间估计。(三三)、参数的置信区间、参数的置信区间 201)(P 如 果 存 在
11、 这 样 一 个 区 间,称 之 为 置 信 区 间置 信 区 间(confidence interval);1-称为置信系数置信系数(置信度置信度)(confidence coefficient),称为显著性水平显著性水平(level of significance);置信区间的端点称为置信限置信限(confidence limit)或临界值临界值(critical values)。21一元线性模型中一元线性模型中,i(i=0,1)的置信区间的置信区间:在变量的显著性检验中已经知道:)2(ntstiii 意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(
12、-t/2,t/2)的概率是(1-)。表示为:Pttt()221即Ptstiii()221Ptstsiiiii()22122于是得到:(1-)的置信度下,i的置信区间是(,)iitstsii22 在上述收入收入-消费支出消费支出例中,如果给定=0.01,查表得:355.3)8()2(005.02tnt由于042.01S41.980S于是,1、0的置信区间分别为:(0.6345,0.9195)(-433.32,226.98)23多元回归中单参数的置信区间多元回归中单参数的置信区间 由于参数估计总是有偏差的,因此判断参数真实性的可能范围有很重要的价值。参数估计值的范围在统计上称为“置信区间”。利用根
13、据参数估计量构造的t统计量构造各个参数的置信区间:/2211,1()kkkkkbttSXX24 由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需 (1 1)增大样本容量)增大样本容量n n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2 2)提高模型的拟合优度)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。25例3-3-2(教材例3-3)Dependent Variable:YMethod:Least Squ
14、aresDate:03/02/08 Time:15:13Sample:1981 2002Included observations:22 Variable Coefficient Std.Errort-Statistic Prob.C 237.7530 68.35517 3.478200 0.0024 X 0.751089 0.010396 72.24472 0.0000R-squared0.996183 Mean dependent var3975.000Adjusted R-squared0.995992 S.D.dependent var3310.257S.E.of regression
15、209.5727 Akaike info criterion13.61453Sum squared resid878414.7 Schwarz criterion13.71371Log likelihood-147.7598 F-statistic5219.299Durbin-Watson stat1.287765 Prob(F-statistic)0.00000026k的95置信度的置信区间为:=0.75-2.086*0.010396,0.75+2.086*0.010396=0.7283 ,0.7717,22kkStStkk27(四)参数的显著性检验(四)参数的显著性检验(变量的变量的显著性
16、检验显著性检验)模型的各个参数是否具有显著性也是对模型真实性的基本检验。模型参数显著性检验就是对相应参数检验原假设 :=0。如果某个 =0成立,那么意味着根据相关变量的数据,不能排除模型中的第k个假设变量其实是不重要的,对被解释变量的影响可以忽略,因此模型需要修改。0Hkk28 先看一元线性回归方程先看一元线性回归方程 ),(2211ixN)2(1112211ntSxti29 检验步骤:检验步骤:(1)对总体参数提出假设 H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值11St(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断 若|t|t/2(n
17、-2),或2p a,则拒绝H0,接受H1;显著显著 若|t|t/2(n-2),或2p|a,则拒绝H1,接受H0;不显不显著著30 对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:)2(0022200ntSxnXtii在上述例3-3-2(教材例3-3)中,首先通过Eviews查看t统计量的值,不必手算。24472.72,010396.0,751089.0111tS478200.3,35517.68,7530.237000tS 31 给定显著性水平=0.05,查t分布表得临界值 t 0.05/2(20)=2.086|t1|2.306,说明该地区人均可支配收入该地区人均可支配收入在在9
18、5%95%的置信度下显著,即是人均消费支出的置信度下显著,即是人均消费支出的主要解释变量;的主要解释变量;|t0|2.306,表明截距项在截距项在95%95%的置信度的置信度下下显著显著。32对于多元线性回归 检验的具体方法如下:1、根据要求的置信度(95%或99%),查t分布表得到临界值 ;2、如果原假设真实的,那么有95%或99%的机会 成立;3、如果 ,则可以拒绝原假设。/2(1)tnK/2(1)kttnK /2(1)kttnK33 多元线性回归模型的参数估计实例多元线性回归模型的参数估计实例 例例3-3-3(上节例上节例3-2-3)经研究,发现经研究,发现家庭书刊消费水平家庭书刊消费水
19、平Y(元元/年年)受家庭受家庭收入收入X(元元/月月)和户主受教育年数和户主受教育年数T(年年)的影饷。现对某地区的家庭进的影饷。现对某地区的家庭进行抽样调查,得样本数据如下,试行抽样调查,得样本数据如下,试估计家庭书刊消费水平同家庭收入、估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。户主受教育年数之间的线性关系。34Y X T Y X T 450 1027.2 8 793.2 1998.6 14 507.7 1045.2 9 660.8 2196 10 613.9 1225.8 12 792.7 2105.4 12 563.4 1312.2 9 580.8 2147.4 8
20、501.5 1316.4 7 612.7 2154 10 781.5 1442.4 15 890.8 2231.4 14 541.8 1641 9 1121 2611.8 18 611.1 1768.8 10 1094.2 3143.4 16 1222.1 1981.2 18 1253 3624.6 20 35用用Eviews的计算结果的计算结果Dependent Variable:YMethod:Least SquaresDate:03/02/08 Time:23:08Sample:1 18Included observations:18 Variable Coefficient Std.E
21、rror t-Statistic Prob.C-50.0163849.46026-1.0112440.3279X0.0864500.0293632.9441860.0101T52.370315.20216710.067020.0000R-squared 0.951235 Mean dependent var755.1222Adjusted R-squared0.944732 S.D.dependent var258.7206S.E.of regression60.82273 Akaike info criterion11.20482Sum squared resid 55491.07 Schw
22、arz criterion 11.35321Log likelihood-97.84334 F-statistic146.297Durbin-Watson stat 2.605783 Prob(F-statistic)0.000000回归方程为:回归方程为:Y=-50.0164+0.08645X+52.37031T36根据根据Eviews计算结果计算结果 故在5的显著性水平下,家庭收入和户主受教育年数是影响家庭书刊消费水平的主要因素。截距项不显著(无法拒绝其为零)。131.2)15(06702.1006702.10131.2)15(944186.2944186.2131.2)15(011244
23、.1011244.1205.02205.01205.00tttttt37(六)模型总体显著性检验(六)模型总体显著性检验(方方程的显著性检验程的显著性检验)(F检验检验)除了各个参数的显著性检验以外,多元线性回归还应该对模型总体的显著性,也就是全体解释变量总体上对被解释变量是否存在明显影响进行检验。模型总体的显著性检验也称为“回归显著性检验”。38F检验检验 方程的显著性检验,旨在对模型中被解释变方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系量与解释变量之间的线性关系在总体上在总体上是否显著是否显著成立作出推断。成立作出推断。1、方程显著性的、方程显著性的F检验检验 即检验模
24、型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n中的参数j是否显著不为0。可提出如下原假设与备择假设:H0:0=1=2=k=0 H1:j不全为039 F F检验的思想检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS由于回归平方和2iyESS是解释变量X的联合体对被解释变量 Y 的线性作用的结果,考虑比值 22/iieyRSSESS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此因此,可通过该比值的大小对总体线性关系进行推可通过该比值的大小对总体线性关系进行推断断。40 根据数理统计学中的知识,在原假设H0成立
25、的条件下,统计量)1/(/knRSSkESSF服从自由度为(k,n-k-1)的F分布 给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过 F F(k,n-k-1)或 FF(k,n-k-1)p p a p a p a a来拒绝或接受原假设H0,以判定原方程总体上总体上的线性关系是否显著成立。41 多元线性回归模型的多元线性回归模型的显著性检验显著性检验实例实例 例例3-3-4(上节例上节例3-2-3)经研究,发现经研究,发现家庭书刊消费水平家庭书刊消费水平Y(元元/年年)受家庭受家庭收入收入X(元元/月月)和户主受教育年数和户主受教育年数T(年年)的影饷。现对某地区
26、的家庭进的影饷。现对某地区的家庭进行抽样调查,得样本数据如下,试行抽样调查,得样本数据如下,试估计家庭书刊消费水平同家庭收入、估计家庭书刊消费水平同家庭收入、户主受教育年数之间的线性关系。户主受教育年数之间的线性关系。42用用Eviews的计算结果的计算结果Dependent Variable:YMethod:Least SquaresDate:03/02/08 Time:23:08Sample:1 18Included observations:18 Variable Coefficient Std.Error t-Statistic Prob.C-50.0163849.46026-1.01
27、12440.3279X0.0864500.0293632.9441860.0101T52.370315.20216710.067020.0000R-squared 0.951235 Mean dependent var755.1222Adjusted R-squared0.944732 S.D.dependent var258.7206S.E.of regression60.82273 Akaike info criterion11.20482Sum squared resid 55491.07 Schwarz criterion 11.35321Log likelihood-97.84334
28、 F-statistic146.297Durbin-Watson stat 2.605783 Prob(F-statistic)0.000000回归方程为:回归方程为:Y=-50.0164+0.08645X+52.37031T43F=146.297 给定显著性水平=0.05,查分布表,得到临界值:二元例:F(2,15)=3.68显然有 F F(k,n-k-1)即模型的线性关系在95%的水平下显著成立。44 2、关于拟合优度检验与方程显著性检关于拟合优度检验与方程显著性检验关系的讨论验关系的讨论 由)1/()1/(12nTSSknRSSR)1/(/knRSSkESSF可推出:kFknnR1112
29、与或)1/()1(/22knRkRF45在在居民人均收入居民人均收入-人均消费人均消费一元模型一元模型中中(教材例3-1),F 4.41,0.1968时模型在时模型在95的水平的水平下显著成立。下显著成立。在在例例3-3-4二元模型二元模型中中,F 3.68,0.3292时模型在时模型在95的水平下显的水平下显著成立。著成立。2R2R46三、三、预测分析预测分析 利用回归直线进行预测是计量经济分析的根本目的和应用基础。线性回归方程的预测包括“点预测”和“区间预测”。47(一)点预测(一)点预测 点预测就是有通过回归分析得到回归直线以后,把样本观测值以外的解释变量的观测值X*代入回归直线,得到被
30、解释变量的预测值011*=*=KKYbb Xb XX B48(二)预测误差和区间预测(二)预测误差和区间预测 预测残差(误差)在X*处模型的实际数值为:上述点预测存在误差:*=*+*YX*=*+*eYYXB49 利用预测或预测残差的分布性质,可以构造 的置信区间:这个置信区间也称为对被解释变量的一个“区间预测”。区间预测常常比点预测有更重要的意义。*Y*1*1/2/21(),1()YtSYtS X XX XX XX X50例例3-3-5(教材例教材例3-5)根据例3-1的消费函数模型,预测人均收入为14000时的人均消费,并进一步作置信度为95的区间预测。51例例3-2-2(教材例教材例3-1
31、)Eviews计算结计算结果果Dependent Variable:YMethod:Least SquaresDate:03/02/08 Time:15:13Sample:1981 2002Included observations:22Variable Coefficient Std.Error t-StatisticProb.C237.7530 68.35517 3.478200 0.0024 X 0.751089 0.010396 72.24472 0.0000R-squared0.996183 Mean dependent var3975.000Adjusted R-squared0.
32、995992 S.D.dependent var3310.257S.E.of regression209.5727 Akaike info criterion13.61453Sum squared resid878414.7 Schwarz criterion13.71371Log likelihood-147.7598 F-statistic5219.299Durbin-Watson stat1.287765 Prob(F-statistic)0.00000052点预测:由回归方程,999.1075214000751089.07530.237Y53区间预测 一元区间预测公式:其中SEF为预测
33、标准差。,22SEFtYSEFtY直接输出。可由的预测标准差,记为的预测值为EviewsSEFXXXXnSSEFSEFYXXXXnSXXXXnStYXXXXnStYiiii,)()(11.Y)()(11)()(11,)()(11222222222254555657 obs X Y1981637.0000585.00001982659.0000576.00001983686.0000615.00001984834.0000726.000019851075.000992.000019861293.0001170.00019871437.0001282.00019881723.0001648.000
34、19891976.0001812.00019902182.0001936.00019912485.0002167.00019923009.0002509.00019934277.0003530.00019945868.0004669.00019957172.0005868.00019968159.0006763.00019978439.0006820.00019988773.0006866.000199910932.008248.000200011718.008868.000200112883.009336.000200213250.0010464.00200314000.00NA585960
35、61obsXYYFSEF1981637.0000585.0000716.1965218.97911982659.0000576.0000732.7205218.93211983686.0000615.0000752.9999218.87471984834.0000726.0000864.1610218.566419851075.000992.00001045.173218.086619861293.0001170.0001208.911217.676619871437.0001282.0001317.068217.418219881723.0001648.0001531.879216.9349
36、19891976.0001812.0001721.904216.540419902182.0001936.0001876.629216.242419912485.0002167.0002104.209215.841819923009.0002509.0002497.779215.256219934277.0003530.0003450.160214.405919945868.0004669.0004645.142214.483519957172.0005868.0005624.562215.495919968159.0006763.0006365.886216.823319978439.000
37、6820.0006576.191217.286719988773.0006866.0006827.055217.8890199910932.008248.0008448.655223.0508200011718.008868.0009039.011225.4562200112883.009336.0009914.030229.5107200213250.0010464.0010189.68230.9048200314000.00NA10753.00233.921662收入X=14000时,人均消费Y的置信度为95%的置信区间:.6396.11240,04.1026596.48710753,96.48710753233.9216086.210753233.9216,086.210753tY,tY22SEFSEF64E v i e w s 预 测 步 骤:1.ProcsStructure/Resize Current Page2.Start 1981 End 2003 ok3.点 击 序 列 X,E d i t+/-4.回归,Forecast 在S.E框中填入预测标准差名字SEF OK5.显示X Y YF SEF
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。