1、1 回归分析概述参数估计模型检验模型预测第三章第三章双变量模型:假设检验古典线性回归模型的基本假定 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计iiiXY10i=1,2,n见第二章2第二节 参数估计本章(第3章)基本内容简介 一、参数估计 1.古典线性回归模型假定 2.OLS估计量的方差与标准误 3.OLS估计量的性质 二、统计检验(*)1.参数估计量的置信区间检验 2.变量的显著性检验 3.回归直线的拟合优度检验 三、回归分析结果的报告 四、预测一、古典线性回归模型的基本假定 原因1:只有符合这些基本假定,才能保证OLS参数估计量具有良好的性质;原因3:随机误
2、差项加上一个非随机项X生成了Y,因而Y也是随机变量。在根据SRF进行假设检验时,如果不对随机误差项的生成做一些特殊的假定,则无法进行假设检验,也就更无法进行预测。原因2:如果不满足这些假定,第二部分(即第710章)会进一步进行处理。这是基于学习的由浅入深、由理想状态到现实实际的步骤。4简单地说,首先,对模型作基本假定后,对模型的估计才可能具有良好的统计性质。所估计的参数才能尽可能地接近总体参数的真实值;其次,在最小二乘估计的统计性质的证明中,基本假定是必备条件;第三,因为模型中有随机误差项,所估计的参数也是随机变量,显然,参数估计量的分布与随机误差项的分布有关,只有对随机误差项的分布作出某些假
3、定,才能比较方便地确定参数估计量的分布性质,才可能在此基础上对参数进行假设检验和区间估计进行统计推断,也才可能对被解释变量作区间预测。一、古典线性回归模型的基本假定 假定1:回归模型是参数线性的,但不一定变量是线性的假定2:解释变量X与随机误差项之间不相关。(注:在前面学习时已经给出,X是非随机变量)Cov(Xi,i)=0 i=1,2,n如果X是非随机的(即为固定值),则该假定自动满足。我们所指的回归分析是条件回归分析,即给定X条件下的回归分析,即我们一直假定X是非随机的。6假定3:给定X i,随机误差项的期望或均值为零。E(i X i)=0 i=1,2,n表明:随机误差项(其他影响因素)与X
4、i(纳入模型的变量)之间不相关。7假定4:随机误差项具有同方差,即方差为常数。Var(i)=2 i=1,2,n表明:与给定X相对应的每个Y的条件分布具有同方差,即每个Y值以相同的方差分布在其均值周围。8假定5:无自相关。即随机误差项之间不相关。Cov(i,j)=0 ij i,j=1,2,n表明:误差项之间没有系统关系,即误差项是随机的。9假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。假定7:随机误差项服从零均值、同方差、零协方差的正态分布。(补充)iN(0,2)i=1,2,n为了推导估计量的抽样分布,需要增加以下假定可以计算出OLS的估计量及其标准误、估计量的统计性质根据中心极
5、限定理可得,参数估计量也服从正态分布进一步说明10),(2211ixN),(22200iixnXN11小结-古典线性回归模型的基本假定假定1:回归模型是参数线性的假定2:解释变量X与随机误差项之间不相关。假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差(即模型中包括了所有影响变量)。基本假定基本假定:有两个方面有两个方面:一是对变量和模型假定一是对变量和模型假定;二是对随机误差项的统计分布的假定二是对随机误差项的统计分布的假定.假定3、4、5、7:随机误差项服从零均值、同方差、零协方差的正态分布。iiiXY10i=1,2,n12二、普通最小二乘估计量的方差与标准误基于1-6假定,可
6、以估计OLS估 指标计量的方差和标准误。结论:该度量指标回答了参数估计量如何随着样本的变化而变化。OLS估计量是随机变量,因为随着样本的不同,OLS估计量是不同的。OLS估计量是如何随样本变化而变化的呢,即这些估计量的抽样变异性是怎样的呢?这种抽样变异性通常由估计量的方差或其标准误(方差的平方根)来度量。13XYxyxiii1021参数估计量的方差和标准误14二、普通最小二乘估计量的方差与标准误)var()var()var()var(21021iiiiiiikXkYk22222iiixxx221020)/1()var()var()var(iiiiiikXnXwYw2222222221121ii
7、iiixxXkXnnkXkXnn22222222221iiiiixnXxnXnxxXn15随机误差项的方差2的估计 由于随机项 i不可观测,只能从 i的估计残差ei i出发,对总体方差进行估计。二、普通最小二乘估计量的方差与标准误2又称为总体方差总体方差。16 可以证明可以证明,2的最小二乘估计量最小二乘估计量为222nei二、普通最小二乘估计量的方差与标准误随机误差项的方差2的估计 是2 的估计量 是残差平方和,即Y的真实值与估计值之差的平方和(n-2)称为自由度,可简单看做观测值个数减去待估参数的个数222ie称为回归的标准误(SER,standard error of the regre
8、ssion)该值越小,说明Y的实际值越接近根据回归模型得到的估计值。17在 随 机 误 差 项 的 方 差 2估 计 出 后,参 数0和1的 方方 差差 和 标标 准准 差差 的 估 计 量 分 别 是:1的样本方差:2221ixS 1的样本标准差:21ixS 0的样本方差:22220iixnXS 0的样本标准差:220iixnXS 标准误标准误方差方差二、普通最小二乘估计量的方差与标准误18二、普通最小二乘估计量的方差与标准误19 432.4138+0.0013XiSe=(16.9061)(0.000245)二、普通最小二乘估计量的方差与标准误数学S.A.T一例文章中回归结果的输出形式更进一
9、步的含义后面再解释参数估计值标准误20 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性性)线性性,即参数估计量是否是另一随机变量Y的线性函数;(2)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。三、最小二乘估计量的性质-为什么使用OLS 21三、最小二乘估计量的性质-为什么使用OLS 高斯高斯马尔柯夫定理(马尔柯夫定理(Gauss-Markov theorem)如果满足古典线性回归模型的基本假定
10、,则在所有线性估计量中,OLS估计是最优线性无偏估计量(Best Linear Unbiased Estimator,BLUE)简单易行很强的理论性质22232 2、无无偏偏性性,即估计量0、1的均值(期望)等于总体回归参数真值0与1 1111)()()(iiiiEkkEE0000)()()()(iiiiEwEwEE平均而言,参数估计值与其真值是一致的。22E平均而言,误差方差的估计值收敛于其真值;误差方差的估计量也是无偏的24证明最小方差性假设*1是其他估计方法得到的关于1的线性无偏估计量:iiYc*1其中,ci=ki+di,di为不全为零的常数则容易证明)var()var(1*1同理,可证
11、明0的最小二乘估计量0具有最的小方差 3 3、有有效效性性(最最小小方方差差性性),即在所有线性无偏估计量中,最小二乘估计量0、1具有最小方差。25第二节 参数估计-小结古典线性回归模型的基本假设 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计iiiXY10i=1,2,n26结构参数结构参数分布参数分布参数第三节 统计检验回归分析回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那
12、么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验统计检验。27第三节 统计检验28假设检验三、拟合优度检验 一、参数的置信区间法 二、变量的显著性检验法 四、回归分析结果的报告 五、正态性检验 检验样本回归函数与总体回归函数的“接近”程度即样本回归函数能否代表总体回归函数进行统计推断检验样本回归函数与样本点的“拟合优度”检验解释变量X对被解释变量 Y是否存在着显著的线性影响(掌握)检验样本回归函数与总体回归函数的“接近”程度(了解)29假设检验 所谓假设检验,就是 事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信
13、息与原假设是否有显著差异,从而决定是否接受或否定原假设。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。30假设检验数学S.A.T一例现假定家庭年收入(X)对学生的数学分数(Y)没有影响希望确认Y是否与X有关H0:1=0如果零假设为真,就没有必要把X纳入模型了虽然本例中的参数估计值不为零,但是由于抽样的波动性,数值结果会因为样本的变化而不同。显然,需要正规的检验过程拒绝或接受零假设。如何进行呢?432.41380.0013iiYX31假设检验数学S.A.T一例置信区间法可选择两种方法对0和 1的参数进行检验显著性检验法由于 服从正态分布,则变量Z服
14、从标准正态分布),(2211ixN),(22200iixnXN1111112-=0 1/iZNSx,由于 未知,需用 代替,因此上式服从t分布1122-/nitx32一、置信区间法 数学S.A.T一例设定自由度为d.f;假定显著性水平为 ,可得/2/2.1Ptd fttd f 111112-/itSx1111/2/2/2/21/211/2-.1Ptd fttd fPtd ftd fSPtd fStd fS 因为 H0:1=0,H1:10Step1:Step2:/2.td fStep3:Step4:如果原假设的 值落在该区间中,则接受原假设,否则,拒绝原假设。133接受区域拒绝区域拒绝区域1如果
15、接受区域包含零假设值 ,则不拒绝零假设。当然,无论做何种决定,都会以一定的概率(如 )犯错。1111/211/2.1Ptd fStd fS 11/2.td fS11/2.td fS置信区间置信区间显著性水平显著性水平端点称为置信限置信限(confidence limit)或临界值临界值(critical values)(confidence coefficient)(confidence interval)(level of significance)置信系数置信系数(置信度)置信度)置信区间置信区间临界值临界值临界值临界值34一、置信区间法 数学S.A.T一例本例中,自由度为8(10-2)假
16、定显著性水平 为5%H0:1=0,H1:10则根据附录可查 0.05/282.306t2.3062.3060.95Pt 111112.3062.3060.95PSS10.0013 2.3060.0002450.0013 2.3060.0002450.95P10.000740.001870.95P由于这个区间没有包括零假设值0,所以拒绝H0Step1:Step2:Step3:Step4:35H0的接受区域拒绝区域拒绝区域随机区间确定性区间建立100个这样的区间,则有95个区间包括真实的1。112.306S112.306S 95%的置信区间(自由度为8)10.000740.00187该随机区间包含
17、真实的1的概率为95%由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需 (1 1)增大样本容量)增大样本容量n n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2 2)提高模型的拟合优度)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。36练习题XYii7146.050.28101 根据我国2006年31个省市城镇居民消费支出(Y)和城镇居民人均可支配收入(X)数据,得到如下消费函数:t=(1.0467)(31
18、.395)se=(268.95)(0.0228)r2=0.9714 d.f=n-2=31-2=29检验假设:(1)对估计的斜率系数建立一个概率为95%的置信区间 (2)根据建立的该置信区间,能否接受零假设H0:(3)根据消费经济理论,人均可支配收入对消费支出有显著的正面影响,如何检验这个假设(变量显著检验)二、变量的显著性检验(即t检验)回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。38 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。),(2211ixN)2(1112211ntSxti39 二、变量的显著性检验 核心思想:构造一
19、个检验统计量,从样本数据求得检验统计量的值,以此决定接受或拒绝零假设 检验步骤:检验步骤:H0:1=*,H1:1*(2)以原假设H0构造t统计量,并由样本计算其值1*1-=tS估计量 假设值估计量的标准误(3)给定显著性水平,查t分布表,得临界值|t|t/2(n-2),则拒绝H0|t|t/2(n-2),则不拒绝H0(1)对总体参数提出假设 (4)比较 判断 二、变量的显著性检验 计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的双边检验t/2(n-2)t (n-2)单边检验右侧检验t t (n-2),则拒绝H0左侧检验t临界值3.355:在1%的显著性水平下拒绝1=0的零假设。t
20、=5.4354所对应的P值约为0.0006。说明如果在该P值水平上拒绝零假设,则犯错的概率仅为万分之六。零假设1=0为真却被拒P值:统计量的精确显著水平;拒绝零假设最低的显著水平双边检验43 二、变量的显著性检验 数学S.A.T一例单边检验 H0:10,H1:10这是因为预期的收入系数为正这是因为预期的收入系数为正110.0013=5.43540.000245tS显著性水平临界值0.01(1%)0.05(5%)0.10(10%)2.8961.8601.397t=5.4354临界值2.896:在1%的显著性水平下拒绝零假设给定显著性水平,查临界值:t (8)三、拟合优度检验 对样本回归直线与样本
21、观测值之间拟合程度的检验。问题:问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?:判定系数判定系数(可决系数可决系数)R2 244总离差平方和的分解总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线 iiXY10iiiiiiiyeYYYYYYy)()(由X的变异所解释的部分Yi的变异未解释部分或残差的变异4546 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合拟合最好最好。即“离差”全部来自回归线,而与“残差”无关。对于所有样本点,需考虑这些点与样本均值离差的平方和,可以证明:22)(YYyTSSii
22、总体平方和22)(YYyESSii回归平方和22()iiiRSSeYY残差平方和47(Total Sum of Squares)(Explained Sum of Squares)(Residual Sum of Squares)481E S SR S ST S ST S ST S SE S SR S S总体平方和回归平方和残差平方和21R S SrT S S222222()()iiiiiYYerrYYy度量的是回归模型对Y变异的解释比例拟合优度、(样本)可决系数拟合优度、(样本)可决系数/判定系数判定系数(coefficient of determination)coefficient of
23、 determination)判定系数判定系数(1-r2)表示未被X解释的Y的变异部分称为余相关系数(coefficient of alienation)coefficient of alienation)49 r r2 2越接近越接近1 1,说明实际观测点离样本线越近,拟合优度越高,说明实际观测点离样本线越近,拟合优度越高。判定系数是一个非负的统计量判定系数是一个非负的统计量判定系数判定系数的取值范围取值范围:0,12ESSrTSS50数学S.A.T一例 三、拟合优度检验 判定系数判定系数22222()7801.07761110.7869()36610iiiiiYYerYYy 即收入变量X解
24、释了数学分数Y 的79%的变异。因此可以认为该样本回归线很好地拟合了总体回归函数它也是随着抽样的不同而不同,因此对可决系数的统计可靠性也应进行检验,后续学习中深入了解。51判定系数r2相关系数r2rr 度量了两个变量X与Y之间的线性相关程度数学S.A.T一例20.78690.8871rr说明数学分数与家庭年收入高度正相关52四、回归分析结果的报告回归分析结果的报告Se=(16.9061)(0.000245)t=(25.5774)(0.0006)r2=0.7849P值=(5.85*10-9)(0.0006)d.f.=8数学S.A.T一例样本回归函数估计的回归系数的标准误t值=估计的系数/其标准误
25、t值所对应的P值判定系数如果没有设定特殊的零假设,习惯性地规定零假设:总体参数为零。若拒绝零假设,检验统计量是显著的,说明真实的总体参数不为零。H0:1=0,H1:10 H0:0=0,H1:00预先设定一个可接受的P值水平,通常为1%、5%、10%计算的P值临界P值计算的P值临界P值不能拒绝零假设,检验不显著拒绝零假设,检验统计量显著432.41380.0013iiYX53P值=(5.85*10-9)(0.0006)d.f.=8 H0:1=0,H1:10 H0:0=0,H1:00 H0:0=450,H1:0450接上例:如果:432.41384501.040216.9061t 对应的P值为0.
26、3287若设定的临界P值为10%由于本例中计算的计算的P值大于临界值大于临界P值值,所以接受零假设所以接受零假设,估计系数不显著估计系数不显著.若设定的临界P值为1%由于本例中计算的由于本例中计算的P值值小于临界小于临界P值,所以拒值,所以拒绝零假设,即每个估绝零假设,即每个估计系数是统计显著的。计系数是统计显著的。54 第四节 模型预测数学S.A.T一例回归分析的目的之一是:00YE Y X的估计量根据解释变量的值解释变量的值被解释变量的均值被解释变量的均值预测假定解释变量的值解释变量的值为某一固定值X0需要估计注意:注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因1:参
27、数估计量不确定原因2:随机项的影响55 第四节 模型预测数学S.A.T一例根据前述(3-46)的回归分析的结果可知,参数估计量是显著参数估计量是显著的,模型通过了统计检验,可以进行预测。的,模型通过了统计检验,可以进行预测。432.41380.0013iiYX需要估计该收入下数学分的实际均值假定家庭年收入值X0=78000780000=78000XYE Y X的估计量78000432.41380.0013 78000533.8138XY当家庭年收入为78000美元时,预测的数学平均分数为534分。560是条件均值E(Y|X=X0)的一个无偏估计当X=X0时,0100XY0101000100)(
28、)()()(XEXEXEYE可见,0是条件均值E(Y|X=X0)的无偏估计。0100E Y XXX但对于任一给定样本,是一个估计量,,两者之差称为预测误差。00YE Y XX为了估计这个误差,需要求出 的抽样分布0Y0Y一方面一方面另一方面另一方面57)(1(,(22020100ixXXnXNY 第四节 模型预测 总体均值预测值的置信区间 由于 0100XY),(2211ixN),(22200iixnXN可以证明)2()(00100ntSXYtY在1-的置信度下,总体均值E(Y|X0)的置信区间为:0202000)|(YYStYXYEStY以 代替2258 第四节 模型预测 总体均值预测值的置
29、信区间 总体均值E(Y|X0)95%的置信区间为:0202000)|(YYStYXYEStY数学S.A.T一例78000432.41380.0013 78000533.8138XY78000=126.5754XVar Y78000=11.2506XS Y533.8138-2.306 11.250678000533.81382.306 1 1.2506E Y X()()507.869978000559.7577E Y X若家庭年收入为78000美元,预测的数学平均分数以95%的置信度落在507.9559.8之间,一个最优估计值为533.8。(3-55)59 第四节 模型预测 总体回归线的置信带
30、如果对表2-2中的每个X值建立诸如(3-55)的一个95%的置信区间,则可以得到对应于每个家庭年收入水平下的真实数学分数的置信区间或置信带,即总体回归线的置信带。60 第四节 模型预测 总体回归线的置信带当 时,置信带的宽度最小,在此附近进行预测精度越大越远离均值,置信带越宽,预测可信度下降0XX61 五、正态性检验上述的统计检验过程以误差项服从正态分布为基础真实的误差项无法直接观察,因此,通过残差来获悉误差项的正态性。检验方法有:然而,上例中的误差项是否服从正态分布呢?残差直方图 雅克-贝拉检验(JB test)正态概率图62 回归分析概述参数估计模型检验模型预测双变量线性回归模型-小结63双变量线性回归模型双变量线性回归模型-小结小结 这两章介绍了回归分析的基本思想与基本方法。从总体回归模型与总体回归函数、样本回归模型和样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回归函数是对总体变量间关系的定量表述,由总体回归模型若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从在现实中只能先从总体中抽取一个样本,获得样本回归函数,并总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。用它对总体回归函数做出统计推断。