1、第二章第二章 一元线性回归模型一元线性回归模型1.1 1.1 模型的建立及其假定条件模型的建立及其假定条件例如:研究某市可支配收入例如:研究某市可支配收入X对人均消费支出对人均消费支出Y 的影响。建立如下的影响。建立如下理论回归模型理论回归模型:Yi=0+1 Xi+i其中:其中:Yi被解释变量;被解释变量;Xi解释变量;解释变量;I 随机误差项;随机误差项;0,1回归系数回归系数随机变量随机变量 i包含:包含:回归模型中省略的变量回归模型中省略的变量;确定数学模型的误差;确定数学模型的误差;测量误差测量误差 一、一元线性回归模型一、一元线性回归模型二、随机误差项二、随机误差项i i的假定条件的
2、假定条件为了估计总体回归模型中的参数,需对随机误差项作出如下假定:为了估计总体回归模型中的参数,需对随机误差项作出如下假定:假定假定1:零期望假定零期望假定:E(i)=0。假定假定2:同方差性假定同方差性假定:Var(i)=2。假定假定4:X非随机变量:非随机变量:Cov(i,Xi)=0假定假定5:i 服从正态分布服从正态分布,即即i N(0,2)。假定假定3:无序列相关假定无序列相关假定:Cov(i,j)=0,(i j)。前三个条件称为前三个条件称为G-M条件条件1.2 1.2 最小二乘估计及其性质最小二乘估计及其性质普通最小二乘法(普通最小二乘法(Ordinary Least Square
3、sOrdinary Least Squares)OLSOLS回归直线的性质回归直线的性质OLSEOLSE的性质的性质一、普通最小二乘法一、普通最小二乘法对于所研究的问题,通常真实的回归直线对于所研究的问题,通常真实的回归直线 E(Yi|Xi)=0+1Xi 是观是观测不到的。可以通过收集样本来对真实的回归直线做出估计。测不到的。可以通过收集样本来对真实的回归直线做出估计。样本回归模型:样本回归模型:iiXY10其中:其中:为为Yi的估计值(拟合值);的估计值(拟合值);iY10,为为 0,1 的估计值;的估计值;如果观测值到这条直线的纵向距离(真实值与估计值的偏差)用如果观测值到这条直线的纵向距
4、离(真实值与估计值的偏差)用ei表示(称为残差),则表示(称为残差),则样本回归方程样本回归方程为:为:iiieXY10(ei为为i的估计值)的估计值)注意:分清注意:分清4个式子的关系个式子的关系(4)经验(估计的)回归直线:)经验(估计的)回归直线:(1)理论(真实的)回归模型:)理论(真实的)回归模型:(3)经验(估计的)回归模型:)经验(估计的)回归模型:(2)理论(真实的)回归直线:)理论(真实的)回归直线:01iiiYXiiX)X|Y(E10iiieXY10iiXY10对于参数的估计采用最小二乘估计法、最小二乘法的原则是以对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差
5、平方和最小残差平方和最小”确定直线位置(即估计参数)。(确定直线位置(即估计参数)。(Q为残差平方为残差平方和)和)Q=min niie12niiiYY12)(=niii)XY(1210则通过则通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,为变量,把它们看作是把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求的函数,就变成了一个求极值的问题,可以通过求导数得到。导数得到。10,10,求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:0Q=)1()(2110niiiXY=01Q=)()(2110iniiiXXY=0正规方程组正规方程组00iiiXee
6、即即12()()()iiiXX YYXXXY10根据以上两个偏导方程得以下正规方程正规方程(Normal equation):iiXnY10210iiiiXXXY,XYXY其中和 分别为、的均值011xyxxYXLL若记21()nxxiiLXX21()nyyiiLYY1()()nxyiiiLXXYY则 二、二、OLS回归直线的性质回归直线的性质(4)估计的回归直线)估计的回归直线 过点过点 .iiXY10),(YX(3)Yi 的拟合值的平均数等于其样本观测值的平均数的拟合值的平均数等于其样本观测值的平均数 .YY niiXn110)(111niiYYn=X10=Y=00iiiXee(1)(2)
7、残差和均值等于)残差和均值等于00)由于()(0)(证明:0即,值不相关)(和预测的残差 :)5(221221212211111iiiiiiiiiiiiiiiiiiiiiiiiixxxyxxyxxyxuxuYuyuYyuYuYYYu统计性质统计性质l 线性线性l 无偏性无偏性l 有效性有效性 2 2 的估计的估计三、三、OLSE回归直线的性质回归直线的性质1 1、线性、线性10,这里指这里指 都是都是Yi的线性函数。的线性函数。证明:证明:1=2()()()iiiXXYYXX=2()()()iiiiXX Y YXXXX2()()iiiXX YXX令令22()()iiiiiXXxkXXx代入上式
8、,得:代入上式,得:iiYk1同理可证:同理可证:0也具有线性特性也具有线性特性。=2、无偏性、无偏性 证明:证明:)(1E=)(iiYkE01(iiiEkX01iiiiiEkk Xk=)()(1iiiiukEXXkE=)(1iiuEk=122(-)(-)iiiiiXXxkXXx0()E0类似可证3、有效性、有效性 0,1 的的OLS估计量的方差比其他线性无偏估计量的方差都小。估计量的方差比其他线性无偏估计量的方差都小。2221()ixxVarkL221()xxXnL0()Var最小二乘估计量的方差221)var(ix222212110221)var()var(.1iiiiiiiiiiiiii
9、xuxxuxxuXxxYxx证明:最小二乘估计量的方差(续)22222201)var(iiixnXxXn222222222222220200 121)var(1)var(1 .1iiiiiiiiiiiiixnXxXnxXxxXxnuxXxnuxXxn通分后证明:最小二乘估计量的方差(续)),(),(),0(62220022112iiiixnXNxNNu服从服从则服从即,成立如果古典假定(最小方差性的证明略)(最小方差性的证明略)最大似然估计法(ML)取代最小二乘法的另一方法是最大似然法(ML)。为了使用ML法,必须对随机扰动项u的概率分布作一假定。在回归分析中,最常作的假定就是u服从正态分布。
10、在正态性假定下,自变量参数的ML估计量和OLS估计量是完全相同的。但是,u的方差的OLS和ML估计量却有差别。然而,在大样本中,这两个估计量趋于一致。因此,通常称ML法为大样本方法。ML法有更为广泛的应用。意思是,它可以用于对参数为非线性的回归模型。对于非线性情形,一般都不用OLS。总平方和(SST)是实测的Y值围绕其均值的总变异。解释平方和(SST)是估计的Y值围绕其均值的变异。残差平方和(SSR)是未被解释的围绕回归线的Y的变异。22)(YYyii22)(YYyii22)(iiiYYu1.31.3模型的检验与评价模型的检验与评价一、一、用样本可决系数检验回归方程的拟合优度用样本可决系数检验
11、回归方程的拟合优度 平方和公式的几何表示iYiYY)(YYiiu)(YYi来自残差来自回归总离差SRF可决系数:R2公式2222222211)()(iiiiiiyuSSTSSRRYYYYyySSTSSER或性质:0R21 问:R2=0 意味着什么?R2=1 意味着什么?R2=SSRSSTR2 2=0=0时时 表明解释变量表明解释变量X X与被解释变量与被解释变量Y Y之间不存在线性关系;之间不存在线性关系;R2 2=1=1时时 表明样本回归线与样本值重合,这种情况极少发生;表明样本回归线与样本值重合,这种情况极少发生;一般情况下,一般情况下,R2 2越接近越接近1 1表示拟合程度越好,表示拟合
12、程度越好,X X对对Y Y的解释能力越强。的解释能力越强。R2与相关系数r 的区别计算。也可以由计算可以由样本相关系数222iiiiyxyxrRrr二、回归参数的显著性检验(二、回归参数的显著性检验(t t 检验检验)首先,提出原假设和备择假设:首先,提出原假设和备择假设:H0:01H1:01其次,确定并计算统计量:其次,确定并计算统计量:111St1xxL如果如果 不能拒绝不能拒绝H0:,认为,认为X X对对Y Y没有显著影响。没有显著影响。01)2(2/ntt如果如果 拒绝拒绝H0:,认为,认为X X对对Y Y有显著影响。有显著影响。)2(2/ntt同理同理,可对可对 进行显著性检验。进行
13、显著性检验。001三、回归方程的显著性检验(三、回归方程的显著性检验(F F检验检验)222()()()iiiiYYYYYY 总离差平方和总离差平方和 回归平方和回归平方和 残差平方和残差平方和SST =SSR +SSESST =SSR +SSE/1(1,2)/(2)SSRFFnSSEnH0:01H1:01拒绝域F F F F (1,n-2)1.5 1.5 一元线性回归方程的预测和控制一元线性回归方程的预测和控制 点预测点预测Yi区间预测区间预测 (1)单个值单个值Yi的区间预测的区间预测 (2)均值均值E(Yi)的区间预测的区间预测控制控制如果经过检验,样本回归方程的拟合优度好,且回归系数的
14、估计值显如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为著不为0,则可以用回归方程进行预测和控制。,则可以用回归方程进行预测和控制。1 1、点预测、点预测 假设假设X0为解释变量的一个已知点,则带入样本回归方程为解释变量的一个已知点,则带入样本回归方程即可得到即可得到Y Y0 0的估计值的估计值:itXY100100XY2 2、区间预测、区间预测 估计值估计值 是一个点预测值,它可以是(是一个点预测值,它可以是(1 1)总体真值)总体真值Y0的预测值;的预测值;也可以是(也可以是(2)总体回归线)总体回归线E(Y 0)的预测值。现在根据的预测值。现在根据 来对(来对(1)(2
15、)进行区间预测。)进行区间预测。0Y0Y二、个值预测(点估计)的。计量是的点估计量,这个点估是、点估计:,预测个别,比如对于选定的BLUEYYXYYXX00010000 1二、个值预测(区间估计)00100010000000222000020002202()0()1var()()(1)()0 N(0,1)()1(1)iiYXYXuYYEXXE YYnxYYXXnx区间估计:由以及令,则正态分布其中将标准化得二、个值预测(区间估计续))(11()(11(:)(2)-t(n)(11(02202200220220022020022iiixXXntYYxXXntYYExXXnYY的预测区间为所以得:代替用要预测的个值Y0以1-的概率落在此区域中。3、影响预测精度的因素、影响预测精度的因素 1.母体的方差母体的方差 2.样本容量的大小样本容量的大小 3.样本点分散度样本点分散度 4.外推点偏离均值的程度外推点偏离均值的程度课后习题1课后习题2课后习题3课后习题4