1、2.1 一元线性回归模型(1)w一般地,一元线性回归模型(统计模型)有如下形式:yt=0+1 xt+ut 上式表示变量yt 和xt之间的真实关系。其中yt 称被解释变量(因变量),xt称解释变量(自变量),ut称随机误差项,0称常数项,1称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(yt)=0+1 xt,(2)随机部分,ut。2.1 一元线性回归模型(2)w以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关
2、系),而是散在直线周围,服从统计关系。随机误差项ut中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。2.1 一元线性回归模型(3)2.1 一元线性回归模型(4)w回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。w回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认
3、识到该经济过程的本质。2.1 一元线性回归模型(5)w通常线性回归函数E(yt)=0+1 xt 是观察不到的,利用样本得到的只是对E(yt)=0+1 xt 的估计,即对0和1的估计。w在对回归函数进行估计之前应该对随机误差项ut做出如下假定。(1)ut 是一个随机变量,ut 的取值服从概率分布(再初等阶段我们一般假设服从正态分布)。(2)E(ut)=0。(3)D(ut)=Eut-E(ut)2=E(ut)2=2。称ui 具有同方差性。(4)ut 为正态分布(根据中心极限定理)。以上四个假定可作如下表达。ut N(0,)。(5)Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(ui
4、,uj)=0,(i j)。含义是不同观测值所对应的随机项相互独立。称为ui 的非自相关性。(6)xi是非随机的(初等阶段)。(7)Cov(ui,xi)=E(ui-E(ui)(xi-E(xi)=Eui(xi-E(xi)=Eui xi-ui E(xi)=E(ui xi)=0.ui 与xi 相互独立。否则,分不清是谁对yt的贡献。(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(yt)=E(0+1 xt+ut)=0+1 xt。2.2最小二乘估计(OLS)w对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条
5、真实的回归直线做出估计。2.2最小二乘估计(2)w怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用 表示。其中 称yt的拟合值,和 分别是 0 和1的估计量。观测值到这条直线的纵向距离用 表示,称为残差。称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有
6、优良特性。(这种方法对异常值非常敏感)01ttyx01tttttyyxty01t2.2最小二乘估计(3)w设残差平方和用Q表示,w则通过Q最小确定这条直线,即确定和的估计值。以和为变量,把Q看作是和的函数,这是一个求极值的问题。求Q对和的偏导数并令其为零,得正规方程,计算结果的推导过程参见(附录21)22201111()()TTTtttttiiiQuyyyx011001112()(1)002()()00TtttiTtttttiQyxQyxxx2.3 最小二乘估计量 和 的特性w1.线性特性:这里指 和 分别是yt的线性函数。令 代入上式,得 可见 是yt的线性函数,是1的线性估计量。同理0也具
7、有线性特性(证明留作课后习题)。01011222()()()()()()()()ttttttttttxxyyxx yyxxxxxxxx yxx2()()tttxxkxx1ttk y12.3 最小二乘估计量 和 的特性w2.无偏性:估计量的数学期望即总体参数本身 利用上式E()=E(kt yt)=E kt(0+1 xt+ut)=E(0 kt+1 kt xt+kt ut)=E1 kt(xt-)+kt ut =1+E(kt ut)=1 3.有效性:OLS估计量在线性无偏估计量中方差最小。0,1的OLS估计量的方差比其他估计量的方差小。Gauss-Marcov定理:若ut满足E(ut)=0,D(ut)
8、=2,那么用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。OLS估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏估计量。(见附录二)011xOLS 小结w注意:分清4个式子的关系。(1)真实的统计模型,yt=0+1 xt+ut(2)估计的统计模型,yt=+xt+(3)真实的回归直线,E(yt)=0+1 xt(4)估计的回归直线,=+xt01tty012.4 OLS 回归直线的性质 w(1)残差和等于零,=0 由正规方程2(yt-xt)(-1)=0得 (yt-xt)=(yt
9、-)=()=0w(2)估计的回归直线 =+xt 过(,)点。正规方程 (yt-xt)=0两侧同除样本容量T,得 =+。得证。w(3)yt 的拟合值的平均数等于其样本观测值的平均数,=。=(+xt)=+=。得证。w(4)Cov(,xt)=0 只需证明 (xt-)=xt -=xt =0。上式为正规方程之一。w(5)Cov(,)=0 (证明留作课后作业)t0101tytty01xy01y01xty1Tty1T0101xytxttxtt2.5 yt的分布和 的分布 1w根据假定条件ut N(0,),E(yt)=E(0+1 xt+ut)=0+1 xt+E(ut)=0+1 xt。Var(yt)=Var(0
10、+1 xt+ut)=Var(0+1 xt)+Var(ut)=wyt是ut的线性函数,所以yt N(0+1 xt,)。w可以证明 E()=1;Var()=,是yt的线性函数(=kt yt),所以 N(1,)。证明留作课后练习 122/()txx11112.6 的估计 w定义 ,其中2表示待估参数的个数。可以证明 .是 的无偏估计量。因为是残差,所以又称作误差均方。可用来考察观测值对回归直线的离散程度。w 和 的估计的方差是 22()(2)tuT22()E201221121()()()tVarSxx222002()()()ttxVarSTxx2.7 拟合优度的测量w可以证明 (yt-)2=(-)2
11、+(yt-)2=(-)2+()2。wSST(总平方和)=SSR(回归平方和)+SSE(残差平方和)注:SSR:旧指回归平方和(regression sum of squares),现指残差平方和(sum of squared residuals)SSE:旧指残差平方和(error sum of squares(sum of squared errors)),现指回归平方和(explained sum of squares)ytyw拟合优度是指回归直线对观测值的拟合程度。显然若观测值离回归直线近,则拟合程度好;反之则拟合程度差。ytyttyy2.7 拟合优度的测量(2)w 证:(yt-)2=(y
12、t-)+(-)2=(yt-)2+(-)2+2 (yt-)(-)其中 (yt-)(-)=(yt-)(xt-)=(yt-)xt-(yt-)=xt=0(正则方程)w度量拟合优度的统计量是可决系数(确定系数)。R2=(回归平方和)/(总平方和)=SSR/SST 所以R2的取值范围是 0,1。对于一组数据,SST是不变的,所以SSR(),SSE()。ytyytytyytytyytytytyyty1x1tyxtyt22()()ttyyyy2.8 回归参数的显著性检验及其置信区间w主要是检验 1 是否为零。而用样本计算的 是否等于零则应通过检验来判断是否有统计上的显著性。原假设 H0:1=0;备择假设 H1
13、:1 0w在H0成立条件下,统计量w若 t t(T-2),则 1 0;若 t t0.05(14)=2.15,检验结果是拒绝1=0,即认为年木材剩余物和年木材采伐量之间存在回归关系。(残差图见操作)w 估计1的置信区间。由 得 1的置信区间是 -t0.05(14),+t0.05(14)0.4043-2.15 0.0334,0.4043+2.15 0.0334 0.3325,0.4761以95%的置信度认为,1的真值范围应在0.3325,0.4761 范围中。1110.05(14)()0.95tPts110.05(14)1()ts11()s11()sOLS及其预测的Eviews操作(3)wyt的点
14、预测和平均木材剩余物产出量的置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。2000=-0.7629+0.4043 X2000 =-0.7629+0.4043 20=7.3231万m3 (置信区间预测及单点置信区间预测留作课后作业)y2.10 相关理论 w简单线性相关系数(见附录三)简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用 表示。的随机变量表达式是:估计表达式是:()()()ttttCov x,yD xD y12211122111()()11()()()()()()TtttTTtxtyttTtttTTttttxxyyT-1xyT-1T-1xxyyxxyy2.10 相关理论w偏相关系数(见附录三)以上介绍了简单线性相关系数,但是当两个变量xt,yt同时受其它变量z1t,z2t,影响时,有必要研究当控制其它变量z1t,z2t,不变时,该两个变量xt,yt之间的相关关系。称这种相关关系为偏相关关系。以3个变量xt,yt,zt,为例(多于3个变量的情形与此相似。),假定控制zt不变,测度xt,yt偏相关关系的偏相关系数定义如下。=控制zt不变条件下的xt,yt的简单相关系数。(作业:附录三例一、例二、例三的eviews操作)