1、第二章第二章 一元线性回归模型一元线性回归模型v v 这章我们会从最简单的线这章我们会从最简单的线性回归模型入手性回归模型入手,来介绍在来介绍在基本假定完全满足的条件下基本假定完全满足的条件下,规范的计量经济研究的基本规范的计量经济研究的基本理论和方法理论和方法,为以后的内容为以后的内容打下基础。打下基础。本章主要内容:本章主要内容:v第一节第一节 一元线性回归模型概述一元线性回归模型概述v第二节第二节 最小二乘估计最小二乘估计 第一节第一节 一元线性回归模型一元线性回归模型本节主要介绍:本节主要介绍:一一 相关分析及回归分析相关分析及回归分析二二 总体回归函数总体回归函数三三 随机误差项随机
2、误差项四四 样本回归函数与残差样本回归函数与残差五五 习题习题up1、经济变量之间的关系v确定的函数关系:确定的函数关系:Y Yf f(X X)v不确定性的统计关系不确定性的统计关系相关关系相关关系相关关系X影响Y的值,Y函数关系X决定的值不能确定。例如:例如:销售收入销售收入=销售量销售量 价格价格粮食产量与施肥量之间的关系粮食产量与施肥量之间的关系储蓄额与居民收入之间的关系储蓄额与居民收入之间的关系广告费用与销售额广告费用与销售额确定性关系:确定性关系:函数关系函数关系非确定性关系:非确定性关系:相关关系相关关系 2.相关分析v绘制绘制X-Y散点图或计算相关系数以反映变量之间相散点图或计算
3、相关系数以反映变量之间相关关系密切程度,相关系数公式如下关关系密切程度,相关系数公式如下v相关系数的取值范围在相关系数的取值范围在-1和和1之间,通常情况下,之间,通常情况下,|r|0.8为高度相关,当为高度相关,当|r|0.8)0.8),两者高度相关。,两者高度相关。P23相关链接“回归”一词的由来v“回归”一词最早由Francis Galton引入。Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。回归的古典意义:回归的古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念回归的现代意义:回归的现代意义:
4、一个应变量对若干解释变量一个应变量对若干解释变量 的依赖关系的依赖关系2、回归分析回归分析(回归分析(Regression Analysis)是研究一个变量对另一个或多个变是研究一个变量对另一个或多个变量的依赖关系,其量的依赖关系,其目的在于通过解目的在于通过解释变量的给定值来估计被解释变量释变量的给定值来估计被解释变量的条件均值。的条件均值。v 假设我们研究某地区居民消费与收入的假设我们研究某地区居民消费与收入的依存关系,对应于各种收入,居民消费支出依存关系,对应于各种收入,居民消费支出虽不确定,但总会在一定的范围内变动。而虽不确定,但总会在一定的范围内变动。而且,平均说来,消费支出总是随着
5、收入水平且,平均说来,消费支出总是随着收入水平的增加而上升的。的增加而上升的。v 回归分析就是要根据对消费支出与收入回归分析就是要根据对消费支出与收入的观测数据,确定当解释变量收入确定时,的观测数据,确定当解释变量收入确定时,因变量消费支出平均水平的变动轨迹因变量消费支出平均水平的变动轨迹 相关分析与回归分析相关分析与回归分析 v联系联系:都是研究经济变量之间非确定的都是研究经济变量之间非确定的相关关系,相关分析是回归分析的基础相关关系,相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和前提,回归分析则是相关分析的深入和继续。和继续。v区别区别:第一,对变量的要求不一样。第一,对变量
6、的要求不一样。v 第二,研究方式有所区别第二,研究方式有所区别。up二、总体回归函数(二、总体回归函数(PRF PRF)v被解释变量被解释变量Y Y的条件期望的条件期望 随着解随着解释变量释变量X X的变化而有规律地变化。把这种变化的变化而有规律地变化。把这种变化关系用函数表示出来,就是总体回归函数:关系用函数表示出来,就是总体回归函数:v回归函数在坐标系中用图形表示出来就是回回归函数在坐标系中用图形表示出来就是回归线。它归线。它表示了因变量和自变量之间的平均表示了因变量和自变量之间的平均关系关系。E(Y)iiXiE(Y)f(X)iiX=E()iY XP23P23【经典实例经典实例】表表2-2
7、 某小镇家庭每月收入与消费支出表某小镇家庭每月收入与消费支出表每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X 1800200022002400260028003000320034003600每每月月家家庭庭消消费费支支出出Y Y1550165017901800202021002200237023702500160017001840193020702150236024502450252016501740190019502100220024002400255027501700180019402030216023002440252026502780175018501980208021802
8、3502450257027502800188021302250240026002890285021502620291016501770189020102130225023702490261027301,4001,6001,8002,0002,2002,4002,6002,8003,0001,5002,0002,5003,0003,5004,000XYE(Y|Xi)Xupv从散点图发现:随着收入的增加,消费从散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且也在增加,且Y的条件均的条件均值均落在一根正斜率的直线上。这条直值均落在一根正斜率的直线上。这条直线称为总体回归线。线称为总体
9、回归线。(1)条件均值条件均值表现形式表现形式 假如假如 的条件均值的条件均值 是解是解 释变量释变量 的线性函数,可表示为:的线性函数,可表示为:(2)个别值个别值表现形式表现形式 对于一定的对于一定的 ,的各个别值的各个别值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与条件 均值均值 的偏差为的偏差为 ,显然显然 是随机变量是随机变量,则有则有 或或 总体回归函数的表现形式总体回归函数的表现形式iuiXXY)(iXYEiYiXE()iY XiYE()iY XiYE()iY XiuiuYYX01E()()iiiiY Xf XX01E()iiiiiiuYY XYX01iiiYXu
10、 P24P24【相关链接相关链接】“线性线性”一词的含义一词的含义 1、模型就模型就变量变量而言是线性的而言是线性的,例如例如 2、模型就模型就参数参数而言是线性的而言是线性的,例如例如201E(Y)iiiXX011E(Y)iiXX 注注:在计量经济学中,主要考虑的是模型就在计量经济学中,主要考虑的是模型就参数参数而言是线性的情形。(即第二种情况)而言是线性的情形。(即第二种情况)Up01E(Y)iiiXX01E(Y)iiiXX三、随机误差项三、随机误差项 对于一定的对于一定的 ,Y的各个个别值的各个个别值 分分布在布在 的周围,其差令为的周围,其差令为iXiYE(Y)iiXiu()iiiiu
11、YE Y X=-o总体回归模型图解总体回归模型图解XiPRFYiAE(Y|Xi)PRFuiP25P25【相关链接相关链接】随机误差项包含的因素随机误差项包含的因素根据表根据表2-22-2计算随机误差项计算随机误差项up四、样本回归函数四、样本回归函数(SRF)v1 1、概念概念 因变量因变量Y Y的样本观测值的条件均值表示成解的样本观测值的条件均值表示成解释变量释变量X X的某种函数,即为样本回归函数。的某种函数,即为样本回归函数。(其函数形式与总体回归函数的函数形式(其函数形式与总体回归函数的函数形式一致。)一致。)如:如:01iiYX0011(|)iiY E Y X:的估计量:截距参数的估
12、计量:斜率参数 的估计量 样本中,实际观测值不完全等于样本条件样本中,实际观测值不完全等于样本条件均值,两者之差用残差均值,两者之差用残差 来表示来表示 v定义:定义:那么有:那么有:iiieYYiiiYY e 01iiiiiYYeXeieiY SRFSRF ieiYiYYiXX2 2、对样本回归函数的说明、对样本回归函数的说明v每次抽样都能够获得一个样本,就可以每次抽样都能够获得一个样本,就可以拟合一条样本回归线,所以样本回归线拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有多条。随抽样波动而变化,可以有多条。SRF1SRF2XY如课本如课本2626页页v不同的样本就会有不同的样本
13、回归线不同的样本就会有不同的样本回归线v 样本样本1v 样本样本2X1800200022002400260028003000320034003600Y1600174019402030216022002360237026502910X1800200022002400260028003000320034003600Y1650180019002080218023002440252027502850样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别1 1、总体回归线是未知的,只有一条。样本回归、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,线是根据样本数据拟合
14、的,每抽取一组样本,便可以拟合一条样本回归线。便可以拟合一条样本回归线。2 2、总体回归函数中的、总体回归函数中的0 0和和1 1是未知的参数,是未知的参数,表现为常数。而样本回归函数中的表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观是随机变量,其具体数值随所抽取的样本观测值不同而变动。测值不同而变动。01和Up1 1、下列哪些形式是正确的()。、下列哪些形式是正确的()。vA.D.vB.E.vC.F.vG.vH、XY10XY10XY10XY10XY10eXY10XY1001E(Y)iiiXXiY SRFSRF PRFPRF?YiXX?都代表什么?都代表什么判断正误并说
15、明理由:判断正误并说明理由:(1)随机误差项随机误差项ui和残差项和残差项ei是一回事是一回事(2)总体回归函数给出了对应于每一个解总体回归函数给出了对应于每一个解释变量的被解释变量的值。释变量的被解释变量的值。(3)在线性回归模型中,解释变量是原因在线性回归模型中,解释变量是原因,被解释变量是结果,被解释变量是结果up第二节第二节 最小二乘估计(最小二乘估计(OLS)v本节主要介绍:本节主要介绍:一、一元线性回归模型的一、一元线性回归模型的基本假定基本假定二、二、普通最小二乘法(普通最小二乘法(OLSOLS)三、三、OLSOLS回归线的性质回归线的性质四、四、最小二乘估计式的统计性质最小二乘
16、估计式的统计性质五、五、习题习题up一、一、一元线性回归模型的基本假定一元线性回归模型的基本假定v1 1、为什么要有这些假定?、为什么要有这些假定?为保证参数估计量具有良好的为保证参数估计量具有良好的性质,根据普通最小二乘法的性质,根据普通最小二乘法的适用条件,对一元线性回归模适用条件,对一元线性回归模型提出若干基本假定。型提出若干基本假定。2 2、假定的两个方面:、假定的两个方面:(1 1)关于变量和模型的基本假定关于变量和模型的基本假定v 选择了正确的函数形式。选择了正确的函数形式。v 是非随机的,或者虽然是非随机的,或者虽然 是随是随机的,但是与机的,但是与 是不相关的;是不相关的;iX
17、iuiX(2 2)关于随机误差项)关于随机误差项v假定假定1 1 零均值:零均值:(|)iE Y Xiu()0iiE u X=当解释变量取值当解释变量取值 时,因变量时,因变量Y的值的值可能大于或小于可能大于或小于 ,但平均,但平均来看,随机误差项对来看,随机误差项对Y 没有影响没有影响iX假定假定2 2 同方差同方差:2()iiVar u X 是说无论解释变量是说无论解释变量X X在其可行范围内取在其可行范围内取何值,随机误差项的方差都是相同的。我何值,随机误差项的方差都是相同的。我们把这个假设称为随机误差项的同方差性们把这个假设称为随机误差项的同方差性假设。假设。如果违背该假设,则属于异方
18、差内容。如果违背该假设,则属于异方差内容。异方差XY01XXY01X假定假定3 3 无序列相关:无序列相关:(,)0,ijCov u u=ij 假设假设(3)(3)的意义是的意义是对应不同观测值的误差对应不同观测值的误差项之间没有相关性。项之间没有相关性。这一点不成立意味着误差这一点不成立意味着误差项的取值变化存在规律性,项的取值变化存在规律性,属于序列相关内容。属于序列相关内容。序列相关XXY01XY01X负相关正相关假定假定4 4 随机误差项随机误差项 与与 不相关。不相关。iuiX(,)()()0.iiiiiiCov X uE uE uXE X=-=表明随机变量表明随机变量Y中能够用从解
19、释的中能够用从解释的部分完全从随机误差项中分离了出来,部分完全从随机误差项中分离了出来,因而,在随机误差项中不再包括与解释因而,在随机误差项中不再包括与解释变量中有任何相关的因素了。变量中有任何相关的因素了。假定假定5 5:对随机误差项分布的正态性假定:对随机误差项分布的正态性假定 即假定即假定 服从均值为零、方差为服从均值为零、方差为 的正态的正态分布分布 (说明:正态性假定不影响对参数的点估计,(说明:正态性假定不影响对参数的点估计,但对确定所估计参数的分布性质是需要的。但对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷且根据中心极限定理,当样本容量趋于无穷大时,
20、大时,的分布会趋近于正态分布。所以正的分布会趋近于正态分布。所以正态性假定是合理的)态性假定是合理的)iu2(0,)iuNiu2iuupv在在Y Y与与X X的散点图上画出直线的方法的散点图上画出直线的方法很多。很多。v找出一条能够最好地描述找出一条能够最好地描述Y Y与与X X之间之间的直线。问题是:怎样算的直线。问题是:怎样算“最好最好”?OLSOLS的基本思想的基本思想不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数 和和 ,所估计的,所估计的 也不同。也不同。理想的估计方法应使理想的估计方法应使 与与 的差即残差的差即残差 越小越好越小越好因因 可正可负,所
21、以可以取可正可负,所以可以取 最小最小 二、普通最小二乘法二、普通最小二乘法 (rdinary Least Squaresrdinary Least Squares )0iYiYiYieie2ie1最小二乘法最小二乘法(图示)(图示)(Xn,Yn)(X1,Y1)(X2,Y2)(Xi,Yi)ei=Yi-Yi最小二乘法的基本思想(原则):寻找实际值与最小二乘法的基本思想(原则):寻找实际值与拟合值的离差平方和为最小的回归直线。拟合值的离差平方和为最小的回归直线。v对对 求偏导数,并令其等于零,得求偏导数,并令其等于零,得:22201 ()()miniiiiiQeYYYX 0102()0iiQYX=
22、0112()0iiiQX YX最小二乘估计量最小二乘估计量122()iiiiiinX YXYnXX 011()iiYXn简化形式简化形式12iiix yx01YXiixXX=-iiyYY=-P29P29【相关链接相关链接】X Y18001600200017402200194024002030260021602800220030002360320023703400265036002910操作方式:quickestimate equation450 0.6467iiYX=+例例 设设Y和和X的的5期观测值如下表所示,试估计期观测值如下表所示,试估计方程方程 序号序号 1 2 3 4 5 Yt 14
23、 18 23 25 30 Xt 10 20 30 40 50 解:计算过程如下:解:计算过程如下:P40P40课后习题三、课后习题三、1 1:01iiiYXu54321ttyY Y=-ttxXX=-ttxy2 txtYtX50304025302320181014110225YYn150305XXn831-4-816030040160213900.391000tttx yx01220.39 3010.3YX10.30.39ttYX=+11015020100-10-200039010004001000100400估计方程为思思 考考什么是随机误差项和残差什么是随机误差项和残差?它们之间的区别它们之
24、间的区别?最小二乘估计的基本思想是什么?最小二乘估计的基本思想是什么?up三、OLS 回归线的性质v1.1.平均值点在样本回归线上平均值点在样本回归线上 v2 2残差和为零残差和为零v3 3v4 4残差残差 与自变量与自变量 不相关不相关v5 5残差残差 与拟合值与拟合值 不相关不相关ieie0ie iiYYiXiYP40 P40 练习题三练习题三-1-1 残差和残差和=001iiiiiYYeXe 均值相等均值相等拟合值与残差不相关拟合值与残差不相关自变量与残差不相关自变量与残差不相关01YX过样本均值过样本均值up四、四、最小二乘估计式的统计性质最小二乘估计式的统计性质 v不同的样本就会得到
25、不同的参数估计值不同的样本就会得到不同的参数估计值对真实参数的代表性,是由对真实参数的代表性,是由 的统计的统计性质(均值,方差)决定的性质(均值,方差)决定的 为什么使用最小二乘法来估计参为什么使用最小二乘法来估计参数呢?数呢?01 01 1.1.线性性:线性性:最小二乘估计量是关于最小二乘估计量是关于YiYi的线性函数的线性函数 线性性使得我们容易通过基本假定线性性使得我们容易通过基本假定求得估计量服从正态分布,为统计检验求得估计量服从正态分布,为统计检验打下基础。打下基础。10 iiiibYd Y2.2.无偏性无偏性v 的均值或期望值等于总体的真实值,即的均值或期望值等于总体的真实值,即
26、v说明说明OLS估计量是以其真实值为中心的估计,估计量是以其真实值为中心的估计,这种估计当然是好的。这种估计当然是好的。010 1 E()=,E()01,3.有效性(最小方差性)有效性(最小方差性)v在在 的所有线性无偏估计量中,由最小二的所有线性无偏估计量中,由最小二乘法得到的参数估计量的方差最小的。乘法得到的参数估计量的方差最小的。v有效性说明有效性说明OLS估计量偏离其真实值的程度估计量偏离其真实值的程度最小,取值在真实值附近的可能性最大。最小,取值在真实值附近的可能性最大。01,参数的方差v证明略。证明略。v以下只给出其方差:以下只给出其方差:2221222021()()iiiiVar
27、kxXVarnxP32【相关链接相关链接】回归参数方差与标准差的计算回归参数方差与标准差的计算2250655.00016331.875028ien21211006331.8750Var()0.00193300000()Var()0.0438120.9(1)Var()48ixSESEv 最小方差说明最小二乘估计在所最小方差说明最小二乘估计在所有线性无偏估计中是分布分散程度有线性无偏估计中是分布分散程度最小的。最小的。在具有无偏性的前提下,在具有无偏性的前提下,最小二乘估计量最小二乘估计量 的分布分散程度最的分布分散程度最小、能保证最小二乘估计值与参数小、能保证最小二乘估计值与参数真实值比较接近,
28、因此是对最小二真实值比较接近,因此是对最小二乘估计价值的进一步支持。乘估计价值的进一步支持。v线性性线性性使得我们容易通过基本假定使得我们容易通过基本假定求得估计量服从正态分布,为统计求得估计量服从正态分布,为统计检验打下基础;检验打下基础;v无偏性无偏性说明说明OLSOLS估计量是以其真实估计量是以其真实值为中心的估计,这种估计当然是值为中心的估计,这种估计当然是好的;好的;v最小方差性最小方差性说明说明OLSOLS估计量偏离其估计量偏离其真实值的程度最小,取值与真实值真实值的程度最小,取值与真实值附近的可能性最大附近的可能性最大up1 1、计量经济学的研究方法一般分为以下步、计量经济学的研
29、究方法一般分为以下步骤()骤()A A确定科学的理论依据、模型设定、模型检验、确定科学的理论依据、模型设定、模型检验、模型修定、模型应用模型修定、模型应用B B模型设定、数据收集、估计参数、模型检验、模型设定、数据收集、估计参数、模型检验、模型应用模型应用C C搜集数据、模型设定、估计参数、预测检验搜集数据、模型设定、估计参数、预测检验D D模型设定、数据收集、模型修定、结构分析、模型设定、数据收集、模型修定、结构分析、模型应用模型应用v2.2.设设OLSOLS法得到的样本回归直线为,法得到的样本回归直线为,v则点则点 ()vA.A.一定不在回归直线上一定不在回归直线上 v B.B.一定在回归
30、直线上一定在回归直线上 vC.C.不一定在回归直线上不一定在回归直线上 vD.D.在回归直线上方在回归直线上方),(YX01iiiYXe1ntttYYiiYYmaxttYY-21ntttYY3.最小二乘准则是指(最小二乘准则是指()达到最小值达到最小值C.使使D.使使达到最小值达到最小值B.使使达到最小值达到最小值达到最小值达到最小值A.A.使使4、下图中、下图中“”所指的距离是()所指的距离是()YiYXiYiYA.A.随机误差项随机误差项 B.B.残差残差 C.的的离差离差 D.的离差的离差01()iiE Y XXv5 5、参数的估计量具备最小方差性是、参数的估计量具备最小方差性是指()指
31、()vA.=0 B.为最小为最小 C.D.为最小为最小1()Var 1()Var11011v6 6、计量经济学参数估计量无偏性的、计量经济学参数估计量无偏性的含义是含义是vA A估计值与真实值相等估计值与真实值相等vB B估计值与真实值相差很小估计值与真实值相差很小vC C估计量的数学期望等于真实值估计量的数学期望等于真实值vD D估计量的方差为估计量的方差为0 0v7 7、若两变量、若两变量x x和和y y之间的相关系数为之间的相关系数为-1-1,这说明两个变量之间(,这说明两个变量之间()vA.A.低度相关低度相关B.B.不完全相关不完全相关vC.C.弱正相关弱正相关D D.完全相关完全相关 为什么在对参数进行最小二乘估计为什么在对参数进行最小二乘估计之前,要对模型提出古典假定?之前,要对模型提出古典假定?v答:在古典假定条件下,答:在古典假定条件下,OLSOLS估计得到估计得到的参数估计量是该参数的最佳线性无偏的参数估计量是该参数的最佳线性无偏估计,具有无偏性、有效性、线性。总估计,具有无偏性、有效性、线性。总之,作古典假定是为了使所作出的估计之,作古典假定是为了使所作出的估计具有较好的统计性质和方便地进行统计具有较好的统计性质和方便地进行统计推断。推断。up