1、1 第二章第二章 经典单方程计量经济学模型: 一元线性回归模型 线性回归的基本思想:线性回归的基本思想: 双变量模型双变量模型 2 线性回归的基本思想:双变量模型线性回归的基本思想:双变量模型 回归分析概述回归分析概述 参数估计参数估计 模型检验模型检验 模型预测模型预测 回归分析构回归分析构 成计量经济成计量经济 学的方法论学的方法论 基础基础 3 线性回归的基本思想:双变量模型线性回归的基本思想:双变量模型 本节课的内容 回归分析的含义 总体回归函数 样本回归函数 总体回归模型 回归分析的目的 样本回归模型 随机 误差 项的 性质 二、参数估计二、参数估计 一、回归分析概述一、回归分析概述
2、 最小二乘原理OLS下如何进行参数估计 4 变量间的关系变量间的关系 2 ,f圆面积半径半径 ,f 农作物产量 气温 降雨量 阳光 施肥量 一、一、回归分析的含义 5 确定性关系或函数关系统计依赖或相关关系 经济变量之间的关系 相关分析回归分析回归分析 一、一、回归分析的含义 变量间的关系变量间的关系 6 是用于研究一个变量与另一个(些)变量的具体依赖是用于研究一个变量与另一个(些)变量的具体依赖 关系的计算方法和理论关系的计算方法和理论。 被解释变量 (因变量)Y 解释变量(自变量) X1、 X2、 目的:目的:在于通过自变量的已知或设定值,去估计和(或)预测在于通过自变量的已知或设定值,去
3、估计和(或)预测 因变量的(总体)均值。因变量的(总体)均值。 估计 预测 农作物的产量,气温降雨量阳光 施肥量示例: 回归分析回归分析(regression analysis)的含义的含义 注意:这并不表示注意:这并不表示Y Y与与X X之间的因果关系之间的因果关系 7 例2.1:背景介绍 SAT是Scholastic Aptitude Test,是美国 高中生的所谓“高考”,在高中的最后两年 ,大部分美国学生都要参加这一考试,但能 否读四年制大学并不取决于一个SAT分数。 SAT由美国的College Board举办,在美国领 土上每年举办7次,其它地方每年6次。考试 用英语。 SAT包括
4、三种测试:1、Critical Reading: 阅读; 2、Math:数学;3、Writing:写作。 二、总体回归函数二、总体回归函数 8 例2.1:我们感兴趣的是美国学生的家庭年收 入与其数学分数有怎样的关系。(假定全美 只有10*10=100名学生参加考试) 家庭年收入X数学分数Y 7000080000美元2000030000美元 3000040000美元 4000050000美元 100000美元 收 入 变 量 X 分 为 10 组 9 一个家庭年收入5000美元的学生,其数学分数为460,X=5000,Y1=460; Y1|X=5000 = =460 一家庭年收入为5000美元的
5、学生,其数学分数为470, X=5000,Y1=470 Y2|X=5000 = =470 当家庭年收入为当家庭年收入为50005000美元时,学生的平均分为美元时,学生的平均分为452 452 E(Y | X1=5000)=452 10 Y1|X=5000 =460; Y2|X=5000 =470; Y3|X=5000 =460; Y4|X=5000 =420; Y5|X=5000 =440; Y6|X=5000 =500; Y7|X=5000 =420; Y8|X=5000 =410; Y9|X=5000 =450; Y10|X=5000 =490 E(Y | X1=5000)=452 同理
6、:E(Y | X2=15000)=475 同理:E(Y | X3=25000)=478 同理:E(Y | X4=25000)=478 同理:E(Y | X5=35000)=488 同理:E(Y | X10=150000)=552 (家庭收入(家庭收入、数学分数的条件均值)数学分数的条件均值) (家庭收入,数学分数值)(家庭收入,数学分数值) 做散点图做散点图 11 图图2-1 家庭年收入与数学家庭年收入与数学S.A.T分分 数学分数值 数学分数的 条件均值 总体回归线: 条件均值的连线 12 由于图2-1的总体回归线近似线性,因此可表 达为一线性函数: ii XXYE 10 )|( 其中,0,
7、1是未知参数,称为回归系数回归系数 (regression coefficients)。 总体回归函数(确定性非随机总体回归函数) 1是斜率,它表示X每变动一个单位,Y(条件) 均值的变化率。 例:如果1=0.001,表示家庭收入每增加表示家庭收入每增加1 1千美千美 元,预期数学平均分会提高元,预期数学平均分会提高1 1分分。 13 ii XXYE 10 )|( 这意味着Y依赖于X,也称为Y对X的回归。 即给定X的条件下,Y分布的均值;或者说,总 体回归线穿过Y的条件期望值。 因此,严格地说,回归分析是条件回归分析条件回归分析, 关注的是在给定自变量取值条件下在给定自变量取值条件下应变量 的
8、变化。 总体回归函数(确定性非随机总体回归函数) 14 三、总体回归模型三、总体回归模型( 总体回归函数的统计或随机设定)总体回归函数的统计或随机设定) 如何解释个体学生分数与收入的关系呢? 个体数学分数=这一组的平均分+(-)某个值 随机误差项 总体回归模型 (总体回归函数的统计或随机设定) 如何理解 该式? 是一随机变量,其值无法先验确定 ,通常用概率分布描述随机变量 15 系统或确 定性成分 非系统或确定 性随机成分 系统或确 定性成分 (452) 非系统或随机 成分(18) (528) (-28) 16 ii XXYE 10 )|( 表示在给定收入水平X下,该组学生的 数学平均分。 表
9、示由于误差项的存在,个人数学分数 在均值附近是如何变动的。 确定或非随机总体回归函数(总体回归函数) 随机或统计总体回归函数(总体回归模型) 17 总体回归函数说明在给定的收入水平Xi下,该组 的数学平均分。 但对该组某一个别的学生,其数学分数可能与该组 平均分数有偏差。 )|( iii XYEY 称i为观察值Yi围绕它的期望值E(Y|Xi)的离差离差 (deviation),是一个不可观测的随机变量,又称 为随机干扰项随机干扰项(stochastic disturbance)或随机误随机误 差项差项(stochastic error)。 记 四、随机误差项四、随机误差项 18 1)在解释变量
10、中被忽略的因素的影响在解释变量中被忽略的因素的影响;如 个人健康状况、居住区域、学校开设的数学课程 等因素。 2)变量观测值的观测误差的影响)变量观测值的观测误差的影响; 3)即使模型中包含了所有解释变量,但其内在随 机性不可避免,这是做任何努力都无法解释的。 因为,人类的行为存在内在随机性人类的行为存在内在随机性; 4)其它随机因素的影响)其它随机因素的影响。 奥卡姆剃刀原则。即模型是现实的简化,描述 应尽可能简单,只要不遗漏重要的信息。 随机误差项主要包括下列因素的影响: 19 如何得到总体回归函数呢? ii XXYE 10 )|( 五、样本回归函数(SRF) 如果已知表2-1的全体数据,
11、则很容易得 到总体回归线 如果仅仅有来自总体的一个样本,则 可根据样本信息估计估计总体回归函数 20 五、样本回归函数(SRF) 总体数据总体数据 21 实际中很少能获得整个总体的数据,通常, 仅仅有来自总体的某一个样本。 问题:问题:能 从一次抽 样中获得 总体的近 似的信息 吗? 五、样本回归函数(SRF) 样本数据样本数据 22 根据表2-2、表2-3的数据做散点图散点图(scatter diagram): 样本回归线 K个不同的样本可得到K条不同的样本回归线 23 记样本回归线的函数形式为: iii XXfY 10 )( 称为样本回归函数样本回归函数(sample regression
12、 function, SRF) 五、样本回归函数(SRF) 24 这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代 则 注意:注意: 五、样本回归函数(SRF) 25 同样地,样本回归函数也有如下的随机形式: iiiii eXYY 10 式中, i e 称为(样样本本)残残差差(或剩剩余余)项项(residual) ,代表 了其他影响 i Y的随机因素的集合,可看成是 i 的估计量 i 。 由于方程中引入了随机项,成为计量经济模型,因此 也称为样本回归模型样本回归模型(sample regression model)。 六、样本回归函数的随机形式/样本回归模型 26 样本数据 样本
13、回归函数SRF 即,根据 iiiii eXeYY 10 估计 iiiii XXYEY 10 )|( 七、回归分析的目的 PRFPRF SRFSRF 估计总体回归函数PRF 27 注意:注意:这里PRF可能永 远无法知道。 七、回归分析的目的 PRFPRF SRFSRF 28 (1)根据自变量的取值,估计应变量的均 值。即根据样本观察值对经济计量模型参数进行估计,求得 回归方程; (2)验证理论。 Eg假设:需求的价格弹性为-1。 (3)根据样本外自变量的取值,预测应 变量的均值。即利用回归方程进行分析、评价及预测。 估计 验证 预测 七、回归分析的目的P18 29 需说明的几个问题 线性回归分
14、析的线性回归分析的“特殊特殊”含义含义 从双变量到多变量的线性回归从双变量到多变量的线性回归 30 “线性线性”回归的特殊含义回归的特殊含义 变量线性变量线性 参数线性参数线性 应变量的条件均值是应变量的条件均值是 自变量的线性函数自变量的线性函数 应变量的条件均值是参数应变量的条件均值是参数 的线性函数,变量之间并的线性函数,变量之间并 不一定是线性的不一定是线性的 线性回归是指参数线性的回归线性回归是指参数线性的回归(即参数仅(即参数仅 以一次方的形式出现在模型中),而解释以一次方的形式出现在模型中),而解释 变量并不一定是线性的。变量并不一定是线性的。 31 从双变量回归到多元线性回归从
15、双变量回归到多元线性回归 1223344 ( ) iii EYXXX 1223 344iiiii YXXXu i E(Y) 32 回归分析的主要目的回归分析的主要目的 通过样本回归函数(模型)SRF 估计总体回归函数(模型)PRF 最广泛使用的是普通最小二乘法普通最小二乘法 为保证参数估计量具有良好的性质,通常对 模型提出若干基本假设。这些假设与所采用的 估计方法紧密相关。 第二部分:参数估计 估计方法估计方法有多种,如OLS、MLE、GMM等 (ordinary least squares, OLS) 33 第二部分:参数估计 最小二乘原理:最小二乘原理: 即在给定样本观测值之下,选择出即在
16、给定样本观测值之下,选择出 、 能使能使 、 之差的平方和最小。之差的平方和最小。 1 0 i Y i Y 图示法说明 数学推导说明 通过样本回归函数(模型)SRF 估计总体回归函数(模型)PRF 34 图示法图示法 说明:说明: 1 1、PRFPRF无法获知。因此,选择实际值作为衡量标准无法获知。因此,选择实际值作为衡量标准 2 2、残差之和可能正负抵消。因此,选择残差平方和、残差之和可能正负抵消。因此,选择残差平方和 35 01 () iiiii eYYYX 2 2 2 01 ()() iiiii MineY YYX OLSOLS方法的数学推导说明方法的数学推导说明 如何选择参数,以使得残
17、差平方和最小如何选择参数,以使得残差平方和最小 36 方程组(*)称为正规方程组正规方程组(normal equations)。 OLSOLS方法的数学推导说明方法的数学推导说明 37 例2.1 综合应用综合应用 38 例2.1 综合应用综合应用 432.41380.0013 ii YX 根据表根据表2-42-4的计算,得到的计算,得到数学数学S.A.TS.A.T分数回归结果分数回归结果 如下:如下: 其中,其中,X X表示家庭年收入,表示家庭年收入,Y Y表示数学分数,表示数学分数, 表示表示 给定给定X X水平下真实总体均值的估计量。水平下真实总体均值的估计量。Y 该样本回归线如图所示该样
18、本回归线如图所示 通常采用软件实现估计通常采用软件实现估计 可通过计算实现估计可通过计算实现估计 39 40 斜率系数斜率系数0.00130.0013表示在其他条件保持不变的情况 下,家庭年收入每增加1元,数学分数平均提高 0.0013分。 例2.1 综合应用综合应用对数学对数学S.A.TS.A.T分数回归结果的解释分数回归结果的解释 432.41380.0013 ii YX 截距的解释则没什么经济意义,截距的解释则没什么经济意义,因为家庭年收 入为0的数据几乎不会发生。 41 普通最小二乘估计量的一些重要性质 1.用OLS法得出的样本回归线经过样本均值点,即: 2.残差的均值 ( )总为0。
19、 3.对残差与解释变量的积求和,其值为零;即这两个 变量不相关。 这条性质也可用来检查最小二乘法计算结果。 4.对残差与 (估计的 )的积求和,其值为0;即 为0(见习题2.25)。 12i Y b bX e nei/ 0 ii e X i Y i Y iiY e 42 线性回归的基本思想:双变量模型线性回归的基本思想:双变量模型 本节课的小结 回归分析的含义 总体回归函数 样本回归函数 总体回归模型 回归分析的目的 样本回归模型 随机 误差 项的 性质 二、参数估计二、参数估计 一、回归分析概述一、回归分析概述 最小二乘原理 如何进行参数估计 “线性”回归的含义 43 作业 1、对例子2-12-4的自学; 2、在复习中厘清P33的“关键术语和概 念”以及P34中的2.1“解释概念”; 3、对2.22.7进行思考和讨论,会有课堂 提问; 4、在习题本上做2.8、2.9、2.10、2.11。