1、第二章第二章 经典单方程计量经济学模型:一元线性回归模型 线性回归的基本思想:线性回归的基本思想:双变量模型双变量模型线性回归的基本思想双变量模型线性回归的基本思想双变量模型 回归分析概述回归分析概述参数估计参数估计模型检验模型检验模型预测模型预测回归分析构回归分析构成计量经济成计量经济学的方法论学的方法论基础基础线性回归的基本思想双变量模型线性回归的基本思想双变量模型本节课的内容本节课的内容回归分析的含义总体回归函数样本回归函数总体回归模型回归分析的目的样本回归模型随机误差项的性质二、参数估计二、参数估计 一、回归分析概述一、回归分析概述最小二乘原理OLS下如何进行参数估计一、一、回归分析的
2、含义变量间的关系变量间的关系回归分析的含义回归分析的含义回归分析的主要内容回归分析的主要内容线性回归分析的线性回归分析的“特殊特殊”含含义义从双变量到多变量的线性回归从双变量到多变量的线性回归变量间的关系变量间的关系2,f 圆 面 积半 径半 径,f农作物产量 气温 降雨量 阳光 施肥量确定性关系或函数关系统计依赖或相关关系经济变量之间的关系相关分析回归分析回归分析线性关系非线性关系变量间的关系变量间的关系相关分析相关分析(correlation analysis):对称地对待任何(两个)变量,两个变量都被看作是随机的回归分析回归分析(regression analysis):对变量的处理方法
3、存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是回归分析回归分析/相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系但它们并不意味着一定有因果关系被解释变量(因变量)解释变量(自变量)回归分析情况下随机变量非随机变量因果关系的判定或推断必须建立在经实践检验的相关理论基础之上是用于研究一个变量与另一个(些)变量的具体依赖是用于研究一个变量与另一个(些)变量的具体依赖关系的计算方法和理论关系的计算方法和理论。被解释变量(因变量)Y解释变量(自变量)X1、X2、目的:目的:在于通过自变量的已知或设定值,去估计和(或)预测
4、在于通过自变量的已知或设定值,去估计和(或)预测因变量的(总体)均值。因变量的(总体)均值。估计预测农作物的产量,气温 降雨量 阳光 施肥量示例:回归分析回归分析(regression analysis)的含义的含义回归分析的主要目的五、样本回归函数(SRF)问题:能从一次抽样中获得总体的近似的信息吗?Y7|X=5000=420;从双变量回归到多元线性回归根据表2-4的计算,得到数学S.这些假设与所采用的估计方法紧密相关。Y2|X=5000=470;同理:E(Y|X3=25000)=478记样本回归线的函数形式为:7000080000美元称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(de
5、viation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。Y4|X=5000=420;3、Writing写作。4)其它随机因素的影响。同样地,样本回归函数也有如下的随机形式:8000090000美元一个家庭年收入5000美元的学生,其数学分数为460,X=5000,Y1=460;“线性线性”回归的特殊含义回归的特殊含义变量线性变量线性参数线性参数线性应变量的条件均值是应变量的条件均值是自变量的线性函数自变量的线性函数应变量的条件均值是参数应变量的条件均值是参数的线性函数,变量之间并的线性函数,变
6、量之间并不一定是线性的不一定是线性的线性回归是指参数线性的回归线性回归是指参数线性的回归(即参数仅(即参数仅以一次方的形式出现在模型中),而解释以一次方的形式出现在模型中),而解释变量并不一定是线性的。变量并不一定是线性的。从双变量回归到多元线性回归从双变量回归到多元线性回归1223344()iiiEYXXX1223 344iiiiiYXXXu iE(Y)(1)根据自变量的取值,估计应变量的均值。即根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)根据样本外自变量的取值,预测应变量的均值。即利用回归方程进行分析、评价及预测。回归分析的主要
7、内容回归分析的主要内容估计检验预测 例2.1背景介绍 SAT是Scholastic Aptitude Test,是美国高中生的所谓“高考”,在高中的最后两年,大部分美国学生都要参加这一考试,但能否读四年制大学并不取决于一个SAT分数。SAT由美国的College Board举办,在美国领土上每年举办7次,其它地方每年6次。考试用英语。SAT包括三种测试:1、Critical Reading阅读;2、Math数学;3、Writing写作。二、总体回归函数二、总体回归函数例2.1:假定我们感兴趣的是学生的家庭年收入与其数学分数有怎样的关系。家庭年收入X数学分数Y7000080000美元200003
8、0000美元3000040000美元4000050000美元100000美元收入变量X分为10组一个家庭年收入5000美元的学生,其数学分数为460,X=5000,Y1=460;另一家庭年收入为5000美元的学生,其数学分数为470,X=5000,Y1=470。这10个家庭收入为5000美元的学生,其数学平均分数为452。Y1|X=5000=460;Y2|X=5000=470;Y3|X=5000=460;Y4|X=5000=420;Y5|X=5000=440;Y6|X=5000=500;Y7|X=5000=420;Y8|X=5000=410;Y9|X=5000=450;Y10|X=5000=4
9、90E(Y|X1=5000)=452同理:E(Y|X2=15000)=475同理:E(Y|X3=25000)=478同理:E(Y|X4=25000)=478同理:E(Y|X5=35000)=488同理:E(Y|X10=150000)=552(家庭收入(家庭收入、数学分数的条件均值)数学分数的条件均值)(家庭收入,数学分数值)(家庭收入,数学分数值)做散点图做散点图问题:能从一次抽样中获得总体的近似的信息吗?001,表示家庭收入每增加1千美元,预期数学平均分会提高1分。Y8|X=5000=410;通过样本回归函数(模型)SRF用OLS法得出的样本回归线经过样本均值点,即:回归分析的主要目的同理:
10、E(Y|X2=15000)=475(3)根据样本外自变量的取值,预测应变量的均值。表示在给定收入水平X下,该组学生的数学平均分。五、样本回归函数(SRF)回归分析(regression analysis):对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是估计总体回归函数(模型)PRFY9|X=5000=450;估计总体回归函数(模型)PRF5000060000美元即给定X的条件下,Y分布的均值;Y7|X=5000=420;7000080000美元即根据样本观察值对经济计量模型参数进行估计,求得回归方程;这些假设与所采用的估计方法紧密相关。图
11、图21 家庭年收入与数学家庭年收入与数学S.A.T分分数学分数值数学分数的条件均值总体回归线:条件均值的连线由于图2-1的总体回归线近似线性,因此可表达为一线性函数:iiXXYE10)|(其中,0,1是未知参数,称为回归系数回归系数(regression coefficients)。总体回归函数1是斜率,它表示X每变动一个单位,Y(条件)均值的变化率。例:如果1=0.001,表示家庭收入每增加表示家庭收入每增加1 1千美千美元,预期数学平均分会提高元,预期数学平均分会提高1 1分分。确定性非随机总体回归函数iiXXYE10)|(这意味着Y依赖于X,也称为Y对X的回归。即给定X的条件下,Y分布的
12、均值;或者说,总体回归线穿过Y的条件期望值。因此,严格地说,回归分析是条件回归分条件回归分析析,关注的是在给定自变量取值条件下在给定自变量取值条件下应变量的变化。三、总体回归模型三、总体回归模型(总体回归函数的统计或随机设定)总体回归函数的统计或随机设定)如何解释个体学生分数与收入的关系呢?个体数学分数=这一组的平均分+(-)某个值随机误差项总体回归函数的统计或随机设定总体回归模型如何理解该式?是一随机变量,其值无法先验确定,通常用概率分布描述随机变量系统或确定性成分非系统或确定性随机成分系统或确定性成分(452)非系统或随机成分(18)(528)(-28)iiXXYE10)|(表示在给定收入
13、水平X下,该组学生的数学平均分。表示由于误差项的存在,个人数学分数在均值附近是如何变动的。确定或非随机总体回归函数(总体回归函数)随机或统计总体回归函数(总体回归模型)总体回归函数说明在给定的收入水平Xi下,该组的数学平均分。但对该组某一个别的学生,其数学分数可能与该组平均分数有偏差。)|(iiiXYEY 称i为观察值Yi围绕它的期望值E(Y|Xi)的离差离差(deviation),是一个不可观测的随机变量,又称为随机干扰项随机干扰项(stochastic disturbance)或随机误随机误差项差项(stochastic error)。记四、随机误差项四、随机误差项1)在解释变量中被忽略的
14、因素的影响在解释变量中被忽略的因素的影响;如个人健康状况、居住区域、学校开设的数学课程等因素。2)变量观测值的观测误差的影响)变量观测值的观测误差的影响;3)即使模型中包含了所有解释变量,但其内在随机性不可避免,这是做任何努力都无法解释的。因为,人类的行为存在内在随机性人类的行为存在内在随机性;4)其它随机因素的影响)其它随机因素的影响。奥卡姆剃刀原则。即模型是现实的简化,描述应尽可能简单,只要不遗漏重要的信息。随机误差项主要包括下列因素的影响:如何得到总体回归函数中呢?iiXXYE10)|(五、样本回归函数(SRF)如果已知表2-1的全体数据,则很容易得到总体回归线如果仅仅有来自总体的一个样
15、本,则可根据样本信息估计估计总体回归函数五、样本回归函数(SRF)实际中很少能获得整个总体的数据,通常,仅仅有来自总体的某一个样本。问题:问题:能从一次抽样中获得总体的近似的信息吗?五、样本回归函数(SRF)根据表2-2、表2-3的数据做散点图散点图(scatter diagram):样本回归线K个不同的样本可得到K条不同的样本回归线 记样本回归线的函数形式为:iiiXXfY10)(称为样本回归函数样本回归函数(sample regression function,SRF)五、样本回归函数(SRF)SAT是Scholastic Aptitude Test,是美国高中生的所谓“高考”,在高中的最
16、后两年,大部分美国学生都要参加这一考试,但能否读四年制大学并不取决于一个SAT分数。其中,0,1是未知参数,称为回归系数(regression coefficients)。根据表2-4的计算,得到数学S.因此,严格地说,回归分析是条件回归分析,关注的是在给定自变量取值条件下应变量的变化。称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。是一随机变量,其值无法先验确定,通常用概率分布描述随机变量如果已知表2-1的全体数据,则很容易得到
17、总体回归线为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。7000080000美元确定性非随机总体回归函数表示在给定收入水平X下,该组学生的数学平均分。0013表示在其他条件保持不变的情况下,家庭年收入每增加1元,数学分数平均提高0.用OLS法得出的样本回归线经过样本均值点,即:8000090000美元1 综合应用对数学S.从双变量到多变量的线性回归3000040000美元因此,选择实际值作为衡量标准根据表2-4的计算,得到数学S.问题:能从一次抽样中获得总体的近似的信息吗?同样地,样本回归函数也有如下的随机形式:这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意
18、:注意:五、样本回归函数(SRF)同样地,样本回归函数也有如下的随机形式:iiiiieXYY10式中,ie称为(样样本本)残残差差(或剩剩余余)项项(residual),代表了其他影响iY的随机因素的集合,可看成是i的估计量i。由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型样本回归模型(sample regression model)。六、样本回归函数的随机形式/样本回归模型 根据样本回归函数SRF即,根据 iiiiieXeYY10估计iiiiiXXYEY10)|(七、回归分析的目的PRFPRFSRFSRF估计总体回归函数PRF注意:注意:这里PRF可能永远无法知道。七、回归
19、分析的目的PRFPRFSRFSRF 回归分析的主要目的回归分析的主要目的通过样本回归函数(模型)SRF估计总体回归函数(模型)PRF最广泛使用的是普通最小二乘法普通最小二乘法 为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。这些假设与所采用的估计方法紧密相关。第二部分:参数估计估计方法估计方法有多种,如OLS、MLE、GMM等(ordinary least squares,OLS)第二部分:参数估计最小二乘原理:最小二乘原理:即在给定样本观测值之下,选择出即在给定样本观测值之下,选择出 、能使能使 、之差的平方和最小。之差的平方和最小。10iYiY图示法说明数学推导说明 回归分析的
20、主要目的回归分析的主要目的通过样本回归函数(模型)SRF估计总体回归函数(模型)PRF图示法图示法说明:说明:1 1、PRFPRF无法获知。因此,选择实际值作为衡量标准无法获知。因此,选择实际值作为衡量标准2 2、残差之和可能正负抵消。因此,选择残差平方和、残差之和可能正负抵消。因此,选择残差平方和01()iiiiieYYYX22201()()iiiiiMineYYYXOLSOLS方法的数学推导说明方法的数学推导说明如何选择参数,以使得残差平方和最小如何选择参数,以使得残差平方和最小方程组(*)称为正规方程组正规方程组(normal equations)。OLSOLS方法的数学推导说明方法的数
21、学推导说明例2.1 综合应用综合应用例2.1 综合应用综合应用432.41380.0013iiYX根据表根据表2-42-4的计算,得到的计算,得到数学数学S.A.TS.A.T分数回归结果分数回归结果如下:如下:其中,其中,X X表示家庭年收入,表示家庭年收入,Y Y表示数学分数,表示数学分数,表示表示给定给定X X水平下真实总体均值的估计量。水平下真实总体均值的估计量。Y该样本回归线如图所示该样本回归线如图所示通常采用软件实现估计通常采用软件实现估计可通过计算实现估计可通过计算实现估计表示由于误差项的存在,个人数学分数在均值附近是如何变动的。回归分析构成计量经济学的方法论基础估计方法有多种,如
22、OLS、MLE、GMM等即给定X的条件下,Y分布的均值;Y5|X=5000=440;8000090000美元表示在给定收入水平X下,该组学生的数学平均分。表示在给定收入水平X下,该组学生的数学平均分。这意味着Y依赖于X,也称为Y对X的回归。或者说,总体回归线穿过Y的条件期望值。3000040000美元001,表示家庭收入每增加1千美元,预期数学平均分会提高1分。回归分析的主要目的表示由于误差项的存在,个人数学分数在均值附近是如何变动的。五、样本回归函数(SRF)双变量模型用OLS法得出的样本回归线经过样本均值点,即:表示在给定收入水平X下,该组学生的数学平均分。斜率系数斜率系数0.00130.
23、0013表示在其他条件保持不变的情况下,家庭年收入每增加1元,数学分数平均提高0.0013分。例2.1 综合应用综合应用对数学对数学S.A.TS.A.T分数回归结果的解释分数回归结果的解释432.41380.0013iiYX截距的解释则没什么经济意义,截距的解释则没什么经济意义,因为家庭年收入为0的数据几乎不会发生。普通最小二乘估计量的一些重要性质1.用OLS法得出的样本回归线经过样本均值点,即:2.残差的均值 ()总为0。3.对残差与解释变量的积求和,其值为零;即这两个变量不相关。这条性质也可用来检查最小二乘法计算结果。4.对残差与(估计的 )的积求和,其值为0;即 为0(见习题2.25)。12iY b bX enei/0iie X iYiYiiYe线性回归的基本思想双变量模型线性回归的基本思想双变量模型本节课的小结本节课的小结回归分析的含义总体回归函数样本回归函数总体回归模型回归分析的目的样本回归模型随机误差项的性质二、参数估计二、参数估计 一、回归分析概述一、回归分析概述最小二乘原理如何进行参数估计“线性”回归的含义