1、2.1 2.1 回归分析概述回归分析概述一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念 二、一元总体回归函数二、一元总体回归函数三、随机扰动项三、随机扰动项四、四、一元一元样本回归函数(样本回归函数(SRFSRF)2.1 2.1 回归分析概述回归分析概述 (1)确定性关系确定性关系或函数关系函数关系:研究的是确定现象非随机变量间的关系。 (2)统计依赖)统计依赖或相关关系:相关关系:研究的是非确定现象随机变量间的关系。一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念 1 1、变量间的关系、变量间的关系 经济变量之间的关系,大体可分为两类:对变量
2、间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关分析相关分析(correlation analysis)或或回归分析回归分析(regression analysis)来完成的:来完成的:2,半径半径圆面积f施肥量阳光降雨量气温农作物产量,f 正相关 线性相关 不相关 相关系数:统计依赖关系 负相关 11XY 有因果关系 回回归归分分析析 正相关 无因果关系 相相关关分分析析 非线性相关 不相关 负相关例如例如: 函数关系:函数关系:统计依赖关系统计依赖关系/统计相关关系:统计相关关系: 不线性相关并不意味着不相关; 有相关关系并不意味着一定有因果关系; 回归分析回归分析/
3、相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。 相关分析相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。注意:注意: 回归分析回归分析(regression analysis)是研究一个变量关于另一个是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论(些)变量的具体依赖关系的计算方法和理论。 其用意其用意:在于通过后者的已知或设定值,去估计和(或)预在于通过后者的已知或设定值,去估计和(或)预测前者的
4、(总体)均值测前者的(总体)均值。 这里:前一个变量被称为被解释变量被解释变量(Explained Variable)或应变量应变量(Dependent Variable),),后一个(些)变量被称为解解释变量释变量(Explanatory Variable)或自变量自变量(Independent Variable)。2 2、回归分析的基本概念、回归分析的基本概念 回归分析构成计量经济学的方法论基础,其主要内容包括:回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对经济计量模型参数进行估计,求得回回归方程;归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用
5、回归方程进行分析、评价及预测。 回归分析回归分析关心的是根据解释变量的已知或关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。 二、一元总体回归函数二、一元总体回归函数 概念:概念: 在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为一元总体回归线一元总体回归线(population regression line),或更一般地称为一元一元总体回归曲线总体回归曲线(population regression curve)。)()|(iiXfXYE称为(双变量)一元一元
6、总体回归函数总体回归函数(population regression function, PRF)。 相应的函数: 回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 含义:含义: 函数形式:函数形式: 可以是线性或非线性的。iiXXYE10)|(为一线性函数。线性函数。其中,0,1是未知参数,称为回归系数回归系数(regression coefficients)。 。 三、随机扰动项三、随机扰动项)|(iiiXYEY 称i为观察值Yi围绕它的期望值E(Y|Xi)的离差离差(deviation),是一个不可观测的随机变量,又称为随机干扰项随机干扰项(stoch
7、astic disturbance)或随机误随机误差项差项(stochastic error)。 记 (*)式称为一元一元总体回归函数总体回归函数(方程)(方程)PRFPRF的随的随机设定形式。表明被解释变量除了受解释变量的系统机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响性影响外,还受其他因素的随机性影响。(*) 由于方程中引入了随机项,成为计量经济学模型,因此也称为一元总体回归模型一元总体回归模型。随机误差项主要包括下列因素的影响:随机误差项主要包括下列因素的影响:1)在解释变量中被忽略的因素的影响;2)变量观测值的观测误差的影响;3)模型关系的设定误差的
8、影响;4)其它随机因素的影响。产生并设计随机误差项的主要原因:产生并设计随机误差项的主要原因:1)理论的含糊性;2)数据的欠缺;3)节省原则。 四、四、一元样本一元样本回归函数(回归函数(SRF) 问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。该样本的散点图散点图(scatter diagram): 样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为一元样本回归线一元样本回归线(sample regression
9、 lines)。)。 记样本回归线的函数形式为:iiiXXfY10)(称为一元样本回归函数一元样本回归函数(sample regression function,SRF)。 这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意:注意: 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型:同样地,样本回归函数也有如下的随机形式: iiiiieXYY10式中,ie称为(样样本本)残残差差(或剩剩余余)项项(residual) ,代表了其他影响iY的随机因素的集合,可看成是i的估计量i。 由于方程中引入了随机项,成为计量经济模型,因此也称为一元样本回归模型一元样本
10、回归模型(sample regression model)。 回归分析的主要目的回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。注意:注意:这里PRF可能永远无法知道。即,根据 iiiiieXeYY10估计iiiiiXXYEY10)|(2.2 2.2 线性回归模型线性回归模型 一、多元线性回归模型一、多元线性回归模型 二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 一、多元线性回归模型一、多元线性回归模型 多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。 一般表现形式一般表现形式:ikikiiiXXXY 22110i=1,2,n其中:k
11、为解释变量的数目,j称为回归参数回归参数(regression coefficient)。 习惯上习惯上:把常数项常数项看成为一虚变量虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(模型中解释变量的数目为(k+1+1) ikikiiiXXXY 22110也被称为也被称为总体回归函数总体回归函数的的随机表达形式随机表达形式。它。它 的的非随机表达式非随机表达式为为:kikiikiiiiXXXXXXYE 2211021),|( 方程表示:方程表示:各变量各变量X X值固定时值固定时Y Y的平均响应的平均响应。 j也被称为也被称为偏回归系数偏回归系数,表示在其他解释变,表
12、示在其他解释变量保持不变的情况下,量保持不变的情况下,Xj每变化每变化1个单位时,个单位时,Y的均值的均值E(Y)的变化的变化; 或者说或者说j给出了给出了Xj的单位变化对的单位变化对Y均值的均值的“直直接接”或或“净净”(不含其他变量)影响。(不含其他变量)影响。总体回归模型总体回归模型n个随机方程的个随机方程的矩阵表达式矩阵表达式为为 XY其中其中)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kk121nn样本回归函数样本回归函数:用来估计总体回归函数:用来估计总体回归函数kikiiiiXXXY22110其其随机表示式随机表示式: : ikikiii
13、ieXXXY22110 ei称为称为残差残差或或剩余项剩余项(residuals),可看成是总,可看成是总体回归函数中随机扰动项体回归函数中随机扰动项 i的近似替代。的近似替代。 样本回归函数样本回归函数的的矩阵表达矩阵表达: : XY或或eXY其中:其中:k10neee21e二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。 假设2,随机误差项具有零均值、同方差及不序列相关性0)(iE22)()(iiEVar0)(),(jijiECovnjiji, 2 , 1, 假设3,解释变量与随机项不相关 0),(iji
14、XCov假设4,随机项满足正态分布 ), 0(2Nikj,2 , 1 上述假设的上述假设的矩阵符号表示矩阵符号表示 式:式: 假设1,n(k+1)矩阵X是非随机的,且X的秩=k+1,即X满秩。 假设2, 0)()()(11nnEEEEnnEE11)( 21121nnnEI22211100)var(),cov(),cov()var(nnn假设3,E(X )=0,即 0)()()(11iKiiiiiKiiiiEXEXEXXE假设4,向量 服从多维正态分布,即 ),(2I0N 同一元回归一样,多元回归还具有如下两个重要假设:同一元回归一样,多元回归还具有如下两个重要假设: 假设5,样本容量趋于无穷时
15、,各解释变量的方差趋于有界常数,即n时, jjjijiQXXnxn22)(11或Qxxn1 其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为元素组成的nk阶矩阵 knnkxxxx1111x假设6,回归模型的设定是正确的。 2.3 线性回归模型的参数估计线性回归模型的参数估计 估计方法:OLS、ML 一、普通最小二乘估计一、普通最小二乘估计 二、最大似然估计二、最大似然估计 三、参数估计量的性质三、参数估计量的性质 四、样本容量问题四、样本容量问题 五、估计实例五、估计实例 一、普通最小二乘估计一、普通最小二乘估计对于随机抽取的n组观测值kjniXYjii, 2 , 1 , 0, 2 ,
16、 1),(如果样本函数样本函数的参数估计值已经得到,则有: KikiiiiXXXY22110i=1,2n根据最小二乘原理最小二乘原理,参数估计值应该是下列方程组的解 0000210QQQQk其中2112)(niiiniiYYeQ2122110)(nikikiiiXXXY于是得到关于待估参数估计值的正规方程组正规方程组: kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110 解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值, , ,jjk 012
17、 。正规方程组正规方程组的矩阵形式矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111即YXX)X(由于XX满秩,故有 YXXX1)(将上述过程用矩阵表示矩阵表示如下: 即求解方程组:0)()(XYXY0)(XXXYYXYY0)2(XXXYYY0XXYX得到: YXXX1)(XXYX于是:正规方程组正规方程组 的另一种写法对于正规方程组正规方程组 XXYXXXeXXX于是 0eX或 0ie0iijieX(*)或(*)是多元线性回归模型正规方程组正规方程组的另一种写法 (*)(*)样本回归函数的离差形式样本回归函数
18、的离差形式ikikiiiexxxy2211i=1,2n其矩阵形式矩阵形式为 exy其中 :nyyy21yknnnkkxxxxxxxxx212221212111xk21在离差形式下,参数的最小二乘估计结果为 Yxxx1)(kkXXY110随机误差项随机误差项 的方差的方差 的无偏估计的无偏估计 可以证明,随机误差项的方差的无偏估计量为 1122knkneiee二、最大似然估计二、最大似然估计 对于多元线性回归模型ikikiiiXXXY 22110易知),(2XiNYi Y的随机抽取的n组样本观测值的联合概率)()(21)(212122222211022)2(1)2(1),(),(XYXYeeYY
19、YPLnXXXYnnnkikiiin即为变量Y的似然函数似然函数 对数似然函数为)()(21)2()( 2*XYXYnLnLLnL对对数似然函数求极大值,也就是对 )()(XYXY求极小值。 因此,参数的最大似然估计最大似然估计为为YXXX1)(结果与参数的普通最小二乘估计相同结果与参数的普通最小二乘估计相同 三、参数估计量的性质三、参数估计量的性质 在满足基本假设的情况下,其结构参数 的普通最小二乘估计、最大似然估计最大似然估计及矩估计矩估计仍具有: 线性性线性性、无偏性无偏性、有效性有效性。 同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性渐近无偏性、渐近有效性、一
20、致性。 1、线性性、线性性 CYYXXX1)(其中,C=(XX)-1 X 为一仅与固定的X有关的行向量 2、无偏性、无偏性 XXXXXXXYXXX11)()()()()()(1EEEE这里利用了假设: E(X )=0 3、有效性(最小方差性)、有效性(最小方差性) 其中利用了 YXXX1)(XXXXXXX11)()()(和I2)(E 四、样本容量问题四、样本容量问题 所谓“最小样本容量最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。 最小样本容量最小样本容量 样本最小容量必须不少于模型中解释变量样本最小容量必须不少于模型中解释变量的
21、数目(包括常数项)的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1 2 2、满足基本要求的样本容量、满足基本要求的样本容量 从统计检验的角度从统计检验的角度: n30 时,Z检验才能应用; n-k8时, t分布较为稳定 一般经验认为一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。 模型的良好性质只有在大样本下才能模型的良好性质只有在大样本下才能得到理论上的证明得到理论上的证明五、线性回归模型的参数估计实例五、线性回归模型的参数估计实例 1、中国居民人均消费模型、中国居民人均消费模型 例例2.3.2 考察中国居民收入与消费支出的关系。G
22、DPP: 人均国内生产总值人均国内生产总值(1990年不变价)CONSP:人均居民消费人均居民消费(以居民消费价格指数(1990=100)缩减)。 表表 2.3.1 中国居民人均消费支出与人均中国居民人均消费支出与人均 GDP(元(元/人)人) 年份 人均居民消费 CONSP 人均GDP GDPP 年份 人均居民消费 CONSP 人均GDP GDPP 1978 395.8 675.1 1990 797.1 1602.3 1979 437.0 716.9 1991 861.4 1727.2 1980 464.1 763.7 1992 966.6 1949.8 1981 501.9 792.4 1
23、993 1048.6 2187.9 1982 533.5 851.1 1994 1108.7 2436.1 1983 572.8 931.4 1995 1213.1 2663.7 1984 635.6 1059.2 1996 1322.8 2889.1 1985 716.0 1185.2 1997 1380.9 3111.9 1986 746.5 1269.6 1998 1460.6 3323.1 1987 788.3 1393.6 1999 1564.4 3529.3 1988 836.4 1527.0 2000 1690.8 3789.7 1989 779.7 1565.9 该两组数据是1
24、9782000年的时间序列数据时间序列数据(time series data); 建立模型建立模型 拟建立如下一元回归模型 GDPPCCONSP采用Eviews软件软件进行回归分析的结果见下表 一般可写出如下回归分析结果: (13.51) (53.47) R2=0.9927 F=2859.23 DW=0.5503 表表 2.3.2 中国居民人均消费支出对人均中国居民人均消费支出对人均GDP的回归(的回归(19782000) LS / Dependent Variable is CONSP Sample: 1978 2000 Included observations: 23 Variable
25、Coefficient Std. Error t-Statistic Prob. C 201.1071 14.88514 13.51060 0.0000 GDPP 0.386187 0.007222 53.47182 0.0000 R-squared 0.992709 Mean dependent var 905.3331 Adjusted R-squared 0.992362 S.D. dependent var 380.6428 S.E. of regression 33.26711 Akaike info criterion 7.092079 Sum squared resid 2324
26、0.71 Schwarz criterion 7.190818 Log likelihood -112.1945 F-statistic 2859.235 Durbin-Watson stat 0.550288 Prob(F-statistic) 0.000000 2 2、时间序列问题、时间序列问题 上述实例表明,时间序列完全可以进行类似于截面数据的回归分析。 然而,在时间序列回归分析中,有两个需注意的问题: 第一,关于抽样分布的理解问题。第一,关于抽样分布的理解问题。 能把表2.3.1中的数据理解为是从某个总体中抽出的一个样本吗? 可决系数R2,考察被解释变量Y的变化中可由解释变量X的变化“
27、解释解释”的部分。 这里“解释解释”能否换为“引起引起”? 第二,关于第二,关于“伪回归问题伪回归问题”(spurious spurious regression problemregression problem)。)。 在现实经济问题中,对时间序列数据作回归,即使两个变量间没有任何的实际联系,也往往会得到较高的可决系数,尤其对于具有相同变化趋具有相同变化趋势(同时上升或下降)的变量势(同时上升或下降)的变量,更是如此。 这种现象被称为“伪回归伪回归”或“虚假回归虚假回归”。 3 3、多元线性回归模型的参数估计实例、多元线性回归模型的参数估计实例 例例2.3.3 在例2.3.2中,已建立了中
28、国居民中国居民人均消费人均消费一元线性模型。这里我们再考虑建立多元线性模型。解释变量:解释变量:人均GDP:GDPP 前期消费:CONSP(-1)估计区间估计区间:19792000年精品课件精品课件!精品课件精品课件!Eviews软件估计结果 LS / Dependent Variable is CONS Sample(adjusted): 1979 2000 Included observations: 22 after adjusting endpoints Variable Coefficient Std. Error t-Statistic Prob. C 120.7000 36.51
29、036 3.305912 0.0037 GDPP 0.221327 0.060969 3.630145 0.0018 CONSP(-1) 0.451507 0.170308 2.651125 0.0158 R-squared 0.995403 Mean dependent var 928.4946 Adjusted R-squared 0.994920 S.D. dependent var 372.6424 S.E. of regression 26.56078 Akaike info criterion 6.684995 Sum squared resid 13404.02 Schwarz criterion 6.833774 Log likelihood -101.7516 F-statistic 2057.271 Durbin-Watson stat 1.278500 Prob(F-statistic) 0.000000