1、3.1 多元线性回归模型多元线性回归模型 一、多元线性回归模型一、多元线性回归模型 二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 一、多元线性回归模型一、多元线性回归模型一般表现形式一般表现形式( (总体回归模型)总体回归模型):ikikiiiXXXY 22110i=1,2,n其中其中:k为解释变量的数目,参数个数为为解释变量的数目,参数个数为k+1k+1, ,n n为观为观察次数。察次数。 j j(j=1,2,k)(j=1,2,k)称为称为回归系数回归系数 ( (regression efficient)。)。 j也被称为也被称为偏回归系数偏回归系数,表示在其他解释变量保,表
2、示在其他解释变量保持不变的情况下,持不变的情况下,Xj每变化每变化1个单位时,个单位时,Y的均值的均值E(Y)的变化的变化; 或者说或者说j给出了给出了Xj的单位变化对的单位变化对Y均值的均值的“直直接接”或或“净净”(不含其他变量)影响。(不含其他变量)影响。总体回归模型总体回归模型n个随机方程的个随机方程的矩阵表达式矩阵表达式为为: : XY2222212102.kkXXXY1121211101.kkXXXYnknknnnXXXY.22110.)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kk121nn其中其中:样本回归函数样本回归函数:用来估计总体
3、回归模型:用来估计总体回归模型kikiiiiXXXY22110其其随机表示式随机表示式: : ikikiiiieXXXY22110 ei称为称为残差残差或或剩余项剩余项(residuals),可看成是总,可看成是总体回归函数中随机扰动项体回归函数中随机扰动项 i的估计值。的估计值。 样本回归函数样本回归函数的的矩阵表达矩阵表达: : XY或或eXYk10neee21e其中:其中:二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 假设假设1,解释变量是非随机的或固定的,且解释变量是非随机的或固定的,且各各X之间互不相关(无多重共线性)。之间互不相关(无多重共线性)。假设假设2,随机误
4、差项具有零均值、同方差及随机误差项具有零均值、同方差及不序列相关性不序列相关性0)(iE22)()(iiEVar0)(),(jijiECovnjiji, 2 , 1, 假设假设3,解释变量与随机项不相关,解释变量与随机项不相关 0),(ijiXCov假设假设4,随机项满足正态分布,随机项满足正态分布 ), 0(2Nikj,2 , 1 上述假设为多元线性回归模型的经典假设上述假设为多元线性回归模型的经典假设3.2 多元线性回归模型的估计多元线性回归模型的估计 一、普通最小二乘估计一、普通最小二乘估计 二、参数估计量的性质二、参数估计量的性质 三、样本容量问题三、样本容量问题一、普通最小二乘估计一
5、、普通最小二乘估计根据根据最小二乘原理最小二乘原理,参数估计值应该是下列方程,参数估计值应该是下列方程组的解组的解 :0000210QQQQk其中2112)(niiiniiYYeQ2122110)(nikikiiiXXXYikikiiiXXXY 22110i=1,2,nkikiiiiXXXY22110于是得到关于待估参数估计值的于是得到关于待估参数估计值的正规方程组正规方程组: kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110 解该(k+1)个方程组成的线性代数方程组,
6、即可得到(k+1)个待估参数的估计值, , ,jjk 012 。正规方程组正规方程组的矩阵形式矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111即即YXX)X(由于由于XX满秩,故有满秩,故有 YXXX1)(将上述过程用矩阵表示如下:将上述过程用矩阵表示如下: 即求解即求解方程组:方程组:0)()(XYXYYXXX1)(于是:于是:XYXYeXY例例3.1 求下列模型的参数估计量,求下列模型的参数估计量, 22110XXY观察值:观察值:21XXY 2 1 1 1 1 2 3 2 1 2 2 222112121
7、1111X212122111111X10969106664XX406046661941)(1XX112)(1210YXXX212XXY随机误差项随机误差项 的方差的无偏估计量为的方差的无偏估计量为 1122knkneiee 二、参数估计量的性质二、参数估计量的性质 在满足基本假设的情况下,其结构参数在满足基本假设的情况下,其结构参数 的的普通普通最小二乘估计最小二乘估计仍具有:仍具有: 线性性、无偏性、有效性线性性、无偏性、有效性12)()cov(XX三、样本容量问题三、样本容量问题 所谓所谓“最小样本容量最小样本容量”,即从最小二乘原理出发,即从最小二乘原理出发,欲得到参数估计量,不管其质量
8、如何,所要求的样本欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。容量的下限。 最小样本容量最小样本容量 样本最小容量必须不少于模型中解释变量样本最小容量必须不少于模型中解释变量的数目(包括常数项)的数目(包括常数项), ,即即 n k+1+1因为,因为,无多重共线性要求:秩无多重共线性要求:秩( (X)=)=k+1+1 2 2、满足基本要求的样本容量、满足基本要求的样本容量 从统计检验的角度:从统计检验的角度: n 30 时,时,Z检验才能应用;检验才能应用; n-k 8 8时时, , t分布较为稳定分布较为稳定 一般经验认为一般经验认为: 当当n 30或者至少或者至少n 3(k+
9、1)时,才能说满足时,才能说满足模型估计的基本要求。模型估计的基本要求。 模型的良好性质只有在大样本下才能模型的良好性质只有在大样本下才能得到理论上的证明得到理论上的证明3.3 多元线性回归模型的统计检验多元线性回归模型的统计检验 一、拟合优度检验一、拟合优度检验 二、方程的显著性检验二、方程的显著性检验(F(F检验检验) ) 三、变量的显著性检验(三、变量的显著性检验(t t检验)检验) 一、拟合优度检验一、拟合优度检验 1、可决系数与调整的可决系数、可决系数与调整的可决系数222)()()(iiiiYYYYYYTSS=ESS+RSS 可决系数可决系数:TSSRSSTSSESSR12该统计量
10、越接近于该统计量越接近于1,模型的拟合优度越高。,模型的拟合优度越高。 问题:问题: 在应用过程中发现,如果在模型中增加一个解在应用过程中发现,如果在模型中增加一个解释变量,释变量, R2往往增大。往往增大。 这就给人一个错觉:要使得模型拟合得好,只这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。要增加解释变量即可。 但是,但是,在样本容量一定的情况下,增加解释变在样本容量一定的情况下,增加解释变量必定使得自由度减少。而且若滥用解释变量还量必定使得自由度减少。而且若滥用解释变量还会引起其它严重的问题,会引起其它严重的问题,影响模型质量影响模型质量。调整的可决系数调整的可决系数调整的
11、思路是:将残差平方和与总离差平方和分将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优别除以各自的自由度,以剔除变量个数对拟合优度的影响度的影响:) 1/() 1/(12nTSSknRSSR11)1 (122knnRR22RR 当当K=0K=0, 当当K0K0,22RR 22RR 可能是负值,作零处理2R 二、方程的显著性检验二、方程的显著性检验(F检验检验) 方程的显著性检验,旨在对模型中被解释变方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系量与解释变量之间的线性关系在总体上在总体上是否显著是否显著成立作出推断。成立作出推断。 1、方程显著性的、方程显著
12、性的F检验检验 F检验是对全部自变量进行总的检验,检验这检验是对全部自变量进行总的检验,检验这些自变量是否对因变量确有影响。些自变量是否对因变量确有影响。 即:检验真实参数是否在一定置信水平下全即:检验真实参数是否在一定置信水平下全部为零。部为零。ikikiiiXXXY 22110 H0: 1= 2= = k=0 H1: j不全为不全为0 j=1,2,k) 1/(/knRSSkESSF服从自由度为服从自由度为( (k , n-k-1)1)的的F分布分布 给定显著性水平给定显著性水平 ,可得到临界值,可得到临界值F ( (k,n-k-1) ),由样本求出统计量由样本求出统计量F的数值,通过的数值
13、,通过 F F F ( (k,n-k-1) ) 或或 F F F ( (k,n-k-1) )来来拒绝或接受原假设拒绝或接受原假设H0,以判定原方程总体上的线,以判定原方程总体上的线性关系是否显著成立。性关系是否显著成立。 ) 1/()(/)(22knYYkYYiii 2、关于拟合优度检验与方程显著性检验关于拟合优度检验与方程显著性检验关系的讨论关系的讨论 KKnRR1122FRFRRF,同向变化,与100222) 1/(/knRSSkESSF 三、变量的显著性检验(三、变量的显著性检验(t检验)检验) 方程的总体线性关系显著方程的总体线性关系显著 每个解释变量对被每个解释变量对被解释变量的影响
14、都是显著的解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验,因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的这一检验是由对变量的 t t 检验检验完成的。完成的。 1、t统计量统计量 12)()(XXCov 以以cii表示矩阵表示矩阵(XX)-1 主对角线上的第主对角线上的第i个元素,个元素,于是参数估计量的方差为:于是参数估计量的方差为: iiicVar2)( 其中其中 2为随机误差项的方差,在实际计算为随机误差项的方差,在实际计算时,用它的估计量代替时,用它的估计量代替: : 1122
15、knkneiee因此,可构造如下因此,可构造如下t统计量统计量 :) 1(1kntkncStiiiiiiiee 2、t检验检验H1: i 0 0 给定显著性水平给定显著性水平 ,可得到临界值,可得到临界值t /2( (n-k-1) ), |t|t| t /2( (n-k-1) ) 拒绝原假设拒绝原假设H0 |t| |t| t /2( (n-k-1) ) 接受原假设接受原假设H0H0: i=0=0 (i=1,2k) 当当H0成立,成立,iisstiii t(n-k-1)例例3.2 设某商品需求函数的估计结果为(设某商品需求函数的估计结果为(n=18):):Pxy58. 282. 125.2696
16、. 02R ( 0.35 ) (0.50)要求:要求:(1)计算)计算F统计量和统计量和调整的可决系数调整的可决系数;(2)对参数进行)对参数进行显著性检验;显著性检验;(3)解释回归系数的经济含义。)解释回归系数的经济含义。括号中的数字为对应参数的标准差。括号中的数字为对应参数的标准差。解:解:(1)KKNRRF11221802121896. 0196. 011)1 (122knnRR95. 01218118)96. 01 (1(2)2 . 535. 082. 1111st16. 55 . 058. 2222st131. 2)15(025. 0t131. 2131. 221tt给定给定=0.
17、05, 参数显著不为零参数显著不为零注意:注意: 一元线性回归中,一元线性回归中,t t检验与检验与F F检验一致检验一致 多元线性回归中,两者是不同的多元线性回归中,两者是不同的 * * 检验对象不同检验对象不同 * * 当对参数当对参数1 1,2 2,k k检验均显检验均显 著时,著时,F F检验一定是显著的检验一定是显著的 * * 但当但当F F检验显著时,并不意味着对每一检验显著时,并不意味着对每一 个回归系数的个回归系数的t t检验一定都是显著的检验一定都是显著的 3.4 非线性非线性回归模型回归模型 一、模型的类型一、模型的类型 二、几种常见的非线性回归模型二、几种常见的非线性回归
18、模型一、非线性回归模型的两种基本类型一、非线性回归模型的两种基本类型1 1、Y Yi i与与1 1是线性关系,与是线性关系,与X Xi i为非线性关系为非线性关系 iiiiiiXYXY102102 2、Y Yi i与与1 1是非线性关系是非线性关系iiiiiiiiiXYXYXY210102101第一类经适当变换可转化为线性模型,第二类第一类经适当变换可转化为线性模型,第二类需用非线性最小二乘法需用非线性最小二乘法二、几种常见的非线性回归模型二、几种常见的非线性回归模型1、多项式模型、多项式模型设设X1 = X,X2 = X2, 则二次曲线变换为则二次曲线变换为 Y = 0 0+ 1 1 X1
19、+ 2 2X2 +二次曲线)(.22102210XXYXXXYmm2、倒数模型、倒数模型 双曲线双曲线XY111011011111XYXXYY则原模型为:,令:00100010XY110个单位将平均变动,每变动100/%1:/11YXxdxdy01003、对数模型、对数模型 半对数半对数( (增长模型增长模型) ) Y=0 0+ +1 1lnX+lnX+ ( (对数线性模型对数线性模型) )01010 lnY=0 0+ +1 1X+X+ %1001/11将平均变动个单位,每变动YXdxydy若若X为年份为年份,则则1 1为年均增长速度。为年均增长速度。 双对数模型双对数模型 lnY=0 0+
20、+1 1lnX+lnX+ 的弹性关于,XYxdxydy/1 4、幂函数模型、幂函数模型 Y= aXbe例:例:Cobb-Dauglas生产函数生产函数 Q = AK L eQ:产出量,:产出量,K:投入的资本;:投入的资本;L:投入的劳动:投入的劳动 方程两边取对数,即为双对数模型:方程两边取对数,即为双对数模型: ln Q = ln A + ln K + ln L+5、指数函数模型、指数函数模型 xbaeYb0b0b0作业:作业:表中所列数据是关于某种商品的市场供给表中所列数据是关于某种商品的市场供给量量Y和价格水平和价格水平X的观察值:的观察值: 用用OLSOLS法拟合回归直线;法拟合回归
21、直线; 计算拟合优度计算拟合优度R R2 2; 确定确定1 1是否与零有区别。是否与零有区别。分析题分析题: 现有某地近期现有某地近期10个年份的某种商品销售量个年份的某种商品销售量Y、居、居民可支配收入民可支配收入X1、该种商品的价格指数、该种商品的价格指数X2、社会、社会拥有量拥有量X3和其它商品价格指数和其它商品价格指数X4 的资料。根据这的资料。根据这些资料估计得出了两个样本回归模型为:些资料估计得出了两个样本回归模型为: 模型模型1:997. 0319. 0188. 0104. 076.1224)12. 0(2)07. 0(1)01. 0()52. 6(RXXXY998. 034. 0015. 0199. 0097. 053.1324)15. 0(3)05. 0(2)09. 0(1)03. 0()5 . 7(RXXXXY模型模型2: 模型式下括号中的数字为相应回归系数估计模型式下括号中的数字为相应回归系数估计量的标准误。又由量的标准误。又由t分布表和分布表和F分布表得知:分布表得知:t0.025(5)=2.57, t0.025(6)=2.45;F0.05(3,6)=4.76,F0.05(4,5)=5.19, 试根据上述资料,对所给出的两个模型进行试根据上述资料,对所给出的两个模型进行检验,并选择出一个合适的模型。检验,并选择出一个合适的模型。