1、第四章 多元回归:估计与假设检验 多元线性回归模型 多元线性回归模型的参数估计 多元线性回归模型的假设检验 多元线性回归模型的预测 对模型设定的讨论(增减解释变量) 1 4.1 多元线性回归模型 一、多元线性回归模型 二、多元线性回归模型的基本假定 2 一、多元线性回归模型-一般表现形式一般表现形式 多元多元线性回归模型线性回归模型: :线性回归模型中的解释变量有多个。 ikikiii XXXY 22110 i=1,2,n 习惯上:把常数项看成为一虚变量的系数,该虚变量的 样本观测值始终取1。 j也被称为偏回归系数偏回归系数,表示在其他解释变量保持不变 的情况下,Xj每变化1个单位时,Y的均值
2、E(Y)的变化; 3 ikikiii XXXY 22110 kikiikiiii XXXXXXYE 2211021 ),|( 总体回归模型(总体回归函数的随机表达形式) 总体回归函数(非随机表达式) 一、多元线性回归模型-一般表现形式一般表现形式 样本回归模型(样本回归函数的随机表达形式) ikikiiii eXXXY 22110 样本回归函数(非随机表达式) kikiiii XXXY 22110 4 XY )1( 21 22212 12111 1 1 1 kn knnn k k XXX XXX XXX X 1)1( 2 1 0 k k 1 2 1 n n 一、多元线性回归模型-矩阵表达式矩阵
3、表达式 5 样本回归模型(函数)的矩阵表达: XY eXY k 1 0 n e e e 2 1 e ikikiiii eXXXY 22110 kikiiii XXXY 22110 6 二、多元线性回归模型的基本假定 假设1:回归模型是参数线性的,并且正确设定。 0)( i E 22 )()( ii EVar 0)(),( jiji ECov njiji, 2 , 1, 假设2:解释变量与随机项不相关。 0),( iji XCov 假设7:随机项满足正态分布。 ), 0( 2 N i kj,2 , 1 假设3、4、5:随机误差项具有零均值、同方差及不序列 相关性。 假设6:解释变量之间不存在完全
4、共线性。即解释变量之 间没有严格的线性关系。 7 假设6:解释变量之间不存在完全共线性。即解释变量之 间没有严格的线性关系。 二、多元线性回归模型的基本假定 01232233 0122133 iiiiii iii YXXXX XX 例: 收入 储蓄消费 123 XXX 0112233iiiii YXXX 8 4.2 多元线性回归模型的参数估计 一、普通最小二乘估计 二、参数估计量的性质 三、参数估计中的样本容量问题 9 根据最小二乘原理,求参数估计值 0 0 0 0 2 1 0 Q Q Q Q k 其中 2 11 2 ) ( n i ii n i i YYeQ 2 1 22110 ) ( n
5、i kikiii XXXY ikikiii XXXY 22110 一、普通最小二乘估计 结构参数;分布参数 10 于是得到关于待估参数估计值的正规方程组正规方程组: kiikikikii iiikikiii iiikikii ikikii XYXXXX XYXXXX XYXXXX YXXX ) ( ) ( ) ( ) ( 22110 2222110 1122110 22110 解该(k+1)个方程组成的线性代数方程组,即可得到 (k+1)个待估参数的估计值 , , ,jjk 012 。 Kikiiii XXXY 22110 i=1,2n YXXX 1 )( 11 例:例:在的家庭收入家庭收入-
6、学生数学分数学生数学分数例中, 5365000021500 2150010 1 1 1 111 )( 2 2 1 21ii i n n XX Xn X X X XXX XX 39468400 15674111 2 1 21ii i n n YX Y Y Y Y XXX YX 可求得 0735. 10003. 0 0003. 07226. 0 )( 1 E XX 于是 7770. 0 172.103 39648400 15674 0735. 10003. 0 0003. 07226. 0 2 1 E 12 OLS估计量的方差和标准误 随机误差项的方差的估计 可以证明,随机误差项的方差的无偏估计量
7、为 11 2 2 knkn ei ee 13 在满足基本假设的情况下,其结构参数 的普通最小二乘估计仍具有: 线性性线性性、无偏性无偏性、有效性有效性 二、参数估计量的性质 根据 OLS估计的每一个回归系数都是线性的和无 偏的-平均而言,它与真实值一致。在所有的线性无 偏估计量中,OLS估计量具有最小方差性-即比其他 线性无偏估计量更准确地估计了真实的参数值。 14 三、拟合优度检验三、拟合优度检验 TSS RSS TSS ESS R1 2 15 度量度量K K个解释变量对应变量个解释变量对应变量Y Y变动的变动的 联合解释比例。联合解释比例。 ikikiii XXXY 22110 16 古董
8、钟拍卖一例 VariableCoefficient Std. Error t-StatisticProb. C-1300.2178.1526-7.298240.0000 AGE12.595440.92950113.550760.0000 BIDDERS84.635229.0165279.3866760.0000 R-squared0.884745 012 Pr+iceAgeBidders PRICE = -1300.2010 + 12.5954*AGE + 84.6352*BIDDERS 斜率系数表示斜率系数表示:在其他变量保持不变保持不变的条件下,钟表 价格每增1年,其价格平均平均上升12.
9、5954元。 R2表示表示:两个变量解释了拍卖价格89%的变异。 17 对偏回归系数的检验 VariableCoefficient Std. Error t-StatisticProb. C-1300.2178.1526-7.298240.0000 AGE12.595440.92950113.550760.0000 BIDDERS84.635229.0165279.3866760.0000 R-squared0.884745 012 Pr+iceAgeBidders 0111 00HH:,: 0212 00HH:,: 置信区间法 显著性检验法 置信区间法 显著性检验法 4.3 多元线性回归模型
10、的统计检验 一、对偏回归系数进行假设检验 1、变量的显著性检验(t检验) 2、参数的置信区间 二、方程的显著性检验(F检验) F检验与T检 验的区别 F与R2的关系 F检验怎么做 18 1、变量的显著性检验(t检验) ) 1( 1 knt kn c S t ii iiii i ee 11 2 2 knkn ei ee 1、设计原假设与备择假设: H0:i=0H1:i0 (i=1,2k) 3、给定显著性水平,可得到临界值t/2(n-k-1) 2、由样本求出统计量t的数值 4、通过比较 拒绝或接受H0 判定对应的解释变量是否 应包括在模型中 |t| t/2(n-k-1) 或 |t|t/2(n-k-
11、1) |P| /2 19 2、参数的置信区间 参数的置信区间用来考察:在一次抽样中所 估计的参数值离参数的真实值有多“近”。 ) 1( 1 knt kn c S t ii iiii i ee 在(1-)的置信水平下i的置信区间是 ( , ) ii tsts ii 22 其中,t/2为显著性水平为 、自由度为n-k-1的临界值。 20 二、方程的显著性检验(F检验) 21 方程的显著性检验,旨在对模型中被解释变量与解释 变量之间的线性关系在总体上在总体上是否显著成立作出推断。 1、方程的显著性检验(F检验)与变量的显著性 检验(T检验)的区别。 01211 =00 kk HH:,:偏回归系数()
12、不全为 22 01 00HH:R,:R F F检验的思想检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS 如果这个比值较大,则X的联合体对Y的解释程度 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。因此,可通过该比值的大小对总体线性 关系进行推断。 22 2 ESS R TSS 2、方差分析技术 23 对TSS各组成部分进行分析 变异来源变异来源平方和平方和自由度自由度MSS=SS/d.f. ESS 解释变量个 数 ESS/K RSS N-待估参数 个数 RSS/(N-K-1) TSS N-1 2 YY 2 YY 2 YY 3、方程显著性的F检验 step1、可提出
13、如下原假设与备择假设: H0: 1=2= =k=0;H1: j不全为0 ) 1/( / knRSS kESS F step3、给定显著性水平,可得到临界值F(k,n-k-1) step2、由样本求出统计量F的数值 step4、通过比较 拒绝或不拒绝原假设H0 判定原方 程总体上总体上的线性关系是否显著成立 F F(k,n-k-1)拒绝原假设 ;FF(k,n-k-1)不拒绝原假设 根据数理统计学中的知识根据数理统计学中的知识 ,在原假设,在原假设H0成立的条件成立的条件 下,该统计量服从自由度下,该统计量服从自由度 为为( (k , n-k-1)1)的的F分布分布 24 4、关于F与R2的关系
14、2 ESSESS R TSSESSRSS 2 2 / /11/1 ESS kRk F RSS nkRnk 2 1 1 ESSRSSRSS RESSESS 说明这两个统计量同方向变动。 R2=0时,F=0; R2值越大,F值越大; R2=1时,F趋于 R2 25 如何才能缩小置信区间?如何才能缩小置信区间? 增大样本容量增大样本容量n n,因为在同样的样本容量下,因为在同样的样本容量下,n n越越 大,大,t t分布表中的临界值越小,同时,增大样本容分布表中的临界值越小,同时,增大样本容 量,还可使样本参数估计量的标准差减小;量,还可使样本参数估计量的标准差减小; 提高模型的拟合优度提高模型的拟
15、合优度,因为样本参数估计量的标,因为样本参数估计量的标 准差与残差平方和呈正比,模型优度越高,残差准差与残差平方和呈正比,模型优度越高,残差 平方和应越小。平方和应越小。 提高样本观测值的分散度提高样本观测值的分散度, ,一般情况下,样本观一般情况下,样本观 测值越分散测值越分散,(XX)-1的分母的的分母的|XX|的值越大,致的值越大,致 使区间缩小。使区间缩小。 26 4.4多元线性回归模型的预测 E(Y0)的置信区间 对于模型 XY 给定样本以外的解释变量的观测值X0=(1,X10,X20,Xk0), 可以得到被解释变量的预测值: X 00 Y (1-)的置信水平下E(Y0)的置信区间置
16、信区间: : 0 1 0000 1 00 )( )()( 22 XXXXXXXX tYYEtY 其中,t/2为(1-)的置信水平下的临界值。 27 4.5 多元回归模型的相关讨论 一、回归模型设定的讨论一、回归模型设定的讨论 2、什么时候增加新的解释变量?- 1、设定误差 3、受限最小二乘 二、对回归结果的讨论二、对回归结果的讨论 2 R 28 1、设定误差P83 4-52 4-53 4-37 29 模型设定中遗漏变量的问题 30 如何知道需否 增加解释变量 判定系数与校正(调整)的判定系数 TSS RSS TSS ESS R1 2 ) 1/( ) 1/( 1 2 nTSS knRSS R 2
17、 1 1 (1) 1 n R nk n-k-1为残差平方和的自由度,n-1为总体平方和的自由度 如果在模型中增加一个解释变量, R2往往增大 现实情况往往是,由增加解释变量个数引起的R2 的增大与拟合好坏无关,R2需调整需调整 剔除了变量个数对拟合优度的影响剔除了变量个数对拟合优度的影响 31 2、什么时候增加新的解释变量?- 的应用 2 R 性质性质P84P84 2、什么时候增加新的解释变量?- 的应用 2 R 只要校正判定系数 值增加,就可以增加新的解释变量。 应变量相同的回归模型才可以对 进行比较。 2 R 2 R *赤池信息准则和施瓦茨准则 n k n AIC ) 1(2 ln ee
18、n n k n AClnln ee 这两准则均要求仅当所增加的解释变量能够减少AIC 值或AC值时才在原模型中增加该解释变量。 32 如果拟新增解释变量的参数估计值的t绝对值大于1,则 会增加。 2 R 运用于对回归模型增加或减少解释变量的判断中 考虑如下两个回归模型: kk XXY 110 qkqkkkkk XXXXY 11110 (有约束模型) (无约束模型) 施加约束条件H0: 0 21 qkkk 33 3、受限最小二乘 检验思想:用(检验思想:用(RSSR - RSSU)的大小检验约束的真实性的大小检验约束的真实性 若约束条件为真 受约束回归模型与无约束回归模型 具有相同的解释能力 (
19、RSSR - RSSU)较小 若约束条件无效 受约束回归模型与无约束回归 模型解释能力有差异 (RSSR - RSSU)较大 3、受限最小二乘 012 YAgeBidders 01 YAge 无约束模型: 有约束模型: 施加约束条件: 2 0 2 ur R 2 r R 22 ,1 2 / 1/1 urr m n k ur RRm FF Rnk F临界F值,则拒绝约束条件; F临界F值,则拒接受约束条件 34 如果约束条件为真,RSSR 与 RSSU的差异很小,则计 算的F值较小,即不拒绝该约束条件。 ) 1,( ) 1/( )/()( URU UU RUUR knkkF knRSS kkRSS
20、RSS F 如果约束条件无效, RSSR 与 RSSU的差异较大,计 算的F值也较大,即拒绝该约束条件。 F临界F值,则拒绝约束条件; 注意,kU - kR恰为约束条件的个数。 35 构建检验统计量为: 3、受限最小二乘 22 2 / 1/1 urr ur RRq Rnkq 对参数间关系的其它约束对参数间关系的其它约束 对模型 kk XXXY 22110 施加约束 1 21 kk 1 得 * 11121110 )1 ( kkkk XXXXY 或* 1133 * 110 * kk XXXY (*) (*) 如果对(*)式回归得出 1310 , , , k 则由约束条件可得: 12 1 1 kk
21、36 3、受限最小二乘 二、对回归结果的讨论二、对回归结果的讨论 例例P87P87 设定模型 4.5 多元回归模型的相关讨论 37 根据经济理论, 进行先验假定 进行回归,得到结果 经济意义检验 对偏回归系数含义进行解释 变量的显著性检验 方程总体的显著性检验 报告拟合优度 第四章小结 多元线性回归模型 多元线性回归模型的参数估计 多元线性回归模型的统计检验 多元线性回归模型的预测 38 假设要求你建立一个计量经济学模型来说明在学校跑道 上慢跑半小时或半小时以上的人数,以便决定是否修建 第二条跑道以满足所有的锻炼者,你通过整个学年收集 数据,得到两个可能的解释性方程: 2 123 125.0
22、15.01.01.5,0.75YXXXR 2 124 123.0 14.05.53.7,0.73YXXXR 其中,Y为某天慢跑者的人数,X1为该天的降雨量(单位: 毫米),X2为该天的日照时间(单位:小时),X3为该天 的最高温度(单位:华氏温度),X4为第二天需交学期论 文的班级数。请回答下列问题: (1)这两个方程你认为哪个更合理些,为什么? (2)为什么用相同的数据去估计,相同变量的系数符号 却不同? 39 40 本章作业: 1、做在书上:4.3;4.4;4.5;4.6 2、自己理解:91页的术语概念;4.1 3、做在作业本上:4.2;4.9;4.11;4.12 上机操作预习:4.7;4.14;4.18;4.21;4.22