3多元线性回归模型课件.ppt

上传人(卖家):晟晟文业 文档编号:4741348 上传时间:2023-01-06 格式:PPT 页数:47 大小:956.50KB
下载 相关 举报
3多元线性回归模型课件.ppt_第1页
第1页 / 共47页
3多元线性回归模型课件.ppt_第2页
第2页 / 共47页
3多元线性回归模型课件.ppt_第3页
第3页 / 共47页
3多元线性回归模型课件.ppt_第4页
第4页 / 共47页
3多元线性回归模型课件.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、 模型的建立及其假定条件 最小二乘估计 最小二乘估计量的统计特性 样本可决系数(R2)模型参数的检验与置信区间 预测 案例分析iiXY7241.00144.0受教育年限与每小时工资:实际中影响每小时工资的可能还有工作经验、性别、种族和个人能力等。综合考虑这些因素,可以建立下面的多元回归模型:iuworkabilityracesexeduwage543210其中,0为截距,1、2、3、4和5称为偏回归系数,表示其他因素不变的情况下,对应解释变量的变化对被解释变量的影响。例如,1反映了在性别、种族、工作经验和个人能力不变的情况下,受教育年限每增加1年,每小时收入增加1美元。l 基本概念基本概念 1

2、、多元线性多元线性总体回归模型总体回归模型 2、多元线性多元线性总体回归直线总体回归直线 3、多元线性多元线性样本回归模型样本回归模型 4、多元线性多元线性样本回归直线样本回归直线l 假定条件假定条件 14、随机误差项无序列相关且随机误差项无序列相关且 同分布同分布 ui N(0,2);Cov(ui,uj)=0;5、解释变量与随机误差项彼此不相关解释变量与随机误差项彼此不相关 Cov(uj,Xij)=0;6、解释变量之间不存在完全共线性解释变量之间不存在完全共线性 rank(X)=k1n。Y=0+1X1+2X2 +kX k+u 设(设(X1i,X2i,X ki),),i1,2n是对总体(是对总

3、体(X1,X2,X k)的)的n次独立样本的观测次独立样本的观测值,则值,则样本结构形式的多元线性回归模型为样本结构形式的多元线性回归模型为n个方程、个方程、k1个未知数构个未知数构成的方程组:成的方程组:Y1=0+1X11+2X21 +kXk1+u1 Y2=0+1X12+2X22 +kXk2+u2 .Yn=0+1X1n+2X2n+kXkn+un 11121311012122232212123(1)(1)(1)1(1)111kknnnnknknnnkknYXXXXuYXXXXuYXXXXu 2 2、总体回归方程、总体回归方程 E(Y|X1,Xk)=0+1X1+kX k 矩阵形式为:E(Y)=X

4、 X 3 3、样本回归模型、样本回归模型 矩阵形式为:4 4、样本回归方程、样本回归方程 矩阵形式为:ikikiii+eX X+X+=Y +22110 +=k22110kiiiiXXXY)n(nYYY121YeXYXY)k(nknnnnkkXXXXXXXXXXXX132123222121312111111X1110)k(k)n(nuuu121u其中:其中:表示被解释变量样本观测值的拟合值的列向量;表示被解释变量样本观测值的拟合值的列向量;表示未知参数估计值的列向量;表示未知参数估计值的列向量;表示残差(随机误差项估计值)的列向量。表示残差(随机误差项估计值)的列向量。121nnYYYY1)1(

5、10kk121nneeee假定假定1:E(ui)=0 i1,2n1122()0()0()()0nnuE uuE uEEuE uu0 这样,被解释变量这样,被解释变量Yi的期望值的期望值 为为:E(Yi)=0+1X1 i+2X2i +kX ki 假定假定2:Var(ui)=Eui-E(ui)2=E(ui)2=2 i1,2n 这样这样Yi的方差也相同,且等于的方差也相同,且等于 2,即:,即:Var(Yi)=2 i1,2n假定假定3:Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(ui,uj)=0 (i j)i,j1,2n即:随机误差项无序列相关。即:随机误差项无序列相关。假定假

6、定2和假定和假定3可以由下列矩阵表示:可以由下列矩阵表示:上式称为随机误差向量上式称为随机误差向量u的的方差方差协方差矩阵协方差矩阵。)uEuuEuEVar(u)()(),(2121nnuuuuuuE22112212121221 nnnnuuuuuuuuuuuuuuuE)()()()()()()()()(2212212121221nnnnnuEuuEuuEuuEuEuuEuuEuuEuEI2222000000假定假定4 4:随机误差项服从正态分布,即:随机误差项服从正态分布,即u ui iN N(0,0,2 2)同时,被解释变量也服从正态分布:同时,被解释变量也服从正态分布:YiN(0+1X1

7、 i+2X2i +kX ki,2)假定假定5:Cov(uj,Xij)=0 i1,2k;i,j1,2n 即 ui 与与Xi 彼此不相关彼此不相关。假定假定6:解释变量:解释变量X1,X2,X k之间不存在完全的线性关系,之间不存在完全的线性关系,一、参数的最小二乘估计一、参数的最小二乘估计二、离差形式参数的最小二乘估计二、离差形式参数的最小二乘估计三、随机误差项方差三、随机误差项方差2 2的估计量的估计量 根据最小二乘准则:根据最小二乘准则:),kQ,(210niie12niiiYY12)(nikikiii)XXX(Y1222110 根据多元函数求极值的必要条件,根据多元函数求极值的必要条件,应

8、满足下列线应满足下列线 性方程组:性方程组:k,210kiQi,2,1,00,0)()(20)(20)1()(2221101221101221100kikikiiikikikiiikikiiiXXXXYQX(XXXYQXXXYQikikikkiikiikiiiikikiiiiikikiiYXXXXXXXYXXXXXXX YXXXn222110111222111022110ikiiiikkikiikiikiikiiiiikiiiYXYXYXXXXXXXXXXXXXXXn121022111221121整理得:整理得:矩阵矩阵形式:形式:12211211212iikiiiiikiikiikiikik

9、inXXXXXXXX XXX XXXXYXnknkknnikiiiiYYYXXXXXXXXXYXYXY212122221112111111于是有:于是有:YXXX的最小二乘(的最小二乘(OLS)估计量为:)估计量为:YXX)(X1112111112112222212221212111111knknnnknkkknXXXXXXXXXXXXXXXXXXX X首先,残差的表示形式:首先,残差的表示形式:MuuXXXXIuXXXXu11)()()()()()()(uXXXXXuXYXXXXuXXYYY11e 其中:其中:为一幂等矩阵。即为一幂等矩阵。即:M=M M=M2=M3=MnXX)X(XIM1M

10、uuMuMuMuMuee)(那么残差的平方和为:那么残差的平方和为:uXXXXIu1)()1(2knEee)1()()()(kXXXtrXtrIXXXXItruXXXXIuEe)E(e212121n注:符号注:符号 tr 表示矩阵的表示矩阵的 迹,它等于矩阵主迹,它等于矩阵主 对角线上元素之和对角线上元素之和所以,随机误差项方差所以,随机误差项方差2的无偏估计为:的无偏估计为:)1(222kneSe Se 回归标准差回归标准差 或残差标准差或残差标准差YX YYYXXXXX YX 2YYXX YX XYYYXYX YXYXYeee12)()()()(线性特性线性特性无偏性无偏性最小方差性(有效

11、性)最小方差性(有效性)高斯马尔可夫(高斯马尔可夫(Gauss-Markov)定理)定理线性特性:是指最小二乘估计量线性特性:是指最小二乘估计量 是被解释变量观测值是被解释变量观测值Y1,Y2,Yn 的线性函数。的线性函数。YXXX1)(XXXA1)(A为一个非随机(确定的)为一个非随机(确定的)(k1)n阶常数矩阵。阶常数矩阵。设:设:则:则:AYYXX)(X1 如果估计量是无偏估计量,则其期望等于真值。如果估计量是无偏估计量,则其期望等于真值。证明:证明:注:证明过程中利用了随机误差项的基本假定注:证明过程中利用了随机误差项的基本假定1和解释变量与随机误差项和解释变量与随机误差项 彼此不相

12、关的假定彼此不相关的假定5。-1()()E=EXXXY)()(1uXXXXE)()(1uEXXX)(uXXXE1 最小方差估计量最小方差估计量:指该估计量的方差在所有无偏估计量中方差是最小的。:指该估计量的方差在所有无偏估计量中方差是最小的。这里,我们只对估计量的方差协方差矩阵的矩阵表示形式予以解证,这里,我们只对估计量的方差协方差矩阵的矩阵表示形式予以解证,关于有效性的证明从略。关于有效性的证明从略。)()()(EEEVar E),(11001100kkkkE)(),(),(),()(),(),(),()(1001010100kkkkkVarCovCovCovVarCovCovCovVar(

13、0,1,k)估计量的估计量的方差协方差矩阵方差协方差矩阵.21100112110011001100200)(.)()(.)(.)()()(.)()(kkkkkkkkkkE)(EVar YXXXYXXXE11)()()()()()(uXXXXuXXXXE11uXXXuXXXE11)()(11XXXuuEXXX)()()(11)()(XXXIXXX21)(XX2记:这里,这里,(Cij)是一个(是一个(k1)阶矩阵,而)阶矩阵,而Cij表示位于矩阵表示位于矩阵C(XX)-1的第的第i+1行行,第第j+1列处的元素,例如,列处的元素,例如,C11表示矩表示矩阵内第阵内第2行、第行、第2列的元素。列的

14、元素。kkkkkkkijccccccccccccc210112111000201001)()(XXCiiiiic)()(Var212XX因此:ijijjic)(),(Cov212XX其中其中,i,j=0,1,2,k 如果基本假定如果基本假定15成立,则最小二乘成立,则最小二乘估计量是估计量是的的最优线性无偏估计量最优线性无偏估计量(Best Linear Unbiased Estimate,简记简记BLUE)。)。iiiiicXXVar212)()(由于在由于在的最小二乘估计量的方差(的最小二乘估计量的方差()中,中,2是未知的,因此可以用是未知的,因此可以用2无偏估计量无偏估计量S2来代替,

15、这样,有:来代替,这样,有:iiics)(总离差平方和的分解总离差平方和的分解 多元样本可决系数(多元样本可决系数(R R2 2)调整的样本可决系数调整的样本可决系数 对于多元线性回归模型的情形,一元线性回归模型的总离差平方和的分对于多元线性回归模型的情形,一元线性回归模型的总离差平方和的分解公式依然成立。即:解公式依然成立。即:TSS=RSS+ESS 其中:其中:22)(iiyYYTSS22)(iiy YYRSS22)(iiieYYESS222iiiey y 总离差平方和 回归平方和 残差平方和即:与一元线性回归模型相同与一元线性回归模型相同:R2 22)YY()YY(ii22iiyyTSS

16、ESS1TSSRSS221iiye 样本可决系数是对样本观测值拟合优度的检验,其取值区间为样本可决系数是对样本观测值拟合优度的检验,其取值区间为0,1,0,1,R R2 2的值越趋近于的值越趋近于1 1,被解释变量的变动由解释变量的变动解释部,被解释变量的变动由解释变量的变动解释部分越多。表明估计的样本回归方程对样本观测值的拟合程度越好。分越多。表明估计的样本回归方程对样本观测值的拟合程度越好。R2的一个重要性质是:随着样本解释变量个数的增加,的一个重要性质是:随着样本解释变量个数的增加,R2的值越来越高,(即的值越来越高,(即R2是解释变量个数的增函数)。也就是说,在样本不变的情况,模型中增

17、加新的解是解释变量个数的增函数)。也就是说,在样本不变的情况,模型中增加新的解释变量不会改变总离差平方和(释变量不会改变总离差平方和(TSS),但会增加回归平方和(),但会增加回归平方和(RSS),减少残差),减少残差平方和(平方和(ESS),从而可能改变模型的解释功能。从而可能改变模型的解释功能。)n/(TSS)kn/(ESSR1112其中:其中:112kneknESSi11122nyn)YY(nTSSii随机误差项随机误差项u的样本方差的样本方差被解释变量的被解释变量的Y的样本方差的样本方差 这样,容易形成一种误解,即要想得到较好的拟合程度,只要增加解释变量即这样,容易形成一种误解,即要想

18、得到较好的拟合程度,只要增加解释变量即可,因此,可,因此,R2并不能真实反映回归模型对观测数据的拟合程度。并不能真实反映回归模型对观测数据的拟合程度。据此得到调整的据此得到调整的R2:样本容量(样本容量(T)一定时,调整的)一定时,调整的R2具有如下性质:具有如下性质:1、若、若k1,则,则2、调整的、调整的R2可能出现负值。在这种情况下,我们取其可能出现负值。在这种情况下,我们取其值为值为0。注:在实际应用中,不能仅仅根据注:在实际应用中,不能仅仅根据R2的大小来选择模型。的大小来选择模型。111122knn)R(R22RR 回归方程的限制条件检验回归方程的限制条件检验FF检验检验 (若干回

19、归系数为若干回归系数为0 0、ChowChow检验等检验等)回归方程的显著性检验(回归方程的显著性检验(F F检验检验)回归系数的显著性检验(回归系数的显著性检验(t t检验检验)回归系数的置信区间回归系数的置信区间含义:含义:是指在一定的显著性水平下,对总体参数之间是否满足一定的限制条件是指在一定的显著性水平下,对总体参数之间是否满足一定的限制条件进行检验,进行检验,例如若干回归系数为例如若干回归系数为0的检验,不同样本回归系数是否相等的检验,的检验,不同样本回归系数是否相等的检验,回归系数线性约束的检验等回归系数线性约束的检验等。给定总体回归模型:给定总体回归模型:Y=0+1X1+2X2

20、+kX k+u (1)提出假设:提出假设:H0:参数满足某个限定条件参数满足某个限定条件 H1:参数不满足该限定条件参数不满足该限定条件 (2)估计两个回归模型,首先,对不加限制条件估计两个回归模型,首先,对不加限制条件(unrestricted)的回归模型进行估的回归模型进行估计,得到无限制的残差平方和计,得到无限制的残差平方和ESSur;然后,对施加了限制的模型进行估计,;然后,对施加了限制的模型进行估计,得到有限制(得到有限制(restricted)的残差平方和)的残差平方和ESSr。在此基础上,计算。在此基础上,计算F统计量:统计量:)kn,q(F)kn/(ESSurq/)ESSESS

21、(Furr11其中,其中,q表示模型中限制条件的个数。表示模型中限制条件的个数。(3)给定显著性水平给定显著性水平查找临界值进行判断(或根据查找临界值进行判断(或根据p-值):值):若:若:F),不能拒绝原假设不能拒绝原假设H0,认为限制条件成立。,认为限制条件成立。FF(p),拒绝原假设拒绝原假设H0,认为限制条件不成立。,认为限制条件不成立。:不同的限制条件,其有限制模型与无限制模型的形式是不同的,在检验:不同的限制条件,其有限制模型与无限制模型的形式是不同的,在检验 时一定要合理得设定模型形式。时一定要合理得设定模型形式。(1)关于若干个回归系数是否为)关于若干个回归系数是否为0的检验的

22、检验H0:1=2=q=0 (共有(共有kq)H1:至少有一个至少有一个j (j=1,2,q)不等于不等于0无限制回归模型:无限制回归模型:有限制回归模型:有限制回归模型:ikikiii+uX+X+X+=Y.22110ikikiqqiqqt+vX+X+X+=Y.,22,110(2)利用不同样本得到的回归系数是否相同()利用不同样本得到的回归系数是否相同(chow检验)检验)H0:0=0 1=1 k=k H1:至少有一个组至少有一个组jj (j=1,2,k)根据第一个样本(容量为根据第一个样本(容量为n1)估计下面的回归模型,得残差平方和)估计下面的回归模型,得残差平方和ESS1:ikikiiiv

23、XXXY+=20211根据第二个样本(容量为根据第二个样本(容量为n2)估计下面的回归模型为,得残差平方和)估计下面的回归模型为,得残差平方和ESS2:根据全部样本(容量为根据全部样本(容量为nn1n2)估计的回归模型为)估计的回归模型为,得残差平方和得残差平方和ESS合合:ikikiiiwXXXY+=22110)1(21()1(2)(1()(2121kn,kFkn/ESSESSk/ESSESSESSF)合合ikikiiiuXXXY+=20211F分布:如果分布:如果X和和Z是相互独立的,分别服从分布自由度为是相互独立的,分别服从分布自由度为n1、n2的的2分布分布 那那么:么:根据根据F分别

24、的含义,我们可以推导出:分别的含义,我们可以推导出:其中:其中:11212)(11niiXXXnS21222)(11niizZZnS F分布可用于检验两个方差是否相等:分布可用于检验两个方差是否相等:(1)H0:H1:(2)假设接受假设接受H0,计算,计算F统计量得:统计量得:(3)给定显著性水平给定显著性水平,比较临界值,进行判断:,比较临界值,进行判断:FFFFFF,拒绝原假设拒绝原假设H H0 0,认为,认为X X、Z Z来自方差不同的总体。来自方差不同的总体。22ZX22ZX22/ZXSSF),(/2121nnFnZnX)1,1(/212222nnFSSZZXX含义:是指在一定的显著性

25、水平下,从总体上对模型中解释变量与被含义:是指在一定的显著性水平下,从总体上对模型中解释变量与被 解释变量之间的线性关系是否显著成立进行的一种统计检验。解释变量之间的线性关系是否显著成立进行的一种统计检验。给定总体回归模型:给定总体回归模型:Y=0+1X1+2X2 +kX k+u (1)提出假设:提出假设:H0:1=2=k=0 H1:至少有一个至少有一个j(j=1,2,k)不等于不等于0 (2)在在H0成立的条件下,计算成立的条件下,计算F统计量:统计量:F(k,n-k-1)(3)给定显著性水平给定显著性水平查找临界值查找临界值(或根据(或根据p-值)值)进行判断:进行判断:若:若:F),不能

26、拒绝原假设不能拒绝原假设H0,认为总体回归方程不是显著线性的。认为总体回归方程不是显著线性的。FF(p),拒绝原假设拒绝原假设H0,认为总体回归方程是显著线性的。认为总体回归方程是显著线性的。分子分子RSS/kRSS/k表示被解释变表示被解释变量量Y Y拟合值的样本方差;拟合值的样本方差;分母分母ESS/(T-k-1)ESS/(T-k-1)表示残表示残差的样本方差即回归方差。差的样本方差即回归方差。)kn/(ESSk/RSSF1 在上述在上述F检验中,若结果拒绝检验中,若结果拒绝H0,并不代表所有的解释变量,并不代表所有的解释变量X1,X2,Xk 都对解释都对解释变量变量Y有显著影响,因此需要

27、对每一个解释变量进行显著性检验。有显著影响,因此需要对每一个解释变量进行显著性检验。t 检验的步骤:检验的步骤:(1)提出假设:)提出假设:H0:j0 H1:j0 j=1,2,k (2)在接受)在接受H0的情况下,计算的情况下,计算 t 统计量:统计量:其中其中 是是 标准差的估计量。标准差的估计量。(3)给定显著性水平给定显著性水平,比较临界值,比较临界值(或或p-值值),进行判断:,进行判断:(p)不能拒绝原假设)不能拒绝原假设H0,认为解释变量对被解释变量认为解释变量对被解释变量Y无显著影响;无显著影响;(pt-Statistic)回归系数 估计值 的 标准差(1)1(kntSStiii

28、ii1221iiiii)(knecSiXXiiic)(Var2系数估计值系数估计值 的方差协方差矩阵:的方差协方差矩阵:(2)第第i个系数估计值个系数估计值 的的t统计量:统计量:i(1)第第i个系数估计值个系数估计值 的样本标准差:的样本标准差:i第第i个系数估计值个系数估计值 的方差:的方差:i1122kn)YY(kneiiies)1/()1(/)1/()(/)()1,()1/(/2222knRkRknYYkYYknkFknESSkRSSFiii拟合优度拟合优度R2=RSS/TSS残差平方和残差平方和ESSF统计量统计量被解释变量被解释变量Y标准差标准差SY被解释变量被解释变量Y的均值的均值P(FF-statistic)回归标准差回归标准差Se11)1(122knnRR真实值真实值拟和值拟和值残差残差坐标为坐标为0S.E(20.26)-S.E.(-20.26)-30-20-1001020301001502002503003508889909192939495969798ResidualActualFitted

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(3多元线性回归模型课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|