数理统计第四章回归分析课件.ppt

上传人(卖家):三亚风情 文档编号:3325566 上传时间:2022-08-20 格式:PPT 页数:55 大小:1.21MB
下载 相关 举报
数理统计第四章回归分析课件.ppt_第1页
第1页 / 共55页
数理统计第四章回归分析课件.ppt_第2页
第2页 / 共55页
数理统计第四章回归分析课件.ppt_第3页
第3页 / 共55页
数理统计第四章回归分析课件.ppt_第4页
第4页 / 共55页
数理统计第四章回归分析课件.ppt_第5页
第5页 / 共55页
点击查看更多>>
资源描述

1、第四章 回归分析数理统计篇数理统计篇变量之间的关系分成两大类变量之间的关系分成两大类 1 1)确定性的关系)确定性的关系-一些变量的值确定后另一些变量的值一些变量的值确定后另一些变量的值 也随之确定也随之确定2 2)相关关系)相关关系 -变量之间虽然存在一定的依赖关系,但变量之间虽然存在一定的依赖关系,但 这种关系没有达到能由其中一个或多个来准确地决定这种关系没有达到能由其中一个或多个来准确地决定 另一个的程度另一个的程度 回归分析是研究相关关系的一种有力工具回归分析是研究相关关系的一种有力工具 1 1)从一组观察数据出发,确定这些变量之间的回归方程;)从一组观察数据出发,确定这些变量之间的回

2、归方程;2 2)对回归方程进行假设检验;)对回归方程进行假设检验;3 3)利用回归方程进行预测和控制)利用回归方程进行预测和控制 我们主要讨论线性回归方程。许多实际问题可以取我们主要讨论线性回归方程。许多实际问题可以取这种模型做为真实模型的近似这种模型做为真实模型的近似 4.1 回归分析概述 在不确定性关系中作为影响因素的变量称为自变量或解释变量,记为X;受X取值影响的响应变量称为因变量,用Y表示;令E(Y|X=x)=f(x),由随机因素引起的偏差是=Y-f(x)X与Y的不确定性关系表示为 Y=E(Y|X=x)+=f(x)+满足E=0,D=DY=2 通常假定 N(0,2);根据回归函数的不同形

3、式,可分为 多元非线性回归一元非线性回归非线性回归多元线性回归一元线性回归线性回归 数据数据 满足满足 ),(iiyxnibxayiii,2,1,其中误差其中误差 表示表示 中不能由中不能由 来表示的部分来表示的部分我们自然假设其均值为零,即我们自然假设其均值为零,即 通常还假设通常还假设它满足它满足:iiyibxa 0)(iE(1 1);niVari,2,1,)(2(2 2)jiCovji,0),(这些假设被称为这些假设被称为Gauss-MarkovGauss-Markov假设,这里第一条假假设,这里第一条假设误差设误差 是等方差的是等方差的.第二条则要求不同次的观测第二条则要求不同次的观测

4、误差是不相关的误差是不相关的.i(1)式中未知数)式中未知数 、是待估计参数,估计他们的是待估计参数,估计他们的最基本方法是最小二乘法,设最基本方法是最小二乘法,设 与与 是用最小二乘是用最小二乘法获得的估计,即所谓的最小二乘估计,将它们代法获得的估计,即所谓的最小二乘估计,将它们代入一元线性回归模型并略去误差项入一元线性回归模型并略去误差项 ,即对给定的,即对给定的 ,得到方程:,得到方程:aba bxxbay称为称为 关于的(经验)关于的(经验)回归方程,其图形称为回归回归方程,其图形称为回归直线直线.yy若随机变量若随机变量 与多个普通变量与多个普通变量有关,则可建立数学模型:有关,则可

5、建立数学模型:12,ppx xx(1)ppxbxbby110(3)其中未知数其中未知数 是不依赖于是不依赖于的未知参数,的未知参数,是常数,是常数,称为回归系数,称为回归系数,为误差项,称(为误差项,称(3)式为多元线性(理论)回归)式为多元线性(理论)回归模型模型pbbb,10pxxx,210bpbb,1若进行若进行 次独立测量,得到样本:次独立测量,得到样本:n),(111211yxxxp),(21nnpnnyxxx,它们都满足(它们都满足(3)式,即就每个数据)式,即就每个数据有:有:),(21iipiiyxxxiippiixbxbby110ni,2,1(5)其中其中 为对应于第为对应于

6、第 组数据的随机误差组数据的随机误差ii假设假设 ,并且满足,并且满足Gauss-Markov假设:假设:0)(iE(1 1);niVari,2,1,)(2(2 2)jiCovji,0),(引进矩阵记号表达多元线性回归模型(引进矩阵记号表达多元线性回归模型(5)会很方)会很方便,记便,记npnnppxxxxxxxxxX212222111211111nyyyY21pbbbB10p21则多元线性回归模型(则多元线性回归模型(5)与)与Gauss-Markov假设假设一起可以记为一起可以记为 XBY0)(EICov2)(6)这里这里 为为 的设计矩阵的设计矩阵.为为 的观测向的观测向量量.为为 的未

7、知数参数向量,的未知数参数向量,随机误差向量随机误差向量 为其协方差阵,为其协方差阵,是是 阶单位矩阵。当误差阶单位矩阵。当误差服从正态分布服从正态分布 .X)1(pnY1nB1n1p)(CovIn),0(2IN),(21iipiiyxxxpbbb,10pbbb,10有了观测数据有了观测数据 后,同样可以用最小后,同样可以用最小二乘法获得参数二乘法获得参数 的最小二乘估计,记为的最小二乘估计,记为 ,得多元线性回归方程:,得多元线性回归方程:ppxbxbby110(7)同理,(同理,(7)式是否真正描述了)式是否真正描述了 与与 的客观存在的关系还需进一步检验的客观存在的关系还需进一步检验yp

8、xxx,21第二节第二节 参数估计参数估计一、一元线性回归的参数估计一、一元线性回归的参数估计 最小二乘估计是数理统计中估计未知参数的一种重最小二乘估计是数理统计中估计未知参数的一种重要方法,现用它来求一元线性回归模型要方法,现用它来求一元线性回归模型:bxay中未知数中未知数 ,的估计值的估计值.ab最小二乘法的基本思想是:对一组观察值最小二乘法的基本思想是:对一组观察值),(,),(),(2211nnyxyxyx要使误差要使误差)(iiibxay的平方和的平方和),(baQ2112)(niiiniibxaya bab),(baQ达到最小的达到最小的 与与 做为未知数做为未知数 ,的估计,称

9、的估计,称其其为最小二乘估计在数学上这就归结为求二元函数为最小二乘估计在数学上这就归结为求二元函数 的最小值问题具体做法如下:的最小值问题具体做法如下:将将 分别对分别对 ,求偏导数,令他们等于零,求偏导数,令他们等于零,得到方程组:得到方程组:),(baQabniiiiniiixbxaybQbxayaQ110)(20)(2即即(9)niiiniiniininiiiyxxbxayxbna112111称为正规方程组,记称为正规方程组,记niixnx11niiyny11ix由于由于 不完全相同,正规方程组的系数行列式不完全相同,正规方程组的系数行列式ixniiniiniixxxn12112112n

10、iiniixxn0)(12niixxn由克拉姆法则克制(由克拉姆法则克制(7)式有唯一解)式有唯一解xbyaxxyyxxbniiniii)()(121(10)xbyaxbay将将 代入线性回归方程代入线性回归方程则线性回归方程也可表示为:则线性回归方程也可表示为:)(xxbyy(11)(11)式给出了最小二乘估计的几何意义当给定)式给出了最小二乘估计的几何意义当给定样本观察值样本观察值 后,散点图中后,散点图中直线很多直线很多.选取点选取点 ,与诸直线的,与诸直线的偏差平方和最小的这条直线是一条通过散点图的几偏差平方和最小的这条直线是一条通过散点图的几何中心何中心 ,斜率为,斜率为 的直线,可

11、以证明,在某的直线,可以证明,在某些假设下,些假设下,与与 是所有线性无偏估计中最好的是所有线性无偏估计中最好的.),(,),(),(2211nnyxyxyx),(iiyxni,2,1),(yxba b 上述确定回归直线所依据的原则是是所有观测上述确定回归直线所依据的原则是是所有观测数据的偏差平方和达到最小按照这个理论确定数据的偏差平方和达到最小按照这个理论确定回归直线的方法称其为最小二乘法回归直线的方法称其为最小二乘法 为了应用方便,引进记号如下:为了应用方便,引进记号如下:niixxxxS12)(niiyyyyS12)(niixyyyxxS1)(niiniiniiiyxnyx1111这样,

12、这样,的估计可以写成的估计可以写成abxbybxnynaSSbniiniixxxy1111(12)例例1 为研究商品的价格与销售量之间的关系,现收为研究商品的价格与销售量之间的关系,现收集某商品在一个地区集某商品在一个地区10个时间段内的平均价格个时间段内的平均价格(单位:元)和销售总额(单位:元)和销售总额 (单位:万元),统计(单位:万元),统计资料如表资料如表1所示求关于的线性回归方程所示求关于的线性回归方程 xyxy表表 1 1时间段12345678910(元)12.08.011.513.015.014.08.510.511.513.3(万元)11.68.511.412.213.013

13、.28.910.511.312.0解:解:为求线性回归方程,计算得为求线性回归方程,计算得y1012)(iixxxxS961.451012124.22)(iiyyyySx73.11101101iix3.117101iix故故26.11101101iiyy6.112101iiy故故15.13521niiiyx101)(iixyyyxxS101101101101iiiiiiiyxyx352.316.1123.11710115.13522590.373.116821.026.116821.0 xbyaSSbxxxy回归方程:回归方程:xy6821.02590.3最小二乘估计的性质最小二乘估计的性质:

14、(1)与与 分别是未知数分别是未知数 与与 的无偏估计,的无偏估计,即即 ,;a babaaE)(bbE)((2)假设)假设 ,则,则 与与 都服从正态都服从正态分布,即:分布,即:),0(2Nia b)1(,(2xxSxnaNa)1,(2xxSbNb这里,这里,niixxxxS12)(i一元线性回归模型中,误差一元线性回归模型中,误差 的方差的方差 ,由于由于 ,很自然地想到用,很自然地想到用 与与 分别代替分别代替 与与 得到得到 的估计,记为的估计,记为 ,即:,即:i2)(10iiixbbya babii)(10iiixbbyni,2,1通常称之为残差用残差就可以构造通常称之为残差用残

15、差就可以构造 的一个常的一个常用的估计用的估计 2niin122212的性质的性质(1)是是 无偏估计;无偏估计;22(2),并且,并且与与 ,相互独立相互独立)2(/)2(222nn2a bbb二、多元线性回归的参数估计二、多元线性回归的参数估计若若 ,为一样为一样本,根据最小二乘法原理,多元线性回归中未知参本,根据最小二乘法原理,多元线性回归中未知参数数 应满足使函数应满足使函数),(111211yxxxp),(21nnpnnyxxxpbbb,10niippiixbxbbyQ12110)(达到最小达到最小对对 分别关于分别关于 求偏导数,并令它们等于求偏导数,并令它们等于零,得到零,得到Q

16、pbbb,10njijipipiijipipiipjxxbxbbybQxbxbbybQ1)1101100,2,1,0(20)(2称为正规方程组,引进矩阵称为正规方程组,引进矩阵npnnppxxxxxxxxxX212222111211111nyyyY21pbbbB10p21于是正规方程组可写成于是正规方程组可写成YXXBX若若 存在,则存在,则1)(XXpbbbB10YXXX1)(而而 即为经验回归方程即为经验回归方程ppxbxbby110第三节第三节 假设检验假设检验检验检验 变量的变化对变量的变化对 的影响是否显著,这个问的影响是否显著,这个问题可以利用线性关系的显著性检验来解决题可以利用线

17、性关系的显著性检验来解决.xy检验假设检验假设 0:,0:10bHbH(9-15)0H若拒绝原假设若拒绝原假设 ,则认为,则认为 与与 之间存在线性关之间存在线性关系,所求的线性回归方程无意义;系,所求的线性回归方程无意义;0Hyx若接受若接受 ,则认为,则认为 与与 的关系不能用一元线性的关系不能用一元线性回归模型来描述,所求的线性回归方程有无意义回归模型来描述,所求的线性回归方程有无意义;0Hyx已知已知 与与 具有性质:具有性质:b2)1,(2xxSbNb)2(/)2(222nn并且并且 与与 互相独立,于是,原假设成立互相独立,于是,原假设成立 2b)2(ntSbtxxt这个这个 就是

18、此双边检验的就是此双边检验的 检验统计量对于给定检验统计量对于给定的显著性水平的显著性水平 ,此假设检验的拒绝域为,此假设检验的拒绝域为tt)2(|2ntt这就是所谓的这就是所谓的 检验法检验法 t如果检验的结论是拒绝原假设,即接受备择假设如果检验的结论是拒绝原假设,即接受备择假设 ,我们就说回归方程通过了显著性检验,认,我们就说回归方程通过了显著性检验,认为为 与与 有一定的线性关系但是如果检验的结有一定的线性关系但是如果检验的结论是接受原假设论是接受原假设 ,实际上可能有多种原因,实际上可能有多种原因导致这种情况当然可能是导致这种情况当然可能是 对对 确实没什么影确实没什么影响,也可能是还

19、有对响,也可能是还有对 影响更大的自变量未被考影响更大的自变量未被考虑,还可能系统误差过大等等虑,还可能系统误差过大等等0bxy0bxyy注意到注意到 分布与分布与 分布的关系,当分布的关系,当 时,时,故,故tF)2(ntt)2,1(2nFt)2,1(/22nFSbFxx(16)t这个这个 就是此检验的就是此检验的 检验估计量,注意,上面的检验估计量,注意,上面的 检验法则等价于如下的检验法则等价于如下的 检验法则:对于给定的检验法则:对于给定的显著性水平显著性水平 ,当,当 则拒绝原假设,则拒绝原假设,否则接受原假设此假设检验的拒绝域为否则接受原假设此假设检验的拒绝域为 FFtF)2,1(

20、nFF)2,1(nFF关于关于 检验,最最常用的是方差分析表检验,最最常用的是方差分析表 F设当设当 的取值的取值 ,得到,得到 的一组观察值的一组观察值 ,统计量,统计量 称为称为 的总偏差平方和,它的大小反应了观察的总偏差平方和,它的大小反应了观察值值 的分散程度。它的自由度规定为的分散程度。它的自由度规定为xnxxx,21ynyyy,21总QniiyyyyS12)(nyyy,211nnyyy,21记记 ,称为在,称为在 处因变量处因变量 的拟合值或回的拟合值或回归值,因为归值,因为iixbayixyniiyy12)(niiiiyyyy12)(可以验证可以验证niiiiyyyy12)(ni

21、iiyy12)(niiiyy12)(记记niiiyyQ12)(回niiiyyQ12)(剩则有则有回剩总QQQ(17)回Q 称为回归平方和,反映了回归值称为回归平方和,反映了回归值 的分散程度的分散程度,这种分散性是因为,这种分散性是因为 的变化而引起的,并通过的变化而引起的,并通过 对对 的线性影响反映出来它的自由度规定为的线性影响反映出来它的自由度规定为1iy xxy剩Q 称为剩余平方和,反映了观测值称为剩余平方和,反映了观测值 偏离回归直偏离回归直线的程度,这种偏离是由试验误差和其他未加控制线的程度,这种偏离是由试验误差和其他未加控制的因素引起的,其实它就是上节中残差的因素引起的,其实它就

22、是上节中残差 的平方的平方和,即和,即 ,则由,则由 的性质可知的性质可知 是是 的无偏估计,它的自由度是的无偏估计,它的自由度是 iyi剩Qnii12222nQ剩22n回Q通过对通过对 ,的分析,的分析,的分散程度的分散程度 的两种影响可以从数量上区分开来,因而的两种影响可以从数量上区分开来,因而 与与的比值反映了这种线性相关关系与随机因素对的比值反映了这种线性相关关系与随机因素对 的影响的大小,比值越大,线性关系越强的影响的大小,比值越大,线性关系越强 回Q剩Qnyyy,21总Q回Q剩Qy可以证明统计量可以证明统计量 xxSbF/2221nQQ剩回(9-18)故,当故,当 为真时服从参数为

23、为真时服从参数为 1和和 的的 分布,分布,即即 给定显著性水平给定显著性水平 ,若,若 ,则拒绝原假设,则拒绝原假设 ,即认为在显著,即认为在显著性水平性水平 下,下,对对 的线性相关关系是显著的;反的线性相关关系是显著的;反之,则认为之,则认为 对对 的没有线性相关关系,即所求的的没有线性相关关系,即所求的线性回归方程无实际意义线性回归方程无实际意义 0H2nF)2,1(nFF)2,1(nFF0Hyxyx实际计算中,可使用公式实际计算中,可使用公式nixxxyiiSSyyQ122)(回(9-19)xxxyyySSSQQQ2回总剩(9-20)表表9-2 一元回归的方差分析表一元回归的方差分析

24、表方差源 平方和 自由度 均方 F比 回归 Q回回1MQ回回=Q回回/1剩余 Q剩剩n-1M Q剩剩=Q剩剩/n-2总和 Q总总n-212QQFn剩剩回回例例2 在显著性水平在显著性水平 下,检验例下,检验例1中回归效果中回归效果是否显著是否显著 05.0解:由例解:由例1知,知,961.45xxS352.31xyS124.22yyS计算出计算出3866.21)(122nixxxyiiSSyyQ回7374.03866.21124.22回总剩QQQ32.5)8,1(0217.2322105.0FnQQF剩回故拒绝原假设故拒绝原假设 ,即认为在显著性水平,即认为在显著性水平 下,回归直线下,回归直

25、线 0Hxy6821.02590.3所表达的所表达的 与与 的线性相关关系是显著的的线性相关关系是显著的yx因变量因变量 与与 的线性相关关系是否显著的可以用的线性相关关系是否显著的可以用判定系数判定系数 来度量,其定义是来度量,其定义是yx2R总回QQR 2yx这两项的比值表明回归直线所能解释的因变量这两项的比值表明回归直线所能解释的因变量 的偏差部分在的偏差部分在 的总偏差中的比例,其值越大,的总偏差中的比例,其值越大,则则 与与 的线性相关关系也就越大,事实上,的线性相关关系也就越大,事实上,就是就是 与与 相关系数相关系数.yyyxRyx例题例题2中,计算可得中,计算可得总回QQR 2

26、967.0124.223866.21这说明,在这种商品销售总额的变化中,有近这说明,在这种商品销售总额的变化中,有近的变化是由销售总额与价格的线性关系引起的的变化是由销售总额与价格的线性关系引起的 第四节第四节 预测预测0y假定在假定在 处,理论回归方程处,理论回归方程 成成立立,因变量,因变量 的相应的值的相应的值 满足满足 0 xx bxayy0y000bxay这就是所谓的点预测这就是所谓的点预测 在点预测在点预测 的基础上预测对应的的基础上预测对应的 的观察值的的观察值的取值范围称之为区间预测取值范围称之为区间预测.需要假设误差需要假设误差 服从服从正态分布且相互独立正态分布且相互独立

27、0yyi对于给定的对于给定的 ,的置信度为的置信度为 的置信区的置信区间为间为100y1),(00lyly其中其中 xxSxxnntl202)(11)2(n这个预测区间是一个以这个预测区间是一个以 的预测的预测 为中心,为中心,长度为长度为 的对称区间的对称区间.对给定的对给定的 和和 ,越大,则预测区间的长度就越短,预测精度越大,则预测区间的长度就越短,预测精度也就越高也就越高.因此,威力提高预测精度,就要增因此,威力提高预测精度,就要增大大 ,也就是把实验点,也就是把实验点 尽可能分尽可能分散开散开0y0 yl 2nxxSxxSnxxx,21在实际的回归问题中,若样本容量在实际的回归问题中

28、,若样本容量 很大,而很大,而 靠近预测中心靠近预测中心 ,则可简化计算,则可简化计算n0 xx1)(1120 xxSxxnztn22)2(则则 的置信度为的置信度为 的置信区间为近似为的置信区间为近似为 0y1),(2020zzyy特别地,取特别地,取 ,则,则 的置信度为的置信度为 的置的置信区间近似为信区间近似为 05.00y95.0)96.1,96.1(00yy可以预料,在全部可能出现的可以预料,在全部可能出现的 值中,大约有值中,大约有 的观测点落在直线的观测点落在直线 :与与 :所所夹的带型区域内夹的带型区域内1L96.10 yy2L96.10 yyy%95图图9-3例例4 给定给

29、定 ,问例,问例1中销售总额在中销售总额在什么范围内?什么范围内?05.05.130 x解解 当当 ,的预测值为的预测值为 5.130 x0y4674.125.136821.02585.300 xbay22nQ剩对对 ,而,而 再由例再由例2已知已知 ,所以,所以05.0306.2)8(025.0t7374.0剩Q3036.087374.0所以计算得所以计算得xxSxxnntl202)(11)2(7567.0961.45)73.115.13(10113036.0306.02故故 的预测区间为的预测区间为 ,即销售总,即销售总额额 将以将以 的概率落在区间的概率落在区间内内 0y)7567.04674.12(0y%95)2241.13,7107.11(

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数理统计第四章回归分析课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|