回归分析方法课件.ppt

上传人(卖家):三亚风情 文档编号:2889133 上传时间:2022-06-08 格式:PPT 页数:53 大小:1.14MB
下载 相关 举报
回归分析方法课件.ppt_第1页
第1页 / 共53页
回归分析方法课件.ppt_第2页
第2页 / 共53页
回归分析方法课件.ppt_第3页
第3页 / 共53页
回归分析方法课件.ppt_第4页
第4页 / 共53页
回归分析方法课件.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、1第五章第五章 回归分析方法回归分析方法 251 一元线性回归 一、什么叫回归分析一、什么叫回归分析 (一)两种不同类型的变量关系、函数与相关(一)两种不同类型的变量关系、函数与相关简单的说,回归分析就是一种处理变量与变量之间关系的简单的说,回归分析就是一种处理变量与变量之间关系的数学方法。数学方法。例:自由落体运动中,物体下落的举例例:自由落体运动中,物体下落的举例S与所需时间与所需时间t之间,有之间,有如下关系如下关系 21(0)2SgttT 3变量变量S的值随的值随t而定,这就是说,如果而定,这就是说,如果t去了固定值,去了固定值,那么那么S的值就完全确定了的值就完全确定了这种关系就是所

2、谓的函数关系或确定性关系这种关系就是所谓的函数关系或确定性关系回归分析方法是处理变量之间相关关系的有力工具,回归分析方法是处理变量之间相关关系的有力工具,它不仅提供建立变量间关系的数学表达式它不仅提供建立变量间关系的数学表达式经验公经验公式,而且利用概率统计知识进行了分析讨论,从而判式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性断经验公式的正确性4 二、回归分析所能解决的问题二、回归分析所能解决的问题 回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,如果)确定几个特定变量之间是否存在相关关系,如果存在的话,找出

3、她们之间合适的数学表达式存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一个变)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度量的取值,并且要知道这种预报或控制的精确度 (3)进行因素分析,确定因素的主次以及因素之间的)进行因素分析,确定因素的主次以及因素之间的相互关系等等相互关系等等5 一元线性回归分析,只要解决:一元线性回归分析,只要解决: (1)求变量)求变量x与与y之间的回归直线方程之间的回归直线方程 (2)判断变量)判断变量x和和y之间是否确为线性关系之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变

4、量的)根据一个变量的值,预测或控制另一变量的取值取值6 二、一元线性回归方程的确定二、一元线性回归方程的确定iy (1,2,.,)xyxyiN数学上判定直线合理的原则:如果直线与全部观测数据的离差平方和,比任何其它直线与全部观测数据的离差平方和更小,该直线就是代表 与 之间关系较为合理的一条直线,这条直线就是 和 之间的回归直线。7*, )(1,2,., )xy()iiiiiiiiiiiiya bxx y iNxya bxya bxyxyyyya bxy 设是平面上的一条任意直线,(是变量 , 的一组观测数据。那么,对于每一个 ,在直线上确可以确定一个的值, 与 处实际观测值 的差:就刻画了

5、与直线偏离度8xy1x( ,)iix y( ,)iix yyabx9*2211(1,2,.,)(1,2,.,)()()(1,2,.,),abQiiNNiiiiiiiy iNy iNQyyya bxQy iNQx y 全部观测值与直线上对于的的离差平方和则为:反映了全部观测值对直线的偏离程度,显然,离差平方和 越小,愈能较好地表示之间的关系。用最小二乘法原理,通过选择合适的系数 , ,使 最小1011_1111_22211_2()0(61)2()0(62)1()()(63)1()()(64)NiiiNiiiiNNNNiiiiiiiiiiNNiiiiiQyabxaQyabx xbxxyyx yxy

6、NxxxxNay bx Ni=1联合求解得:b=11_1111,(65)ab(66)bNNiiiixx yyNNyabx此处求得 , 后,回归方程为:便可以确定, 称为回归系数12 三、回归方程检验方法三、回归方程检验方法 (一)方差分析法(一)方差分析法回顾方差分析的基本特点:回顾方差分析的基本特点:把所给数据的总波动分解为两部分,一部分反映水平变化把所给数据的总波动分解为两部分,一部分反映水平变化引起的波动,另一部分反映由于存在试验误差而引起的波动。引起的波动,另一部分反映由于存在试验误差而引起的波动。然后把各因素水平变化引起的波动与试验误差引起的波动大小然后把各因素水平变化引起的波动与试

7、验误差引起的波动大小进行比较,而达到检验因素显著性的目的进行比较,而达到检验因素显著性的目的.13_22_22( ,)(1,2,.,)xyxy()()()()()iiiiiiyyiiiiiiix yiNxyxyabxyLyyyyyyyyyy_NNi=1i=1Ni=1i=1设为变量 , 间的一组观测数据,为观测点, 为 处的观测之,为这组观测数据求得的变量 , 间的回归方程,在回归问题中,观测数据总的波动情况,用各观测值 与总平均y之间的平方和即总变动平方和表示_2()()iiiyyyyNNi=1142_2()()(68)xyy(69)iiiQyyQUyyUQUNi=1Ni=1yy第一项是观测值

8、与回归直线的离差平方和,反映了误差的大小第二项反映了总变动中,由于 与 的线性关系而引起 变化的一部分,称为回归平方和第三项为零L15UQUQNN2UQfffffffyyyy总总总每一个变动平方和(即L 、 、 )都有一个“自由度”和它们对应,L 自由度称为总自由度,记做 。观测值个数1 11 三者之间仍然有:16aaF(2)2a0.050.01F(1,2)FFF FUNQNuQa可用 检验考察回归直线的显著性:U/f(1)计算F=Q/f( )对于选定的显著性水平 (或),从 分布上找出临界值F(3)比较 与 的大小。若 ,则回归方程有意义,反之则说明方程意义不大17 (二)相关系数检验法(二

9、)相关系数检验法_22_22_2_222_22()()()()()()()()1(611)()()iiiyyiiiiiiiiUyyUabxabxbxxLyyyyyyxxbyyyy NNi=1i=1Ni=1Ni=1NNi=1i=1NNi=1i=1由代入整理后可得18_2222_22_2_2()()1(612)()()()()iiiiiiixxyyrbyyyyxxrbyy NNi=1i=1NNi=1i=1Ni=1Ni=1令19_2_21 yx(),1,()iiiiyyyy rbxxNi=1Ni=1下面存在三种情形:() 与 有严格函数关系时xy1r xy1r 20_2yx,0,0yy rb( )

10、与 无任何依赖关系时xy0r xy0r 213yxr( ) 与 存在相关关系时0| |1xy10r xy01r22_21_22211yxr()()()()()()NiiiiNNiiiiixyxx yyxxyyxxrbyyxxyyll lNi=1Ni=1检验 与 是否相关的步骤:(1)按下式计算 :23,2fn23| | |xy| |xya fa fa fa frrrrrrr( )给定显著行水平 ,按自由度 ,由相关系数临界表中查处临界值。( )比较与的大小。若,认为 与 之间存在线性相关关系;若,认为 与 之间不存在线性相关关系。24n-2123456789100.05 0.010.9970.

11、9500.8780.8110.7540.7070.6660.6320.6020.5761.0000.9900.9590.9170.8740.8340.7980.7650.7350.708n-2111213141516171819200.05 0.010.5530.5320.5140.4790.4820.4680.4560.4440.4330.4130.6840.6610.6410.6230.6060.5900.5750.5610.5490.537n-2212223242526272829300.05 0.010.4130.4040.3960.3880.3810.3740.3670.3640.3

12、550.3490.5260.5150.5050.4960.4870.4780.4700.4630.4560.449相关系数临界值表25 四、预报与控制四、预报与控制当我们求得变量当我们求得变量x、y之间的回归直线方程后,之间的回归直线方程后,往往通过回归方程回答这样两方面的问题:往往通过回归方程回答这样两方面的问题:(1)对任何一个给定的观测点)对任何一个给定的观测点x0,推断,推断y0大致落的范围大致落的范围(2)若要求观测值)若要求观测值y在一定的范围在一定的范围y1yy2内取值,应将变内取值,应将变量控制在什么地方量控制在什么地方前者就是所谓的预报问题,后者称为控制问题。前者就是所谓的预

13、报问题,后者称为控制问题。260000002yxyyyyyQSN(一)预报问题一般来说,对于固定 处的观测值 ,其取值是以为中心而对称分布的。愈靠近的地方,出现的机会愈大,离愈元的地方,出现的机会少,而且 的取值范围与量有下述关系:2700000000000000322222yyyyyyyyyyySyySyySxxxyySySySyySSS落在范围内的可能性为99.7落在范围内的可能性为95落在范围内的可能性为68利用此关系,对于指定的 ,我们有95的把握说,在处的实际观测值 介于与之间即:这样,预报问题就得到了解决量称为剩余标准差。 用来衡量预报的精确度2801021111222221212

14、0122323yyyyyyyaSbxyaSbxyaSbxyaSbxyxxxxxyyy(二)控制问题控制问题只不过是预报的反问题。若要求观测值在范围内取值,则可从(或)及(或)中分别解出 、 ,只要将 的取值控制在 与 之间,我们就能以95(或99.7)的把握保证, 在 与范围内取值。29122(617)2(618)yyyabxSyabxS进行预报和控制,通常也采用图解法。其作法是:在散点图上作两条平行与回归直线的直线xy2yyabxSyabx1x2x1y2y2yyabxS0b xy2yyabxS2yyabxSyabx1x2x1y2y0b 301295xyyxx可以预测在 附近的一系列观测值中,

15、将落在这两条直线所夹成的带行趋于中,若要求在 与 范围内取值,则只需要图中虚线所示的对于关系,可在 轴上找到值的控制范围。31 五、应用举例五、应用举例例例61 在某产品表明腐蚀刻线,下表是试验在某产品表明腐蚀刻线,下表是试验活得的腐蚀时间(活得的腐蚀时间(x)与腐蚀深度()与腐蚀深度(y)间的一组)间的一组数据。试研究两变量(数据。试研究两变量(x,y)之间的关系。)之间的关系。腐蚀时间腐蚀时间x(秒)(秒)腐蚀深度腐蚀深度y()5 5 10 20 30 40 50 60 65 90 1204 6 8 13 16 17 19 25 25 29 4632ii作散点图,即(x ,y)图40302

16、010yx10 20 30 40 50 60 70 80 90 100 110 120 xy可见 与 之间无确定的函数关系,而表现为相关关系33_222111_222111_1111_211()()1()()1()()()()(619)(620)(621)NNNxxiiiiiiNNNyyiiiiiiNNNNxyiiiiiiiiiixyxxxyxyxxxx yyLxxxxNLyyyyNLxxyyx yxyNLay bxbLlLrULl l()求回归直线记34序号1234567891011xy2x2yxy55102030405060659012049546813161719252529462082

17、5251004009001600250036004225810014400358751636641692562893616256258412116539820308026048068095015001625261055201375535222211111_249520811111483451375549520811111149600358754951111NNNNNiiiiiiiiiiiiiiixyxxxyx yxyxyx yxyLL 具体计算格式如下:列表计算、以及,36_,0.05,9,483450.3281496002084950.3234.3711114.37.32320.521|xy

18、xxxyxxyyffLbLayb xyxlrl lrrrr回归方程为:( )显著性检验相关系数0.98回归方程有意义37000032452.2490.754.37.3234.370.32.7528.6()228.622.2424.12()228.622.2433.08()yyysNQxyxysys( )预报与控制首先计算现在可以来回答两个问题1)预测当腐蚀时间秒时的腐蚀深度由回归方程3801212950.7524.1233.082)102021022031.334.5yyxyxsxsxx故有的把握回答:秒的腐蚀深度范围为:若要求克现深度在之间,应将腐蚀时间控制在什么范围:解方程4.37+0.3

19、234.37+0.323得秒秒故知应将腐蚀时间控制在3234秒内3952 多元回归分析方法多元回归分析方法一、多元回归分析概述一、多元回归分析概述 上节讨论的只是两个变量的回归问题,其中因变上节讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但这只是最简单的情况,在量只与一个自变量相关。但这只是最简单的情况,在大多数的实际问题中,影响因变量的因素不是一个而大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。是多个,我们称这类回问题为多元回归分析。 我们这里着重讨论简单而又最一般的线性回归问我们这里着重讨论简单而又最一般的线性回归问题,这是因为许多非

20、线性的情形可以化为线性回归来题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。不过,应用计算全相同,但在计算上却要复杂得多。不过,应用计算机多元回归的计算量是很小的,一般的计算机都有多机多元回归的计算量是很小的,一般的计算机都有多元回归(以及逐步回归方法)的专门程序元回归(以及逐步回归方法)的专门程序。40121121121222212ijij01 112211101 12221.x ,xY(;,)(;,)(;,)xxjyYjkknnnknkky xxxy xxxyxxxbb

21、 xb xb xbb xb xk01 1kk112模型设因变量, ,x ,有关系;b +b x +b x + (7-24)其中 是随机项,现有几组数据:(其中是自变量 的第 个值; 是 的第 个观察值)假设: y y22201 1220112n, ,N01kknnkknnkb xbb xb xb xb bbn y其中是待估参数;而 ,相互独立且服从相同的标准正态分布 ( , ),( 未知)4112k12ktk22.Ykxxx,;),1,2 726yxxy727Q()ttttxxxytNyy101122kk01k01k最小二乘法与正规方程设影响因变量 的自变量共有 个, ,通过实验得到以下几组观

22、测数据( )根据这些数据,在 与之间欲配线性回归方程b +b x +b x +b x ( )用最小二乘法,选择参数b ,bb ,使离差平方和达最小,即使b ,bb )=2t011tkkt1yb +b x +b x 728NtNt=1( )最小 4201kQ0bQ0b 729Q0b729 1111221kk1y2112222kk2y由 数 学 分 析 中 求 极 小 值 原 理 得( )化 简 并 整 理 ( ) 可 得 下 列 方 程 组lb +lb +lb =llb +lb +lb =l11121k11y21222k22yk1k2kkky011 730730l 1 lll l ll (730

23、 l l llkbbbbyb x k11k22kkkky( )lb +lb +lb =l将 ( ) 写 成 矩 阵 形 势 为) 731kkb x( )43 11Nijjiitijtjt=1Nitjtt=11111 y=,n i=1,2,k l =l =xx xx i,j=1,2k1 =x x 730a NNiiitttNNitjttty xxnxxn其中-( )Niytt=1Nittt=111k l =,1,21 =x y 730bn730QbbbitiNNittttxxyyikxy01n01n01( )方程组( )称为正规方程解正规方程,可得使b ,bb 达最小参数b ,bb ,其中为常数

24、项,为回归系数44yy222113.lQ U (7-32)1NNttttyynNyytt=1多元线性回归方差分析与一元线性回归情形类似,对多元线性回归我们有平方和分解公式: 其中 l =y-y452121122UQUE Q/ (7-33)Q/rNttNNti iytiQyyUyybl i01it22tkkt11y22ykky而 y =b +b x +b x +b x t=1,2n还称 为回归平方和, 为剩余平方和。跟一元线性回归类似,我们有 b l +b l +b l具体计算时,用这个公式比较方便的。我们有 n-k-1实际上,可以证明服从自由2222221 Q/ SS (7-34)Snk度为的

25、分布记n-k-1式(733)表明是的无扁估计,实际中常用来表示。 Q/(n-k-1)又叫剩余标准差。4620.10.050.01FYkFF (7-35)F (k,n-k-1),F(k,n-k-1),F(k,n-k-1)735UkS12k可以利用 检验对整个回归进行显著性检验,即 与所考虑的 个自变量x ,xx 之间的线性关系究竟是否显著,检验方法与一元线性回归的检验相同。只是这里仅能对总回归作出检验U/k=Q/(n-k-1)检验的时候,分别查出临界值,并与( 0.010.050.010.10.050.1FFF(k,n-k-1),0.01F(k,n-k-1)FF(k,n-k-1)0.05F (k

26、,n-k-1)FF(k,n-k-1)FF (k,n-k-1)Yk)计算的 值比较。若认为回归高度显著或称在水平上显著。认为回归在水平上显著则称回归在0.01水平上显著。若,则回归不显著,此时 与这 个自变量的线性关系就不确切。47多元线性回归方差分析表变差来源自由度FitU/k均方总和kn-k-1n-1平方和回归剩余211NNti iytiUyybl21NtyytQyylU2Nyytt=1l =y -y2/U kS21QSnk484偏回归平方和与因素主次的差别偏回归平方和与因素主次的差别 前面讲的有关多元线性回归的内容,纯属一元情形的推广,前面讲的有关多元线性回归的内容,纯属一元情形的推广,只

27、是形式上复杂一些而已,而偏回归平方和与因素主次的差别则只是形式上复杂一些而已,而偏回归平方和与因素主次的差别则是多元回归问题所特有的。是多元回归问题所特有的。 先从判别因素的主次说起。在实际工作中先从判别因素的主次说起。在实际工作中,我们还关心我们还关心Y对对x1,x2,xk的线性回归中的线性回归中,哪些因素哪些因素(即自变量即自变量)更重要些更重要些,哪些不重要哪些不重要,怎栏来衡量某个特定因素(,怎栏来衡量某个特定因素(,)的影响呢)的影响呢?我们我们知道知道,回归平方和回归平方和U这个量这个量,刻划了全体自变量刻划了全体自变量x1,x2,xk对于对于Y总的总的线性影响线性影响,为了研究为

28、了研究xk的作用的作用,可以这样来考虑可以这样来考虑:从原来的个自变从原来的个自变量中扣除量中扣除xk ,我们知道这个自变量我们知道这个自变量x1,x2,x xk-1k-1对于对于Y的总的总的线性影响也是一个回归平方和的线性影响也是一个回归平方和,记作记作U U(k)(k);我们称;我们称 P Pk k=U-=U-U U(k) (k) 49 为为x1,x2,xk中中xk的偏回归平方和。这个偏回归平方和的偏回归平方和。这个偏回归平方和也可看作也可看作xk产生的作用产生的作用,类似地类似地,可定义为可定义为U U(i).(i). 一般地一般地,称称 P Pi i=U-U=U-U(i)(i) 为为x

29、1,x2,xk 中中i的偏回归平方和。用它来衡量的偏回归平方和。用它来衡量i在在Y对对x1,x2,xk的线性回归中的作用的大小。的线性回归中的作用的大小。50 12*jj*jjijijY,Ykbbb j i (7-37)bCijlCCkiijiiix xxxCbCk*k为了得出偏回归平方和的计算公式。我们首先在回归方程中取消某个自变量时,其他变量回归类系数的改变公式。设在 对的多元线性回归中,取消一个自变量 ,则 对剩下的 1自变量的回归系数 与原来的回归系数 之间有关系式中是回归正规方程系数矩阵,是的逆矩阵 的元素。在总回归中取消自变 iiijk*kxP (7-38)l2iiiii量 所引起

30、的回归平方和的减小,可以从上面回归系数的改变的公式中推出。在这里我们也仅给出结果而不详细,此数值为b=c其中c 是回归正规方程系数矩阵,的逆矩阵对角线上的第i个元素。51 从偏回归平方和的意义可以看出从偏回归平方和的意义可以看出,凡是对凡是对Y作用显著的因素作用显著的因素一般具有较大的一般具有较大的i值。值。i愈大愈大,该因素对该因素对Y的作用也就愈大的作用也就愈大,这样这样通过比较各个因素的通过比较各个因素的P值就可以大致看出各个因素对因素变量值就可以大致看出各个因素对因素变量作用的重要性。作用的重要性。在实用上在实用上,在计算了偏回归平方和后在计算了偏回归平方和后,对各因素对各因素的分析可

31、以按下面步骤进行的分析可以按下面步骤进行: 凡是偏回归平方和大的凡是偏回归平方和大的,也就是显著性的那些因素也就是显著性的那些因素,一定是对一定是对Y有重要影响有重要影响的因素。至于偏回归平方和大到什么程度才算显著的因素。至于偏回归平方和大到什么程度才算显著,要对它作检验要对它作检验,检验的检验的方法与本节中对总回归的检验法类似。方法与本节中对总回归的检验法类似。 为此为此,我们要先计算我们要先计算 222iiiiiPbFSC S52 其中其中S即是方差分析计算中的剩余方差即是方差分析计算中的剩余方差,F自由度为(,自由度为(,),于是在给定的显著性水平于是在给定的显著性水平,按前面的,按前面

32、的F检验法检验法,检验该因素的偏回检验该因素的偏回归平和的显著性。归平和的显著性。 凡是偏回归平方和小的凡是偏回归平方和小的,即不显著的变量即不显著的变量;则可肯定偏回归平方和最小的那则可肯定偏回归平方和最小的那个因素必然是在这些因素中对个因素必然是在这些因素中对Y作用最小的一个作用最小的一个,此时应该从回归方程中此时应该从回归方程中将变量剔除。剔除一个变量后将变量剔除。剔除一个变量后,各因素的偏回归平方和的大小一般的都会各因素的偏回归平方和的大小一般的都会有所改变有所改变,这时应该对它们重新作出检验。这时应该对它们重新作出检验。 另外需要说明一下就是另外需要说明一下就是,在通常情况下在通常情况下,各因素的偏回归平方和相加并各因素的偏回归平方和相加并不等于回归平方和。不等于回归平方和。 只有当正规方程的系数矩阵为对角型只有当正规方程的系数矩阵为对角型531122kk1122kk2111 0 l 0 l1 01C l10 lUUkkkkii iyi iiiiiiiilLlbb lb lPc时,由于此时它的逆矩阵为从而回归平方和为即等于所有因素的偏回归平方的和

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(回归分析方法课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|