线性回归分析课件.ppt

上传人(卖家):晟晟文业 文档编号:4893001 上传时间:2023-01-22 格式:PPT 页数:44 大小:405KB
下载 相关 举报
线性回归分析课件.ppt_第1页
第1页 / 共44页
线性回归分析课件.ppt_第2页
第2页 / 共44页
线性回归分析课件.ppt_第3页
第3页 / 共44页
线性回归分析课件.ppt_第4页
第4页 / 共44页
线性回归分析课件.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、1一、一元线性回归一、一元线性回归二、一元线性回归方程二、一元线性回归方程三、回归关系的显著性检验三、回归关系的显著性检验四、置信区间四、置信区间五、多元线性回归五、多元线性回归六、回归诊断六、回归诊断第五章 线性回归分析2 l 生产实践中,常常能找到一个变量与另外一生产实践中,常常能找到一个变量与另外一个变量之间的关系:小麦的施肥量与产量、个变量之间的关系:小麦的施肥量与产量、水稻的株高和穗长、冬天的温度与来年病虫水稻的株高和穗长、冬天的温度与来年病虫害的发生程度等等。害的发生程度等等。l 回归分析就是找出合适的回归方程,从而用回归分析就是找出合适的回归方程,从而用一个变量来预测另一个变量。

2、一个变量来预测另一个变量。l 一元线性回归:最简单的回归关系,即一个一元线性回归:最简单的回归关系,即一个变量变量y在一个变量在一个变量x上的回归关系,称上的回归关系,称x为自变为自变量,量,y为因变量(或称响应变量、依赖变量)为因变量(或称响应变量、依赖变量)第一节 一元线性回归3l 如果两个变量如果两个变量x,y之间存在线性回归关系,之间存在线性回归关系,则有回归模型:则有回归模型:总体:总体:yi +xi+i a 称为回归截距称为回归截距 b 称为回归系数称为回归系数i 称为随机误差称为随机误差样本:样本:yi a+b xi+i回归方程:回归方程:a+b xy 第一节 一元线性回归4 l

3、 回归参数的计算回归参数的计算最小二乘法最小二乘法 期望拟合的线性回归方程与试验资料的误差期望拟合的线性回归方程与试验资料的误差最小,拟合的误差也称作离回归平方和或残最小,拟合的误差也称作离回归平方和或残差差,可以利用数学中求极值的方法解出,可以利用数学中求极值的方法解出 a 和和 b 而使得误差平方和为最小。而使得误差平方和为最小。2112)(iininiiibxayyyQ 误差平方和:误差平方和:第二节第二节 线性回归方程线性回归方程5l分别求Q 对a 和b 的偏导数,令其等于 0:0)(2)(2xbnaybxayaQ0)(2)(22xbxaxyxbxaybQl 整理得正规方程组:yxbn

4、axyxbxa22112)(iininiiibxayyyQ第二节第二节 线性回归方程线性回归方程6l 解正规方程组:)1(yxbna)2(2xyxbxal(3)式各项乘 :x)5(/)(2nyxnxbxal(1)式除以 n 得:(/)/(3)abx ny n(2)-(5)式得:nyxxynxxb/)(22即:)()(2yyxxxxb)4()/(/xbynxbnya 于是:于是:xxySSSPxxyyxxb/)(/)(2 线性回归方程便已求出为:bxay第二节第二节 线性回归方程线性回归方程7l 对此统计假设有两种检验方法:l 检验线性回归关系是否存在,就是检验建立回归模型的样本是否来自存在回归

5、关系的总体,即 H0:0 vs HA:0 l 只有在此检验结果为显著时,用 a 估计 ,用 b 估计 ,用 估计 y 才是有意义的。y F F 检验法检验法 和 t 检验法检验法注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方第三节 回归关系的显著性检验l 如果在模型 yi +xi+i 中,0,这就意味着不管 xi为什么值,yi 都不发生实质性变化;换言之,x和 y 之间没有显著的回归关系。81.F1.F检验法检验法l 利用下图说明F检验法的基本原理。y 当自变量为 ,对应的 因变量的实测值为 ,因变量的预测值为 。于是 的离均差 可分解为两个部分:xyy yy l 离

6、均差 l 随机误差l 回归引起的偏差yy yyyy)(yyyy)(yyxyyxy 第三节 回归关系的显著性检验9l 对数据资料所有点的求和得:l 对于任一个点有:)()()(yyyyyyl 两边平方得:222)()(2)()(yyyyyyyyyy222)()(2)()(yyyyyyyyyy)()(xxbybxxbybxay证明:证明:上式右边的中间项为0:)(bxxbyyyy)()()(xxbyyxxbyyyy)()(2xxbyyxxb)()(xxbyy即)()()(xxbyyyy即第三节 回归关系的显著性检验10222)()()(yyyyyy 误差平方和eQSS 回归平方和rUSS 的总平方

7、和yTSSy于是:的总平方和便分解为两个部分:y第三节 回归关系的显著性检验0)(xxxyxySSSSSPSPbyyyy对所有点求和得:11变异来源变异来源 自由度自由度 平方和平方和均方均方值值回归回归误差误差n-2UQ 总变异总变异n-1T05.0F01.0F2Us2es2Us2es检验结论:若检验结论:若F F0.05,则存在显著的线性回归关系。,则存在显著的线性回归关系。利用方差分析表利用方差分析表第三节 回归关系的显著性检验122 2.t t 检验法检验法其中回归系数其中回归系数其标准误其标准误:bsbt 2222ebxxyyQsnnsSSSSxx第三节 回归关系的显著性检验H0:0

8、 vs HA:0选择选择 t t 统计量统计量:b13研究光照强度与净光合强度的关系研究光照强度与净光合强度的关系光照光照强度强度X X净光合净光合强度强度Y Y 一级计算:一级计算:300700100015002200300040005000600070001402603003804104925806907408302230700482214367000027807641949200010 xyxyxyn实例:实例:14回归系数回归系数 b:094868.049431004688460 xxySSSPb回归截距回归截距 a:955.1903070094868.02.482xbya实例:实例:

9、15变异来源变异来源自由度自由度 平方和平方和均方均方值值回归回归误差误差84447841081044478413513295.3211.26总变异总变异945559505.0F01.0FF检验结论:回归关系达极显著,可得线性回归方程检验结论:回归关系达极显著,可得线性回归方程用光照强度估测净光合强度是合理的。用光照强度估测净光合强度是合理的。xy094868.0955.1901 1、F F检验法检验法实例:实例:P161P16116108102102494210000.005229ebxxQsnsSSSS实例:实例:P161P16114.18005229.0094868.0bsbt2 2、t

10、 t 检验检验170.050.010.012 10 282.3063.355|18.143.355edfntttt ,结论:回归关系极显著,可得线性回归方程结论:回归关系极显著,可得线性回归方程 用光照强度来预测净光合强度是合理的。用光照强度来预测净光合强度是合理的。实例:t 检验190.9550.094868yx18第四节节 预测值的置信区间预测值的置信区间ysty05.0211yexxxssnSS因此因此由由x预测预测y时,时,y 的的95%95%置信区间为:置信区间为:由由x预测预测y时,时,y有一定的误差,其标准误差为:有一定的误差,其标准误差为:19实例:由x预测y的预测区间67.3

11、84942100030702500101176.362ys第一步:计算当第一步:计算当x=2500=2500时,时,y 的点估计值:的点估计值:第二步:求第二步:求y的标准误差:的标准误差:125.4282500094868.0955.190y20实例:由X预测Y的预测区间95.33867.38036.2125.42805.0ysty0.05428.1252.036 38.67517.30yyts第三步:求第三步:求y的置信区间:的置信区间:第四步:结论第四步:结论有有9595的把握预测当树冠的光照强度为的把握预测当树冠的光照强度为25002500时,净光合作用的强度在时,净光合作用的强度在3

12、38.95338.95到到517.30517.30之间。之间。21第五节节 多元线性回归分析多元线性回归分析一、多元线性回归分析概述一、多元线性回归分析概述 上面讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类多自变量的回归问题为多元回归分析。这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。2201 122mmyxxx一、多元线性回归分析概述一、多元线性回归分析概述多元线性回归模型多元线性回归模型多元线

13、性回归方程多元线性回归方程mmxbxbxbby22110第五节节 多元线性回归分析多元线性回归分析式中式中0 0 1 1 2 2 m m 为(偏)回归系数为(偏)回归系数式中式中b b0 0 b b1 1 b b2 2 b bm m 为(偏)回归系数的估计值为(偏)回归系数的估计值23根据最小二乘法原理,根据最小二乘法原理,的估计值的估计值 应该使应该使)(mbi,1,2,0i),2,1,0(mii二、参数估计方法二、参数估计方法最小二乘准则最小二乘准则由求极值的必要条件得:由求极值的必要条件得:min)()(122211012nimimiiiniiixbxbxbbyyyQ),2,1(0)(2

14、0)(2110mjxyybQyybQnajiiijniii第五节节 多元线性回归分析多元线性回归分析24采用矩阵形式:采用矩阵形式:Y=XB+E二、参数估计方法二、参数估计方法最小二乘准则最小二乘准则解得:解得:nmnnmmmxxxxxxxxxxxxX213233122221112111111nyyyY21mbbbbB210YXXXB)(1第五节节 多元线性回归分析多元线性回归分析n210251 1、回归方程的假设检验、回归方程的假设检验三、假设检验三、假设检验原假设原假设 H H0 0:1 12 2 m0 0F F统计量为:统计量为:/(1)U mFQnm回归平方和:回归平方和:自由度:自由

15、度:m2)(yyUi误差平方和:误差平方和:自由度:自由度:n-m-12)(iiyyQ第五节节 多元线性回归分析多元线性回归分析262 2、回归系数的假设检验、回归系数的假设检验统计量为统计量为t t:ibiSbt 其中:其中:C C(i+1)(i+1)为矩阵为矩阵(XX)(XX)-1-1的的(i+1)(+1)(i+1)+1)元素元素 Q 为误差平方和为误差平方和,自由度:自由度:df=n-m-1-1)1)(1(iiybcSSi第五节节 多元线性回归分析多元线性回归分析原假设原假设 H H0 0 :i0 01 1)t t检验检验1mnQSy272 2、回归系数的假设检验、回归系数的假设检验统计

16、量为:统计量为:1/1/)1)(1(2mnQcbmnQUFiiii其中:其中:Ui 为为x xi对对y y的回归平方和,的回归平方和,Q 为误差平方和为误差平方和 C C(i+1)(i+1)为矩阵为矩阵(XX)(XX)-1-1的的(i+1)(+1)(i+1)+1)元素元素 自由度:自由度:df1 =1 df2=n-m-1第五节节 多元线性回归分析多元线性回归分析原假设原假设 H H0 0 :i0 02 2)F F检验检验28四、回归模型的选择四、回归模型的选择 由于自变量较多时,不是每一个自变量的回归由于自变量较多时,不是每一个自变量的回归关系都显著,对回归不显著的自变量不能简单的关系都显著,

17、对回归不显著的自变量不能简单的进行剔除。进行剔除。尤其时自变量之间存在严重的线性关系时,自尤其时自变量之间存在严重的线性关系时,自变量之间相互影响,很难对自变量的去留做出抉变量之间相互影响,很难对自变量的去留做出抉择。择。为了获得最优回归方程,就需要对自变量进行为了获得最优回归方程,就需要对自变量进行筛选。筛选。第五节节 多元线性回归分析多元线性回归分析29常用的自变量的筛选方法:常用的自变量的筛选方法:第五节节 多元线性回归分析多元线性回归分析1 1、向前引入法(、向前引入法(ForwardForward)按显著性程度,逐个将回归模型外自变量引入按显著性程度,逐个将回归模型外自变量引入回归模

18、型,直到没有显著的自变量引入为止。回归模型,直到没有显著的自变量引入为止。2 2、向后剔除法(、向后剔除法(BackwardBackward)对全回归模型中不显著的自变量依次剔除,直到对全回归模型中不显著的自变量依次剔除,直到回归模型中剩余自变量都显著为止。回归模型中剩余自变量都显著为止。3 3、逐步筛选法(、逐步筛选法(StepwiseStepwise)逐个引入最显著的自变量,同时对模型中不显逐个引入最显著的自变量,同时对模型中不显著的自变量进行剔除,直到没有引入和剔除为止。著的自变量进行剔除,直到没有引入和剔除为止。30五、回归模型的判别准则五、回归模型的判别准则1.R1.R2 2 决定系

19、数决定系数 Adj RAdj R2 2 矫正的决定系数矫正的决定系数 n为观测数,为观测数,p为含截距的参数个数,为含截距的参数个数,i为截距数为截距数 决定系数的值越大,越接近于决定系数的值越大,越接近于1 1模型拟合越好。模型拟合越好。第五节节 多元线性回归分析多元线性回归分析总平方和回归平方和TrSSSSR222_11niAdjRRnp 31五、回归模型的判别准则五、回归模型的判别准则2.PRESS 2.PRESS 统计量统计量预测残差平方和预测残差平方和 其中其中 ri 为残差,为残差,hi 为杠杆率为杠杆率 PERSS PERSS统计量用来比较不同方法所建立的回归模统计量用来比较不同

20、方法所建立的回归模型的优劣,型的优劣,PRESSPRESS的值越小,模型越好。的值越小,模型越好。21iihrPRESS1iiihXX XX第五节节 多元线性回归分析多元线性回归分析32五、回归模型的判别准则五、回归模型的判别准则3.Cp 3.Cp 统计量统计量 其中其中 k 为参数个数,为参数个数,n 为观测数为观测数 ESS(k)(k)为含为含k k个参数的误差平方和个参数的误差平方和 ESS(T)(T)为全回归的误差平方和为全回归的误差平方和 Cp Cp统计量的值越小,回归模型越好。统计量的值越小,回归模型越好。第五节节 多元线性回归分析多元线性回归分析nkmnTESSkESSCp)1(

21、2)1()()(33一、残差(一、残差(Residual)分析)分析残差:指实测值和预测值之间的差。残差:指实测值和预测值之间的差。iiiyyr)(iiirVarre 第六节节 回归诊断回归诊断标准化残差:标准化残差:学生化残差:学生化残差:)()1(iiiirVarhre学生化残差使残差具有优良的可比性学生化残差使残差具有优良的可比性34残差图:以观测值残差图:以观测值(x或或y)为横坐标,残差为纵坐标为横坐标,残差为纵坐标第六节节 回归诊断回归诊断35方差非齐性时,可用加权最小二乘法回归,或方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行适当的变换,如:者对因变量的数据进行适当

22、的变换,如:第六节节 回归诊断回归诊断),(),(),(0Y10lnY0YZYZYYZ观测值不独立时(共线性):观测值不独立时(共线性):说明自变量之间存在着一定的相关性。可能说明自变量之间存在着一定的相关性。可能遗漏了某些重要的自变量;可用逐步回归、遗漏了某些重要的自变量;可用逐步回归、偏最小二乘法回归或岭回归等进行分析。偏最小二乘法回归或岭回归等进行分析。36第六节节 回归诊断回归诊断异常点的识别:异常点的识别:1.杠杆率杠杆率hi 刻划第刻划第i各观测值到中心的远近。各观测值到中心的远近。2.一般把标准化残差的绝对值一般把标准化残差的绝对值2的点认为是的点认为是可疑点,绝对值可疑点,绝对

23、值3的点认为是异常点。考虑的点认为是异常点。考虑是否作为例外值加以剔除或做其它处理。是否作为例外值加以剔除或做其它处理。1iiiXXXXh杠杆率较大的数据点可以判别为可疑点。杠杆率较大的数据点可以判别为可疑点。37第六节节 回归诊断回归诊断二、贡献分析二、贡献分析贡献分析:从研究观测点对回归结果的影响入贡献分析:从研究观测点对回归结果的影响入手,找出对回归结果影响比较大的观测点。手,找出对回归结果影响比较大的观测点。若存在对回归结果影响比较大的观测点时,得若存在对回归结果影响比较大的观测点时,得到的回归模型无法保证其稳定性和应用效果。到的回归模型无法保证其稳定性和应用效果。我们希望每个观测点对

24、回归结果都产生一定的我们希望每个观测点对回归结果都产生一定的影响,个别观测的改变不会对回归模型产生较影响,个别观测的改变不会对回归模型产生较大的影响。大的影响。对强影响点的值进行复验,或增大样本容量。对强影响点的值进行复验,或增大样本容量。381)()()(1iiiiiixXXxsYYDFFITS1、DFFITS统计量统计量此统计量衡量一个观测排除与否对预测值的影响此统计量衡量一个观测排除与否对预测值的影响()()iiiYiYsi为剔除第 个观测后回归模型 的预测值为剔除第 个观测后回归模型的误差均方根第六节节 回归诊断回归诊断一般当一般当 时,时,该观测值应作为强影响点加以关注。该观测值应作

25、为强影响点加以关注。|2(1)/DFFITSknk(注:为自变量个数)392)()()1(iiiiiiskbbXXbbD2、Cooks D统计量统计量此统计量衡量一个观测排除与否对回归系数的影响此统计量衡量一个观测排除与否对回归系数的影响一般当一般当|Di|4/n 时,该观测值应作为强影响点时,该观测值应作为强影响点加以关注。加以关注。为回归模型的误差均方的估计值个观测后回归系数为剔除第2)(iisbib第六节节 回归诊断回归诊断40第六节节 回归诊断回归诊断三、共线性诊断三、共线性诊断共线性:拟合共线性:拟合多元线性回归多元线性回归时,自变量之间时,自变量之间存在线性或近似线性的关系。存在线

26、性或近似线性的关系。共线性存在时,可能会隐藏某些自变量的显共线性存在时,可能会隐藏某些自变量的显著性,增加拟合模型的方差,产生很不稳定著性,增加拟合模型的方差,产生很不稳定的回归模型。的回归模型。进行共线性诊断的方法是基于对自变量的观进行共线性诊断的方法是基于对自变量的观测数据构成的矩阵进行分析,常用的统计量测数据构成的矩阵进行分析,常用的统计量有:方差膨胀因子(容许度)和条件指数。有:方差膨胀因子(容许度)和条件指数。41211iiRVIF1、方差膨胀因子(、方差膨胀因子(VIF)VIF是指回归系数的估计量由于自变量的共是指回归系数的估计量由于自变量的共线性使得方差增加的一个相对度量。线性使

27、得方差增加的一个相对度量。一般若一般若VIF10表明存在很强的共线性。表明存在很强的共线性。容许度(容许度(Tol):Tol=1/VIF是自变量是自变量xi对模型中其余自变量线性回对模型中其余自变量线性回归模型的决定系数归模型的决定系数R22iR第六节节 回归诊断回归诊断42若矩阵若矩阵XX特征值为特征值为 ,则则d1/dj,j1,2,k 就称为条件指数就称为条件指数22221kddd2、条件指数、条件指数判别存在强共线性时,判别存在强共线性时,dj 对应的特征向量对应的特征向量的变量间存在近似线性关系,根据方差贡的变量间存在近似线性关系,根据方差贡献大于献大于0.5找出有共线性的变量集。找出

28、有共线性的变量集。条件指数在条件指数在1030间为弱相关;在间为弱相关;在30100间为中等相关;大于间为中等相关;大于100表明存在强相关。表明存在强相关。第六节节 回归诊断回归诊断43第七节节 注意事项注意事项1、线性回归分析要具有实践意义。、线性回归分析要具有实践意义。2、线性回归关系、线性回归关系不显著不显著,不意味着变量间,不意味着变量间没有关系,只说明变量间没有显著线性关没有关系,只说明变量间没有显著线性关系,而有可能存在曲线关系。系,而有可能存在曲线关系。3、线性回归关系、线性回归关系显著显著,不一定变量间关系,不一定变量间关系就是线性的,不排斥有更好的曲线关系。就是线性的,不排斥有更好的曲线关系。4、回归关系显著,回归区间不能任意外推。、回归关系显著,回归区间不能任意外推。5、样本容量要尽可能大,才能保证回归的准、样本容量要尽可能大,才能保证回归的准确性。确性。44

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(线性回归分析课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|