多重线性回归分析-课件.ppt

上传人(卖家):晟晟文业 文档编号:4669050 上传时间:2022-12-31 格式:PPT 页数:98 大小:364.12KB
下载 相关 举报
多重线性回归分析-课件.ppt_第1页
第1页 / 共98页
多重线性回归分析-课件.ppt_第2页
第2页 / 共98页
多重线性回归分析-课件.ppt_第3页
第3页 / 共98页
多重线性回归分析-课件.ppt_第4页
第4页 / 共98页
多重线性回归分析-课件.ppt_第5页
第5页 / 共98页
点击查看更多>>
资源描述

1、多重线性回归分析多重线性回归分析军事医学科学院军事医学科学院统计学教研室统计学教研室高高 辉辉2内内 容容 基本原理基本原理 方法简介方法简介 分析步骤分析步骤 几点补充几点补充3一、方法简介一、方法简介 1.1 分析目的与方法选择分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时研究一个因变量与一个自变量间的线性关系时 简单线性回归分析简单线性回归分析 研究一个因变量与多个自变量间的线性关系时研究一个因变量与多个自变量间的线性关系时 多重线性回归分析多重线性回归分析 研究多个因变量与多个自变量间的线性关系时研究多个因变量与多个自变量间的线性关系时 多元多重线性回归分析多元多重线性回

2、归分析4一、方法简介一、方法简介 1.2 概念概念 用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系,称为多重线性回归分,称为多重线性回归分析(析(multiple linear regression analysis)。)。自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。一、方法简介一、方法简介 1.3 数据结构数据结构 表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构5编号编号X1X2XkY1X11X12X1kY12X21X22X2kY2:nXn1Xn2Xnk

3、Yn6二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型:多重线性回归模型:Y=b b0+b b1X1+b b2X2+b bkXk+e e=b bX+e e 其中,其中,b bj(j=0,1,2 ,k)为未知参数,为未知参数,e e为随机为随机误差项。误差项。7二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型中包含多个自变量,它们多重线性回归模型中包含多个自变量,它们同时对因变量同时对因变量Y 发生作用。发生作用。若要考察一个自变量对若要考察一个自变量对Y 的影响,就必须假的影响,就必须假设其他自变量保持不变。设其他自变量保持不变。8二、基本原理二、基本原

4、理 2.1 原理简介原理简介 因此,多重线性回归模型中的回归系数为因此,多重线性回归模型中的回归系数为偏偏回归系数回归系数。它反映的是当模型中的它反映的是当模型中的其他自变量不变时其他自变量不变时,其中其中一个自变量对因变量一个自变量对因变量Y 的均值的影响的均值的影响。9二、基本原理二、基本原理 2.2 前提条件前提条件 多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性、独立性(Independence)、正态性、正态性(Normality)和方差齐性和方差齐性(Equal variance),即,即LINE条件条件。除此之外,还要求多个自变量之间相关

5、性不除此之外,还要求多个自变量之间相关性不要太强。要太强。10二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正 态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方 差相等差相等 11三、分析步骤三、分析步骤 1.基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值,对模型和参数进行假设检验;行假设检验;对自变量进行共

6、线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常值诊断;常值诊断;结合统计学知识和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。12三、分析步骤三、分析步骤 2.具体步骤具体步骤 2.1 回归参数估计回归参数估计 多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。进行。参数估计值为:参数估计值为:-1X XX Yb=13三、分析步骤三、分析步骤 2.具体步骤具体步骤 2.2 模型检验模型检验 根据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均

7、差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。SS总总的自由度为的自由度为n-1,SS回回的自由度为的自由度为k,SS残残的自由度为的自由度为n-k-1。14三、分析步骤三、分析步骤 2.具体步骤具体步骤 2.2 模型检验模型检验 222SSyySSyySSyy=总回残15三、分析步骤三、分析步骤 2.具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第一步,建立检验假设。第一步,建立检验假设。H0:b b1=b b2=b bk=0H1:b b1,b b2,b bk不同时为不同时为016三、分析

8、步骤三、分析步骤 2.具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第二步,计算统计量第二步,计算统计量F的值。的值。,1/1k n kSSkFFSSnk=回残17三、分析步骤三、分析步骤 2.具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则接受,则接受H0,认为回归模型的系,认为回归模型的系数全部为数全部为0;若;若P ta a/2(n

9、-k-1)或或t-ta a/2(n-k-1),则,则P FModel 61985.79167330.9652854.99|t|Intercept1-83.1803616.97446-4.90l l2 l lk。63三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 最大特征根与其余每个特征根比值的平方根,最大特征根与其余每个特征根比值的平方根,称为条件指数称为条件指数(conditional number),公式为:,公式为:1=2,3,iiCNikll=64三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 而最大条件指数,简称为条件数

10、,其值为最而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:大特征根与最小特征根之比值的平方根。即:1=kkCNll65三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 条件数越大,说明设计矩阵条件数越大,说明设计矩阵X具有越强的共具有越强的共线性。线性。经验上,若经验上,若0CNk30,则认,则认为自变量间存在严重的多重共线性。为自变量间存在严重的多重共线性。66三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.2 方差分量方差分量 SAS软件在给出条件数的同时,还会给出每软件在给出条件数的同时,还会给出每个主成分变量分得

11、的方差,即方差分量,个主成分变量分得的方差,即方差分量,SAS输输出结果时的标志是出结果时的标志是“Var Prop”。67三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.2 方差分量方差分量 若条件数若条件数(即最大条件指数即最大条件指数)大于大于10,且所在,且所在行同时有两个以上的变量方差分量超过行同时有两个以上的变量方差分量超过0.5,就意,就意味着这些变量间存在一定程度的相关。味着这些变量间存在一定程度的相关。68三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(1)变量筛选变量筛选 采用自变量筛选的方法一般可选出对因变

12、量采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一有统计学影响且相互之间独立或相关性较低的一组自变量。组自变量。69三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(2)有偏估计有偏估计 自变量间存在多重共线性且专业上认为需要自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。此时,可采用有偏估计。此类方法包括岭回归分析、主成分回归分析此类方法包括岭回归分析、主成分回归分析等。等。70三、分析步骤三、分析步骤 2.6

13、共线性诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(3)增大样本含量增大样本含量 通过增加样本含量,减少估计量的方差,提通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。高估计精度,可在一定程度上克服多重共线性。71三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断 2.7.1 异常点异常点 对因变量的预测值影响特别大,甚至容易导对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。致相反结论的观测点,称为异常点。异常点的诊断,可采用学生化残差统计量、异常点的诊断,可采用学生化残差统计量、Cooks D统计量。统计量。72三、分析

14、步骤三、分析步骤 2.7 异常点诊断异常点诊断2.7.2 学生化残差统计量学生化残差统计量 Studentized residual,计算公式为:,计算公式为:该统计量的该统计量的绝对值大于绝对值大于2时,所对应的观测点时,所对应的观测点可能是异常点。可能是异常点。iiiiieyySe eSe e=73三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断2.7.3 Cooks D统计量统计量 库克距离统计量。库克距离统计量。一般认为,一般认为,Cooks D0.5时,可认为此观测时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点对回归模型的拟合有强影响,即可认为是异常点。点。74三

15、、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断 2.7.4 异常点的处置异常点的处置 认真核对原始数据。若属抄写或输入等人为认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。点,重新拟合回归模型。如有可能,最好在此实验点上补做实验,进如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。一步确定此可疑异常点是否属实。75三、分析步骤三、分析步骤 2.8 自变量作用大小评价自变量作用大小评价 由于自变量由于自变量量纲不同量纲不同,不能直接根据原始数,不能直接根据原始数据计算得来的偏回

16、归系数来评价各自变量对因变据计算得来的偏回归系数来评价各自变量对因变量的影响大小。量的影响大小。也不能依据也不能依据P 值来判断自变量对因变量的影值来判断自变量对因变量的影响大小。因为响大小。因为P 值的大小,不表示自变量的影响值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。强弱,仅表示认为它有影响的可能性有多大。76三、分析步骤三、分析步骤 2.8 自变量作用大小评价自变量作用大小评价 先对原始数据进行标准化变换,然后再计算先对原始数据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回偏回归系数,此时的偏回归系数称为标准化偏回归系数。归系数。标准化偏回归

17、系数值越大,说明该自变量对标准化偏回归系数值越大,说明该自变量对因变量的影响越大因变量的影响越大。77三、分析步骤三、分析步骤 例例1 为推算少年儿童心脏面积,重庆医科大为推算少年儿童心脏面积,重庆医科大学对学对33名名8岁正常男童进行观测,获得身高岁正常男童进行观测,获得身高(x1,cm)、体重体重(x2,cm)、心脏横径、心脏横径(x3,cm)、心脏纵径、心脏纵径(x4,cm)、心脏宽径、心脏宽径(x5,cm)、胸腔横径、胸腔横径(x6,cm)及心及心脏面积脏面积(y,cm2)的值,结果如表的值,结果如表2。78三、分析步骤三、分析步骤表表2 33名名8岁正常男童的观测数据岁正常男童的观测

18、数据idx1x2x3x4x5x6y1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73:25126.0025.009.1010.207.7020.9049.09:33124.5024.009.509.907.8020.8057.0079三、分析步骤三、分析步骤 SAS程序如下程序如下data a;input id x1-x6 y;cards;1 120.50 20.50 8.33 8.80 7.20 18.40 48.28 2 133.50

19、27.50 9.60 10.30 8.10 21.60 66.89 3 121.50 21.00 8.80 9.70 8.00 19.80 54.73 ;run;proc reg;model y=x1-x6/selection=stepwise sle=0.3 sls=0.05 r ;run;排除标准残差分析纳入标准逐步回归法80三、分析步骤三、分析步骤SAS结果结果 逐步回归过程摘要逐步回归过程摘要 Summary of Stepwise SelectionStepVariableEnteredVariableRemovedNumberVars InPartialR-SquareModelR

20、-SquareC(p)F ValuePr F1x4 10.85820.858221.4690187.64 FIntercept-58.481996.52360478.6106080.37|t|Intercept1-58.862434.37621-13.45.0001x31 2.315710.88998 2.600.0146x41 6.014020.94290 6.38.0001x51 4.637370.87766 5.28|t|StandardizedEstimateIntercept1-58.862434.37621-13.45.00010 x31 2.315710.88998 2.600.

21、01460.20224x41 6.014020.94290 6.38.00010.54398x51 4.637370.87766 5.28.00010.3014287三、分析步骤三、分析步骤SAS结果结果 模型拟合效果模型拟合效果Root MSE 1.63690R-Square0.9639Dependent Mean57.08438Adj R-Sq0.9601Coeff Var 2.86751 88三、分析步骤三、分析步骤SAS结果结果 未校正截距项的共线性诊断结果未校正截距项的共线性诊断结果(截距项无意义截距项无意义)Collinearity DiagnosticsNumberEigenva

22、lueConditionIndexProportion of VariationInterceptx3x4x513.994311.000000.000273330.000080030.000060160.0001151920.0036133.243110.844940.062320.032070.0023530.0014752.210310.154370.187760.015040.8915740.0006111680.843090.000417130.749840.952830.1059689三、分析步骤三、分析步骤SAS结果结果 校正截距项的共线性诊断结果校正截距项的共线性诊断结果(截距项

23、有意义截距项有意义)Collinearity Diagnostics(intercept adjusted)NumberEigenvalueConditionIndexProportion of Variationx3x4x512.587641.000000.027960.024210.0469220.303462.920120.179800.041890.8768430.108904.874570.792240.933900.0762490三、分析步骤三、分析步骤 结论:结论:结合以上结果,可知:自变量结合以上结果,可知:自变量X3、X4、X5对对因变量的影响有统计学意义。所得模型为:因变量

24、的影响有统计学意义。所得模型为:Y=-58.86+2.32X3+6.01X4+4.64X5 根据标准化偏回归系数的大小可知:根据标准化偏回归系数的大小可知:X4(0.54)对因变量的影响最大,)对因变量的影响最大,X5(0.30)次之,)次之,X3(0.20)最小。)最小。91三、分析步骤三、分析步骤 结论:结论:即心脏横径、心脏纵径和心脏宽径对心脏面即心脏横径、心脏纵径和心脏宽径对心脏面积的影响有影响,最终模型的决定系数为积的影响有影响,最终模型的决定系数为0.96,说明由这三者估计心脏面积有较大的实用价值。说明由这三者估计心脏面积有较大的实用价值。92四、几点补充四、几点补充 4.1 哑变

25、量哑变量 多重线性回归分析中,多重线性回归分析中,自变量为多值名义变自变量为多值名义变量时,需对其进行哑变量变换。量时,需对其进行哑变量变换。每个哑变量都是一个二值变量,所需哑变量每个哑变量都是一个二值变量,所需哑变量的数目为多值名义变量的类别数减的数目为多值名义变量的类别数减1。如。如“血型血型”是一个多值名义变量,有是一个多值名义变量,有A、B、AB、O四种,若四种,若以以O型血为基准,需引入型血为基准,需引入3个(个(4-1=3)哑变量来)哑变量来描述。描述。93四、几点补充四、几点补充 4.1 哑变量哑变量 令:令:1230A=1A0B=1B0AB=1ABXXX非型型非 型型非型型94

26、四、几点补充四、几点补充 4.1 哑变量哑变量 则可得到下面的对应关系:则可得到下面的对应关系:表表3 3 用用3 3个哑变量描述血型变量个哑变量描述血型变量血型血型哑变量哑变量X1X2X3A100B010AB001O00095四、几点补充四、几点补充 4.2 常见应用错误常见应用错误 4.2.1 建立模型时,不筛选自变量建立模型时,不筛选自变量 在建立多重线性回归模型时,在建立多重线性回归模型时,不考虑各自变不考虑各自变量对因变量的影响是否有统计学意义,不采用任量对因变量的影响是否有统计学意义,不采用任何变量筛选方法,直接将所有变量都保存在模型何变量筛选方法,直接将所有变量都保存在模型中。中

27、。96四、几点补充四、几点补充 4.2 常见应用错误常见应用错误 4.2.2 以单因素分析方法取代多因素分析方法以单因素分析方法取代多因素分析方法 先以各自变量分别与因变量做简单相关分析先以各自变量分别与因变量做简单相关分析或简单回归分析。然后对简单相关系数或简单回或简单回归分析。然后对简单相关系数或简单回归系数进行假设检验,归系数进行假设检验,P0.05的自变量予以保留,的自变量予以保留,其他予以踢除。其他予以踢除。最后,将保留下来的自变量与因变量一起进最后,将保留下来的自变量与因变量一起进行多重线性回归分析。行多重线性回归分析。97总结总结 何时使用多重线性回归分析?何时使用多重线性回归分析?如何进行自变量筛选?如何进行自变量筛选?如何进行共线性诊断?如何进行共线性诊断?如何进行异常点检测?如何进行异常点检测?如何评价自变量的影响大小?如何评价自变量的影响大小?常见的应用错误有哪些?常见的应用错误有哪些?谢谢!谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(多重线性回归分析-课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|