1、第十五章第十五章 多元线性回归分析多元线性回归分析(Multiple Linear Regression)Multiple linear regression Choice of independent variable Application 讲述内容讲述内容第一节第一节 多元线性回归多元线性回归第二节第二节 自变量选择方法自变量选择方法第三节第三节 多元线性回归的应用多元线性回归的应用 及其注意事项及其注意事项目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常
2、是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。第一节第一节 多元线性回归多元线性回归 变量:变量:应变量应变量 1 个,自变量个,自变量m 个,共个,共 m+1 个。个。样本含量:样本含量:n 数据格式见表数据格式见表15-1 回归模型一般形式:回归模型一般形式:eXXXYmm22110一、多元线性回归模型一、多元线性回归模型例 号 X1 X2 Xm Y 1 X11 X12 X1m Y1 2 X21 X22 X2m Y2 n Xn1 Xn2 Xnm Yn 表15-1 多元回归分析数据格式 条
3、件条件(1)Y与mXXX,21之间具有线性关系。(2)各例观测值),2,1(niYi相互独立。(3)残差 e 服从均数为 0、方差为2的正态分布,它等价于对任意一组自变量mXXX,21值,应变量 Y 具有相同方差,并且服从正态分布。一般步骤一般步骤(1)求偏回归系数mbbbb,210 mmXbXbXbbY22110建立回归方程(2)检验并评价回归方程检验并评价回归方程及各自变量的作用大小及各自变量的作用大小 二、多元线性回归方程的建立 例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。
4、总胆固醇 甘油三脂 胰岛素 糖化血 血糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)序号 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1 9 3.85 2.11 16
5、.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9
6、.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 表15-2 27名糖尿病人的血糖及有关变量的测量结果 2221102)()(mmXbXbXbbYYYQmYmmmmmYmmYmmlblblbllblblbllblblbl2211222221211
7、1212111)(22110mmXbXbXbYb求偏导数()(),j=1,2,m()(),1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjmn43216382027060351501424094335X.X.X.X.Y原 理最小二乘法三、假设检验及其评价 012:0mH,1:jH各(j=1,2,m)不全为 0,0.05 1.方差分析法方差分析法:残回总SSSSSS残回残回(MSMSmnSSmSSF)1/(一)对回归方程)1(mn,mFF变异来源 自由度 SS MS F P 总变异 n-1 SS总 回 归 m SS回 SS回/m MS回/MS残 残 差 n-
8、m-1 SS残 SS残/(n-m-1)表15-4 例15-1的方差分析表 变异来源 自由度 SS MS F P 总变异 26 222.5519 回 归 4 133.7107 33.4277 8.28 0.01 残 差 22 88.8412 4.0382 表15-3 多元线性回归方差分析表查 F 界值表得31.4)22,4(01.0F,31.4F,01.0P,在05.0水平上拒绝 H0,接受 H1认为所建回归方程具有统计学意义。(0.05)(0.05)102 R,说明自变量mXXX,21能够解释Y变化的百分比,其值愈接近于 1,说明模型对数据的拟合程度愈好。本例 6008.05519.22271
9、07.1332R 表明血糖含量变异的 60%可由总胆固醇、甘油三脂、胰岛素和糖化血红蛋白的变化来解释。21SSSSRSSSS回残总总2.决定系数决定系数R 2:3.复相关系数复相关系数 可用来度量应变量 Y 与多个自变量间的线性相关程度,亦即观察值Y与估计值Y之间的相关程度。计算公式:2RR,本例7751060080.R 若m=1自变量,则有|r|R,r为简单相关系数。(二)对各自变量 指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。含义 回归方程中某一自变量jX的偏回归平方和表示模型中含有其它 m-1 个自变量的条件下该自变量对 Y的回归贡献,相当于从回归方程中剔除jX后
10、所引起的回归平方和的减少量,或在 m-1个自变量的基础上新增加jX引起的回归平方和的增加量。1.偏回归平方和)(jXSS回表示偏回归平方和,其值愈大说明相应的自变量愈重要。()/1/(1)jjSSXFSSnm回残一般情况下,m-1 个自变量对 Y 的回归平方和由重新建立的新方程得到,而不是简单地把jjXb从有 m 个自变量的方程中剔出后算得。12 1,1nm平方和(变异)回归方程中 包含的自变量 SS回 SS残 4321X,X,X,X 133.7107 88.8412 432X,X,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113
11、.6472 108.9047 321XX,X 105.9168 116.6351 表表15-5 对例对例15-1数据作回归分析的部分中间结果数据作回归分析的部分中间结果 各自变量的偏回归平方和可以通过拟合包含不同各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表自变量的回归方程计算得到,表15-515-5给出了例给出了例15-115-1数数据分析的部分中间结果。据分析的部分中间结果。11234234()(,)(,)133.7107-133.0978=0.6129SSXSSXXXXSSX XX回回回 21234134()(,)(,)133.7107-121.748011.96
12、27SSXSSXXXXSSX XX回回回 31234124()(,)(,)133.7107-113.647220.0635SSXSSXXXXSSX XX回回回 41234123()(,)(,)133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152.0)1427(/8412.881/6129.01F,962.2)1427/(8412.881/9627.112F 968.4)1427/(8412.881/0635.203F ,883.6)1427/(8412.881/7939.274F 结结果果2.t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公
13、式为jbjjSbt检验假设:H0:0j,jt服从自由度为1mn的 t 分布。如果12mn,/jt|t|,则在(0.05)水平上拒绝 H0,接受 H1,说明jX与Y有线性回归关系。jb为偏回归系数的估计值,jbS是jb的标准误。390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 结结 果果结结 论论0742222050.t,/.,074.2|34 tt,P值 均 小 于0.05,说 明3b和4b有 统 计 学 意义,而1b和2b则 没 有 统 计 学 意 义。3标准化回归系数 变量标准化是将原始数据减去相
14、应变量的均数,然后再除以该变量的标准差。()jjjjXXXS 计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。YjjYYjjjjSSbllbb注意:注意:一般回归系数一般回归系数有单位,用来解释各自有单位,用来解释各自变量对应变量的影响,表示在其它自变量保变量对应变量的影响,表示在其它自变量保持不变时,持不变时,增加或减少一个单位时增加或减少一个单位时Y Y的平的平均变化量均变化量 。不能用各。不能用各 来比较各来比较各 对对 的影响大小。的影响大小。标准化回归系数标准化回归系数无单位,用来比较各无单位,用来比较各自变量对应变量的影响大小,自变量对应变量的影响大小,越大
15、,越大,对对 的影响越大。的影响越大。jXjbjXYjbjXY11.5934S,22.5748S,33.6706S,41.8234S,2.9257YS 0776.09257.25934.11424.01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 结结论论结果显示,对血糖影响大小的顺序依次为糖化血红蛋白)(4X、胰岛素)(3X、甘油三脂)(2X和总胆固醇)(1X。第二节 自变量选择方法 目的目的:使得预报和(或)解释效果好一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立 的回归
16、方程进行比较 择优。选择方法:1校正决定系数2cR选择法,其计算公式为 总残MSMSpnnRRc111)1(122 n 为样本含量,2R为包含)(mpp个自变量的回归方程的决定系数。2cR的变化规律是:当2R相同时,自变量个数越多2cR越小。所谓“最优”回归方程是指2cR最大者。2.pC选择法 )1(2)()(pnMSSSCmpp残残 pSS)(残是由)(mpp个自变量作回归 的误差平方和,mMS)(残是从全部 m 个自 变量的回归模型中得到的残差均方。当由 p 个自变量拟合的方程理论上为最优时,pC的期望值是 p+1,因此应选择pC最接近 p+1 的回归方程为最优方程。如果全部自变量中没有包
17、含对 Y有主要作用的变量,则不宜用pC方法选择自变量。例15-2 用全局择优法对例15-1数据的自变量进行选择。方 程 中 的 自 变 量 2cR pC 方 程 中 的 自 变 量 2cR pC X2,X3,X4 0.546 3.15 X2,X3 0.408 9.14 X1,X2,X3,X4 0.528 5.00 X1,X3 0.375 10.78 X1,X3,X4 0.488 5.96 X4 0.347 11.63 X1,X2,X4 0.447 7.97 X1 0.284 14.92 X1,X4 0.441 7.42 X1,X2 0.275 15.89 X2,X4 0.440 7.51 X3
18、 0.231 17.77 X3,X4 0.435 7.72 X2 0.179 20.53 X1,X2,X3 0.408 9.88 m=4,故回归方程拟合数为4212115m 。最优组合均为X2,X3,X4,即由甘油三脂、胰岛素和糖化血红蛋白与血糖建立的回归方程最优。二、逐步选择法1.1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。2.后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程
19、中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。检验水准检验水准的设置:小样本定为的设置:小样本定为 0.10 或或 0.15,大样本定大样本定为为 0.05。值定得越小表示选取自变量的标准越严,被选入的自值定得越小表示选取自变量的标准越严,被选入的自变量个数相对也较少;反之,变量个数相对也较少;反之,值定得越大表示选取自变量值定得越大表示选取自变量的标准越宽,被选入的自变量个数也就相对较多。的标准越宽,被选入的自变量个数也就相对较多。注意:选入自变量的检验水准注意:选入自变量的检验水
20、准入要小于或等于剔除自变要小于或等于剔除自变量的检验水准量的检验水准出。例 15-3 试用逐步回归方法分析例 15-1 数据(100.入,15.0出)。步 骤 (l)引 入 变 量 剔 除 变 量 变 量 个 数p 2R()()lSSXj回()lSS残 F值 P值 1 X4 1 0.372 82.714 139.837 14.788 0.0007 2 X1 2 0.484 25.076 114.762 5.244 0.0311 3 X3 3 0.547 13.958 100.804 3.185 0.0875 4 X2 4 0.601 11.963 88.841 2.962 0.0993 5 X
21、1 3 0.598 0.613 88.841 0.152 0.7006 表15-7 逐步回归过程 变异来源 自由度 SS MS F P 总变异 26 222.5519 回 归 3 133.098 44.366 11.41 0.0001 残 差 23 89.454 3.889 表15-8 例15-3方差分析表“最优”回归方程为4326632.02871.04023.04996.6XXXY 结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。表15-9 例15-3的回归系数的估计及检验结果 变 量 回归 系
22、数b 标准误 bS 标准回 归系数b t 值 P值 常数项 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.4133 2.880 0.0084 第三节 多元线性回归的应用及注意事项 一、多元线性回归的应用1.影响因素分析 例如影响例如影响高血压的因素高血压的因素可能有可能有年龄年龄、饮饮食习惯食习惯、吸烟状况、吸烟状况、工作紧张度工作紧张度和和家族史家族史等,在影响高血压的众多可疑因素中,需等,在影响
23、高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较要研究哪些因素有影响,哪些因素影响较大。大。在临床试验中,则可能由于种种原因难以在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在保证各组的指标基线相同,如在年龄年龄、病病情情等指标不一致出现混杂的情况下,如何等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。对不同的治疗方法进行比较等。这些问题都可以利用这些问题都可以利用回归分析回归分析来处理。来处理。控制混杂因素控制混杂因素(confounding factor)的一个的一个简单办法就是将其引入回归方程中,简单办法就是将其引入回归方程中,与其与其他主要变
24、量一起进行分析他主要变量一起进行分析 2.估计与预测 如由儿童的如由儿童的心脏横径心脏横径、心脏纵径心脏纵径和和心脏宽心脏宽径径估计估计心脏的表面积心脏的表面积;由胎儿的;由胎儿的孕龄孕龄、头头颈颈、胸径胸径和和腹径腹径预测预测出生儿出生儿体重体重等。等。3.统计控制 逆估计。例如采用射频治疗仪治疗脑肿瘤,脑例如采用射频治疗仪治疗脑肿瘤,脑皮质的皮质的毁损半径毁损半径与与射频温度射频温度及及照射时间照射时间有有线性回归关系,建立回归方程后可以按预线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。射频温度和照射时间。二
25、、多元线性回归应用的注意事项二、多元线性回归应用的注意事项(1)定量,非线性 线性(2)定性,转为定量:(0,1)变量,哑变量,伪变量,指示变量。1指标的数量化指标的数量化 分2类,可用一个(0,1)变量。如性别0 1 X男女 分k类,k-1个(0,1)变量,如血型。血型 X1 X2 X3 O 0 0 0 A 1 0 0 B 0 1 0 AB 0 0 1 编号 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 数据格式回归方程 建立回归方程建立回归方程 0112233Ybb Xb Xb Xb1:相当相当A 型相对于型相对于O 型的差别型的差别b2:相当:相当
26、B 型相对于型相对于O 型的差别型的差别b3:相当:相当AB 型相对于型相对于O 型的差别型的差别 (3)等级 定量。一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。1 1 2 3 X小学中学大学 4 大学以上 011Ybb X解释:b(b1)反映X(X1)增加1个单位,增加b个单位(如:500元)。表示中学文化较小学收入多500,大学较中学多500,余类推。,3,2,1X,2,1,0XYb1,b2,b3分别反映中学、大学、大学以上相对于小分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小学文化程度者经济收入差别的大小也可将K
27、个等级转换为K-1个(0,1)变量 2样本含量:n=(510)m。3关于逐步回归:对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 选入的变量是 ,而不是 ,结果发生了改变。不同回归方程适应于不同用途,依专业知识定。05.0入10.0出41,XX4321,XXXX 4.多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,
28、从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。如对表 15-2数据的分析,已经选出甘油三酯)(2X、胰岛素)(3X和糖化血红蛋白)(4X三个变量,在方程中加入43XX项,如果这一乘积项显著,则说明胰岛素和糖化血红蛋白之间有交互作用。为此需要定义一个新的变量43XXZ,按方程 ZbXbXbXbbYZ4433220 估计参数。若经检验,拒绝0H:0z,便可认为除3X和4X的主效应外还有交互作用。本例结果为 ZXXXY1785.05097.12267.13690.07898.0432 经检验Z的作用显著(P 0.01),说明糖尿病患者体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。