1、第3章 SAS多重线性回归主要内容主要内容1.多重线性回归模型简介多重线性回归模型简介2.回归系数的估计回归系数的估计3.方程的假设检验方程的假设检验4.决定系数与剩余标准差决定系数与剩余标准差5.偏回归系数的假设检验偏回归系数的假设检验6.指标的量化指标的量化7.回归与回归与 t 检验、方差分析的关系检验、方差分析的关系8.标准偏回归系数与自变量的贡献标准偏回归系数与自变量的贡献例例3.1 某地某地13岁男童身高,体重,肺活量的实测数据岁男童身高,体重,肺活量的实测数据(部分)(部分)编号编号身高(身高(cm)x1体重(体重(kg)x2肺活量(肺活量(L)y1135.132.01.75316
2、3.646.22.755156.237.12.757167.841.52.759145.033.02.5011165.549.53.0013153.341.02.7515160.547.22.2517147.640.52.0019155.144.72.7521143.031.51.7523160.840.42.7525158.237.52.0027144.534.72.2529156.532.01.75问题:问题:o身高、体重身高、体重 与与 肺活量肺活量有无线性关系?有无线性关系?o用身高和体重用身高和体重预测预测肺活量有多高的肺活量有多高的精度精度?o单独用身高、或体重是否也能达到同样效果
3、?单独用身高、或体重是否也能达到同样效果?o身高的贡献大,还是体重的贡献大?身高的贡献大,还是体重的贡献大?3.1 多重线性回归模型简介多重线性回归模型简介o多重回归多重回归nmultiple regressionnmultiple linear regressiono因变量因变量n dependent variablen response variable(响应变量)(响应变量)o自变量自变量n independent variablen explanatory variable(解释变量)(解释变量)回归模型回归模型o因变量因变量y,自变量为自变量为x1,x2,xmoa为截距(为截距(in
4、tercept),又称常数项),又称常数项(constant),表示各自变量均为),表示各自变量均为0时时y的估的估计值计值obi 称为偏回归系数称为偏回归系数(partial regression coefficient),),简称为回归系数简称为回归系数o 称为称为 y 的估计值或预测值的估计值或预测值(predicted value)1221mmyaxb xxbby 例例3.1 o根据某地根据某地29名名13岁男童的身高岁男童的身高x1(cm),体),体重重x2(kg)和肺活量)和肺活量y(L)建立的回归方程)建立的回归方程为:为:2105406.0005017.05657.0 xxy
5、yo当当x1=150,x2=32时,时,=1.9168,表示对所有身高为表示对所有身高为150cm,体重为,体重为32kg的的13岁男童,估计平均肺活量为岁男童,估计平均肺活量为1.9168(L)o回归模型还可表示为:回归模型还可表示为:oe 称为残差(称为残差(residual)o多重线性回归需要满足:多重线性回归需要满足:o x 和和y之间的关系是线性的之间的关系是线性的oCov(ei,ej)=0;独立性;独立性oeN(0,2);正态性);正态性Var(ei)=2;方差齐性;方差齐性1221mmyyeaxb xb xebo用矩阵表示为:用矩阵表示为:Y=XB+E Y是应变量向量;是应变量向
6、量;X称为设计矩阵(称为设计矩阵(design matrix),),B是回归系数向量;是回归系数向量;E是残差向量是残差向量3.2 回归系数的估计回归系数的估计o最小二乘法(最小二乘法(least square,LS)o残差平方和(残差平方和(sum of squares for residuals)最小最小 nimminiiixbxbxbbyyyQ122211012 o回归系数的矩阵计算:回归系数的矩阵计算:B=(XX)-1 XYo高斯高斯-马尔科夫马尔科夫定理:最小二乘估计是方差定理:最小二乘估计是方差最小的线性无偏估计量(最小的线性无偏估计量(best linear unbiased e
7、stimate,BLUE)oR例例3.1 o建立的回归方程为:建立的回归方程为:2105406.0005017.05657.0 xxy o将每个男童的身高将每个男童的身高x1(cm),体重),体重x2(kg)代入方程就能获得代入方程就能获得 y 的估计值,以及的估计值,以及y和和y 的的估计值之差(残差)估计值之差(残差)表表3.2 估计值与残差估计值与残差 编号编号ye编号编号ye11.751.8420-0.092022.001.77960.220432.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381-0.138172
8、.752.51960.230481.501.8612-0.361292.501.94580.5542102.252.19040.0596113.002.94060.0594121.251.6037-0.3537132.752.41990.3301141.751.9268-0.1768152.252.7912-0.5412161.751.9318-0.1818172.002.3643-0.3643182.252.5653-0.3153192.752.62890.1211202.002.2668-0.2668211.751.8546-0.1046222.252.01650.2335232.752.
9、42510.3249242.502.31330.1867252.002.2552-0.2552261.752.1330-0.3830272.252.03510.2149282.502.34530.1547291.751.9494-0.1994y y 估计值与残差有下列性质:估计值与残差有下列性质:0)(11 niiniiieyy niiniiieyy1212)(3.3 方程的假设检验方程的假设检验o未引进回归时的总变异:未引进回归时的总变异:(sum of squares about the mean of Y)o引进回归以后的变异(剩余)引进回归以后的变异(剩余):(sum of squar
10、es about regression)o回归的贡献,回归平方和:回归的贡献,回归平方和:(sum of squares due to regression)2)(YY 2)(YY 2)(YY表表3.3 回归方程的方差分析表回归方程的方差分析表 QUmmn1变异来源变异来源SS自由度自由度MSF总总lyyn-1回归回归UmU/m剩余剩余Qn-m-1Q/(n-m-1)表表3.4 资料回归方程的方差分析资料回归方程的方差分析 变异来源变异来源SS自由度自由度MSFP总总5.6336206928回归回归3.0757339421.5378669715.63190.0000剩余剩余2.557886852
11、60.09838026H0:总体偏回归系数全为:总体偏回归系数全为0H1:总体偏回归系数不全为:总体偏回归系数不全为03.4 决定系数与剩余标准差决定系数与剩余标准差o决定系数(决定系数(determination coefficient)yyyylQlUR 12R2可用于检验多重回归方程的显著性:可用于检验多重回归方程的显著性:oH0:2=0;oH1:2 0。o检验统计量为:检验统计量为:)1,(2211 mnmFmmnRRF 复相关系数复相关系数R的性质的性质 o0R1。o当只有一个因变量当只有一个因变量y与一个自变量与一个自变量x时,时,R就等就等于于y与与x的简单相关系数之绝对值:的简
12、单相关系数之绝对值:R=|ryx|o当有多个自变量当有多个自变量x1,x2,xm时,时,R的值比的值比任何一个自变量与因变量的简单相关系数之任何一个自变量与因变量的简单相关系数之绝对值大,即:绝对值大,即:myxyxyxrrrR,max21 剩余标准差剩余标准差 o 剩余标准差剩余标准差 mxxxys21 111212 mnQmnyysniiimy剩余标准差的用途剩余标准差的用途o剩余标准差可用于偏回归系数的假设检验剩余标准差可用于偏回归系数的假设检验o y的容许区间估计的容许区间估计o y的可信区间估计的可信区间估计o自变量的选择等自变量的选择等 因此,剩余标准差在回归分析中是一个非常因此,
13、剩余标准差在回归分析中是一个非常重要的统计量重要的统计量3.5 偏回归系数的假设检验偏回归系数的假设检验oH0:i=0;oH1:i 0。)1(mnbiitsbti o 为偏回归系数的标准误:为偏回归系数的标准误:121ibymiisscCX XibsR的输出结果的输出结果Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)-0.565664 1.240127 -0.456 0.65208 x1 0.005017 0.010575 0.474 0.63920 x2 0.054061 0.015984 3.382 0.002283.6
14、 标准偏回归系数与自变量的贡献标准偏回归系数与自变量的贡献iiiiyyiiiylbblsbbs .reg y x1 x2,beta Source|SS df MS Number of obs=29-+-F(2,26)=15.63 Model|3.07573394 2 1.53786697 Prob F =0.0000 Residual|2.55788675 26 .098380259 R-squared =0.5460-+-Adj R-squared=0.5110 Total|5.63362069 28 .201200739 Root MSE =.31366-y|Coef.Std.Err.t
15、P|t|Beta-+-x1|.0050165 .0105754 0.47 0.639 .0935215 x2|.0540611 .0159838 3.38 0.002 .6668242 _cons|-.5656643 1.240127 -0.46 0.652 .-一元回归分析的结果一元回归分析的结果-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x1|.0315609 .0083471 3.78 0.001 .0144341 .0486878 _cons|-2.608541 1.275414 -2.05 0.051 -5.225474 .008393-y|Co
16、ef.Std.Err.t P|t|95%Conf.Interval-+-x2|.0596878 .0105587 5.65 0.000 .0380232 .0813524 _cons|-.0091673 .3961987 -0.02 0.982 -.8221 .8037653-为什么单变量分析时都有统计学意义,而同时放入为什么单变量分析时都有统计学意义,而同时放入方程则一个有统计学意义,另一个无统计学意义?方程则一个有统计学意义,另一个无统计学意义?自变量的作用自变量的作用X1 YX2自变量作用的分解自变量作用的分解 自变量自变量中间中间变量变量直接贡献直接贡献间接贡献间接贡献与与y的相关的相
17、关riy身高身高x1x2b1=0.09352b2r12=0.666820.7421=0.49480.5884体重体重x2x1b2=0.66682b1r12=0.093520.7421=0.06940.73623.8 指标的量化指标的量化 o性别性别 如果是男性如果是女性 10 xxbbY10 例例 t 检验与回归的关系检验与回归的关系正常人组正常人组II期矽肺组期矽肺组64.26 74.9742.84 88.0652.48 93.4748.19 95.1080.22100.6769.61101.1418.19113.5250.90正常人与矽肺患者血清粘蛋白合理(mg/100mg)资料重新整理资
18、料重新整理 y group 1.64.26 0 2.42.84 0 3.52.48 0 4.48.19 0 5.80.22 0 6.69.61 0 7.18.19 0 8.50.9 0 9.74.97 1 10.88.06 1 11.93.47 1 12.95.1 1 13.100.67 1 14.101.14 1 15.113.52 1 回归分析结果回归分析结果.reg y group Source|SS df MS Number of obs=15-+-F(1,13)=25.49 Model|6566.62918 1 6566.62918 Prob F =0.0002 Residual|3
19、349.50389 13 257.654145 R-squared =0.6622-+-Adj R-squared=0.6362 Total|9916.13307 14 708.29522 Root MSE =16.052-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-group|41.93946 8.307497 5.05 0.000 23.99221 59.88672 _cons|53.33625 5.675101 9.40 0.000 41.07594 65.59656-53.3362541.93946ygroup回归系数与各组均数的关系回归系数与各组均
20、数的关系53.3362541.939460 53.336251:53.3362541.9394695.27571ygroupgroupygroupy:指标的量化指标的量化 o血型(血型(A,B,AB,O)ox1=0,x2=0,x3=0 表示表示O型型ox1=1,x2=0,x3=0 表示表示A型型ox1=0,x2=1,x3=0 表示表示B型型ox1=0,x2=0,x3=1 表示表示AB型型哑变量(哑变量(dummy),又称指示变量(),又称指示变量(indicator variables)3322110 xbxbxbbY 方差分析与回归分析方差分析与回归分析正常人组正常人组I期矽肺组期矽肺组II
21、期矽肺组期矽肺组64.2665.46 74.9742.8460.63 88.0652.4869.73 93.4748.1974.97 95.1080.2280.44100.6769.6197.58101.1418.1995.20113.5250.9096.39血清粘蛋白合理(mg/100mg)资料整理资料整理正常人组正常人组I期矽肺组期矽肺组II期矽肺组期矽肺组64.26065.461 74.97242.84060.631 88.06252.48069.731 93.47248.19074.971 95.10280.22080.441100.67269.61097.581101.14218.1
22、9095.201113.52250.90096.391血清粘蛋白含量(mg/100mg)各组均数各组均数.tab group,sum(y)|Summary of y group|Mean Std.Dev.Freq.-+-0|53.336251 18.84327 8 1|80.050001 14.766198 8 2|95.275713 12.000153 7-+-Total|75.392174 23.069605 23指标的量化指标的量化 o组别(组别(0,1,2)x1=0,x2=0 表示表示0组(正常人)组(正常人)x1=1,x2=0 表示表示1组(矽肺组(矽肺I期)期)x1=0,x2=1
23、表示表示2组(矽肺组(矽肺II期)期)01122Ybb xb x回归分析的结果回归分析的结果-y|Coef.Std.Err.t P|t|95%Conf.Interval-+-x1|26.71375 7.806878 3.42 0.003 10.42889 42.99861 x2|41.93946 8.080887 5.19 0.000 25.08303 58.7959 _cons|53.33625 5.520297 9.66 0.000 41.82111 64.85139-系数与均数系数与均数53.33625 53.3362526.71375 10,20 53.3362541 93946 II
24、,11,20,10,21,xxYxxYxxY(正(正常常人人)(矽(矽肺肺I期I期)。(矽(矽肺肺期期)53.3362526.7137541.9394612Yxx3.9 衡量回归方程的标准衡量回归方程的标准 o复相关系数复相关系数R o校正复相关系数校正复相关系数Radj o剩余标准差剩余标准差o信息准则信息准则 AIC BIC总误差总回归SSSSSSSSR 12 总误差MSMSRpnnRadj 1111122pxxxys21 表表3.6 模拟数据模拟数据X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291
25、713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.6187231411.12813213425.52311292920.7199132918.72513414028.91210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.3351424
26、3429.81810113521.6例例3.2资料的一切可能回归(资料的一切可能回归(24-1=15个)个)2adjRpxxxys21 参数参数个数个数方程中变量方程中变量R2 Cp AIC2X10.365290.3441319.787412834.0097.45623X20.915120.912292.64619354.7433.07465X30.051890.0202929.557574247.00110.29764X40.586000.5722012.906691839.0083.782623X1,X20.920780.915322.55491331.2232.86640X1,X30.3
27、75960.3329220.125702788.0098.91384X1,X40.993390.992930.213283.82-46.59486X2,X30.916010.910212.70887352.7434.73893X2,X40.922130.916762.51133325.1232.31589X3,X40.609070.5821112.607801737.0083.948024X1,X2,X30.921230.912792.63099331.1734.68250X1,X2,X40.993810.993140.206893.93-46.69119X1,X3,X40.993600.99
28、2920.213694.85-45.65645X2,X3,X40.923480.915282.55590321.0333.755905X1,X2,X3,X40.994010.993130.207425.00-45.773773.10 逐步回归主要内容主要内容1 逐步回归逐步回归2 回归系数反常的原因回归系数反常的原因3 岭回归岭回归u前进法前进法(step-up,forward-entry procedure)u后退法后退法(step-down,backward-elimination procedure)u逐步向前法逐步向前法(forward stepwise)u逐步向后法逐步向后法(bac
29、kward stepwise)前进法的基本思想前进法的基本思想o选定一个标准选定一个标准o开始方程中没有自变量(常数项除外)开始方程中没有自变量(常数项除外)o按自变量对按自变量对y的贡献大小由大到小依次挑选进的贡献大小由大到小依次挑选进入方程入方程(假设检验的(假设检验的P值越小贡献越大)值越小贡献越大)o每选入一个变量进入方程,则重新计算方程外每选入一个变量进入方程,则重新计算方程外各自变量对各自变量对y的贡献的贡献o直到方程外变量均达不到入选标准,没有自变直到方程外变量均达不到入选标准,没有自变量可被引入方程为止量可被引入方程为止单因素回归分析结果单因素回归分析结果(1)方程中只含有一个
30、变量)方程中只含有一个变量方程方程变量变量回归系数回归系数标准误标准误SEtPx10.47929020.1153472 4.160.000 x22.5379590.141120117.980.000 x30.13814130.1077999 1.280.210 x40.48354820.0742047 6.520.000(2)x2已经在方程中,增加哪个变量好?已经在方程中,增加哪个变量好?方程方程变量变量回归系数回归系数标准误标准误SEtPx22.40056100.168342914.260.000 x10.07242910.0503187 1.440.161x22.52119200.1459
31、65017.270.000 x30.01845040.0333622 0.550.584x22.29246200.204895211.190.000 x40.07882890.0487840 1.620.117(3)x2,x4已经在方程中,增加哪个变量好?已经在方程中,增加哪个变量好?方程方程变量变量回归系数回归系数标准误标准误SEtPx20.18068770.1312330 1.380.179x40.46806770.025761418.170.000 x10.47420830.026344318.000.000 x22.26282000.210961310.730.000 x40.0816
32、7620.0493813 1.650.109x30.02286100.0325160 0.700.488(4)x2,x4,x1已经在方程中,是否增加已经在方程中,是否增加X3?方程方程变量变量回归系数回归系数标准误标准误SEtP(10)x20.17859820.1314174 1.360.185x40.46742740.025802718.120.000 x10.47206870.026470917.830.000 x30.00895980.0092956 0.960.344后退法的基本思想后退法的基本思想o选定一个标准选定一个标准o开始所有变量均在方程中开始所有变量均在方程中o按自变量对按自
33、变量对y的贡献大小由小到大依次剔除的贡献大小由小到大依次剔除变量变量o每剔除一个变量,则重新计算方程每剔除一个变量,则重新计算方程内内各自变各自变量对量对y的贡献的贡献o直到方程内变量均达到入选标准,没有自变直到方程内变量均达到入选标准,没有自变量可被剔除为止量可被剔除为止逐步向前法逐步向前法o区别于前进法区别于前进法每选入一个变量,都要对已在模型中的变量每选入一个变量,都要对已在模型中的变量进行检验,对低于剔除标准的变量要逐一剔进行检验,对低于剔除标准的变量要逐一剔除。然后再考虑选变量除。然后再考虑选变量逐步向后法逐步向后法o区别于后退法区别于后退法每剔除一个变量,都要对在模型每剔除一个变量
34、,都要对在模型外外的变量进的变量进行检验,对符合入组标准的变量要逐一选行检验,对符合入组标准的变量要逐一选入。然后再考虑剔变量入。然后再考虑剔变量方程的好坏与入选标准的关系方程的好坏与入选标准的关系o入选标准高(入选标准高(P值小)好?值小)好?o还是入选标准低(还是入选标准低(P值大)好?值大)好?方程的好坏与入选标准的关系方程的好坏与入选标准的关系o不一定!不一定!o多选几个标准!多选几个标准!o比较不同标准下所得结果比较不同标准下所得结果逐步回归的策略逐步回归的策略o先选择先选择P值较大(值较大(0.9),用逐步向前法剔选变),用逐步向前法剔选变量。看哪个变量先进入方程;每个变量进入量。
35、看哪个变量先进入方程;每个变量进入方程时的方程时的P值;哪个变量先进入方程后又被剔值;哪个变量先进入方程后又被剔除除o再选择再选择P值较小(值较小(0.001),用逐步向后法逐个),用逐步向后法逐个剔除变量。看哪个变量先被剔除方程剔除变量。看哪个变量先被剔除方程;每个变每个变量被剔除时的量被剔除时的P值值;哪个变量先被剔除后又被哪个变量先被剔除后又被选入选入o根据上述结果选择根据上述结果选择几个不同几个不同的界值,再用逐的界值,再用逐步向前法和逐步向后法分别观察变量进出方步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程能得到合理的解释程的情况。直至所得方程能得到合理的解释为止为止例
36、例3.5 22例胎儿及外形指标例胎儿及外形指标 NO.身长(身长(cm)头围(头围(cm)体重(体重(g)胎儿受胎儿受精龄(周)精龄(周)x1x2x3Y113.0 9.25013218.713.210214321.014.815015419.013.311016522.816.020017626.018.233018728.019.745019831.422.545020930.321.4550211029.220.564022例例3.5 22例胎儿及外形指标例胎儿及外形指标 NO.身长(身长(cm)头围(头围(cm)体重(体重(g)胎儿受胎儿受精龄(周)精龄(周)x1x2x3Y1136.22
37、5.2800231237.026.11090241337.927.21140251441.630.01500261538.227.11180271639.427.41320281739.227.61400291842.029.41600301943.030.01600312041.127.21400332143.031.02050352249.034.8250036例例3.4资料多重线性回归方程的最小二乘估计资料多重线性回归方程的最小二乘估计 自变量自变量系数系数标准误标准误tPX11.5951110.3712554.2970.0004X21.9967980.533245-3.7450.001
38、5X30.0072140.0011846.0930.0000常数项常数项10.7394281.7800316.0330.00003.11 回归系数反常的原因回归系数反常的原因 o数据中有数据中有离群值离群值或或异常异常数据数据 o自变量的观察范围太窄,或方差太小自变量的观察范围太窄,或方差太小 o样本含量不够,或自变量数太多样本含量不够,或自变量数太多 o自变量间存在复共线性自变量间存在复共线性(multicollinearity)复共线性(复共线性(multicollinearity)19470.09444.019975.01自变量间的高度相关自变量间的高度相关 复共线性对方程的影响复共线性
39、对方程的影响o回归系数的符号与实际不符回归系数的符号与实际不符 o回归系数的估计值与实际相差太大回归系数的估计值与实际相差太大 o回归系数的标准误太大;因而有些重要变量回归系数的标准误太大;因而有些重要变量选不进方程选不进方程 o整个方程有显著性,而每一个自变量均无显整个方程有显著性,而每一个自变量均无显著性著性 复共线性存在时的处理方法复共线性存在时的处理方法o逐步回归逐步回归o岭回归(岭回归(ridge regression)o主成分回归(主成分回归(principal component regression)oM估计(估计(M estimation)o特征根估计(特征根估计(Eigen
40、value estimation)损失部分信息,放弃部分精度,损失部分信息,放弃部分精度,寻求更贴近实际的回归模型寻求更贴近实际的回归模型0.00.20.40.60.81.0-15-10-5051015x$lambdat(x$coef)3.13 回归分析的正确应用回归分析的正确应用 o多重线性回归分析的应用条件:多重线性回归分析的应用条件:自变量与因变量的关系是线性的自变量与因变量的关系是线性的(Linear););Cov(ei,ej)=0,即独立性,即独立性(Independence););ei N(0,2),即正态性即正态性(Normality););Var(ei)=2,即方差齐性(即方差齐性(Equal variance););3.13 回归分析的正确应用回归分析的正确应用 o方程与变量的检验方程与变量的检验o样本含量样本含量o什么时候可能出现不合理的回归结果什么时候可能出现不合理的回归结果o存在共线性时:存在共线性时:o岭回归岭回归o主成分回归主成分回归o其他稳健回归(其他稳健回归(M估计,特征根估计)估计,特征根估计)