1、1第六章第六章 线性回归分析线性回归分析 在许多实际问题中,经常会遇到需要同时考在许多实际问题中,经常会遇到需要同时考虑几个变量的情况,例如,在电路中会遇到电压、虑几个变量的情况,例如,在电路中会遇到电压、电流及电阻的关系,在炼钢过程中会遇到钢水中电流及电阻的关系,在炼钢过程中会遇到钢水中的碳含量与钢材的物理性能(如强度、延伸率等)的碳含量与钢材的物理性能(如强度、延伸率等)之间的关系,医学上经常测量人的身高、体重,之间的关系,医学上经常测量人的身高、体重,研究人的血压与年龄的关系,在制定销售策略时研究人的血压与年龄的关系,在制定销售策略时会考虑商品的单价与销售量之间的关系等等会考虑商品的单价
2、与销售量之间的关系等等2 在微积分中,我们曾提到变量之间的三种关在微积分中,我们曾提到变量之间的三种关系:系:无关无关、相关相关及及函数关系函数关系如电路中会遇到电如电路中会遇到电压、电流及电阻的关系是一种由欧姆定律所描述压、电流及电阻的关系是一种由欧姆定律所描述的确定性的函数关系而人的身高与体重、血压的确定性的函数关系而人的身高与体重、血压与年龄的关系则属于相关的关系,也就是说,这与年龄的关系则属于相关的关系,也就是说,这些变量相互间有制约关系但又不是确定性的关些变量相互间有制约关系但又不是确定性的关系本章则主要利用回归分析的手段,研究这后系本章则主要利用回归分析的手段,研究这后一种变量之间
3、相关关系的统计规律性一种变量之间相关关系的统计规律性3 在回归分析中,把变量分为两类,一类在回归分析中,把变量分为两类,一类是因变量,它们通常是实际问题中所关心是因变量,它们通常是实际问题中所关心的一些指标,通常用的一些指标,通常用Y表示,而影响因变量表示,而影响因变量取值的另一类变量则称为自变量,又称为取值的另一类变量则称为自变量,又称为解释变量,通常用解释变量,通常用X1,X2,Xp表表示示46-1 一元线性回归一元线性回归6-1-1 直线回归的概念直线回归的概念 首先看一个例子首先看一个例子 例例1 这是研究标准混合肥量与马铃薯产量的这是研究标准混合肥量与马铃薯产量的效应的实例将硫酸铵、
4、磷酸钙与硫酸钾按效应的实例将硫酸铵、磷酸钙与硫酸钾按1:3:1的比例组成混合肥料,分别按每英亩的比例组成混合肥料,分别按每英亩0,4,8,与与12英担(英担(1英担为英担为112磅)给标号为磅)给标号为1,2,3,4的四块地施肥,由于自然变异,在给定的肥料量的四块地施肥,由于自然变异,在给定的肥料量下,马铃薯的产量将因地而异结果是,下,马铃薯的产量将因地而异结果是,1号的号的地的产量是地的产量是8.34吨吨/英亩,英亩,2号地的产量是号地的产量是8.89吨吨/英亩,英亩,3号地的产量是号地的产量是9.16吨吨/英亩,英亩,4号地的产量号地的产量是是9.50吨吨/英亩英亩 5首先绘制单位施肥量首
5、先绘制单位施肥量X与单位产量与单位产量Y的数据散点图的数据散点图 X=c(0,4,8,12);Y=c(8.34,8.89,9.16,9.50)plot(X,Y)0246810128.48.68.89.09.29.4XY6 显然,产量是随着肥料量的增加呈现上升趋显然,产量是随着肥料量的增加呈现上升趋势,并近于直线,从而可认为势,并近于直线,从而可认为Y与与X之间的关系基之间的关系基本上是线性的,但并非本上是线性的,但并非4个点恰好全都在一条件个点恰好全都在一条件直线上,这与两变量之间的严格对应的函数关系直线上,这与两变量之间的严格对应的函数关系不同,称之为不同,称之为直线回归直线回归可作一条直线
6、,使得这可作一条直线,使得这4点到该直线的垂直偏离(称之为残差)的积累点到该直线的垂直偏离(称之为残差)的积累最小,称该直线为最小,称该直线为回归直线回归直线7 为区别于一般的直线方程,称该直线的为区别于一般的直线方程,称该直线的方程为直线回归方程记之为方程为直线回归方程记之为 式中的式中的0与与1是决定直线的两个系数,是决定直线的两个系数,0是是回归直线在回归直线在Y轴上的截距,轴上的截距,1称为回归系数,称为回归系数,即直线的斜率即直线的斜率.XY108 10,表明,表明Y值随着值随着X的增大而增大,的增大而增大,1 x=c(0,4,8,12);y=c(8.34,8.89,9.16,9.5
7、0)lm.sol summary(lm.sol)这里这里summary()的功能是将的功能是将lm()的计算的计算结果提取到显示终端结果提取到显示终端 14 显示如下:显示如下:Call:lm(formula=y 1+x)Residuals:1 2 3 4 -7.000e-02 1.050e-01 1.735e-17-3.500e-02 Coefficients:Estimate Std.Error t valuePr(|t|)(Intercept)8.41000 0.07748 108.5508.49e-05*X0.09375 0.01035 9.055 0.0120*-Signif.cod
8、es:0*0.001*0.01*0.05.0.1 1 Residual standard error:0.0926 on 2 degrees of freedom Multiple R-Squared:0.9762,Adjusted R-squared:0.9643 F-statistic:82 on 1 and 2 DF,p-value:0.01198 15 显示共有四个部分显示共有四个部分第一部分(第一部分(Call)列出了相应的回归模型公式,其)列出了相应的回归模型公式,其模型公式模型公式y 1+x表示回归方程是表示回归方程是第二部分(第二部分(Residuals)列出了)列出了4对数据
9、各自的残差对数据各自的残差即即(i=1,2,3,4)16第三部分(第三部分(Coefficients)中,)中,Estimate表示回归方表示回归方程中系数程中系数0与与1的估计值,在该例中的估计值,在该例中0=8.41000,1=0.09375,Std.Error表示回归系数的标准差,表示回归系数的标准差,t value为为t值,值,Pr(|t|)表示回归系数假设检验双尾表示回归系数假设检验双尾概率,右面跟的就是星号属于显著性标记,三个概率,右面跟的就是星号属于显著性标记,三个星号表明极其显著,二个星号说明高度显著,一星号表明极其显著,二个星号说明高度显著,一个星号说明显著,点号说明不太显著
10、个星号说明显著,点号说明不太显著第四部分中,第四部分中,Residual standard error表示残差的标表示残差的标准差,准差,Multiple R-Squared表示相关系数的平方,表示相关系数的平方,计算结果的最后一行是对回归方程作计算结果的最后一行是对回归方程作F检验的概检验的概率率17 从结果来看,例从结果来看,例1的回归方程通过了回的回归方程通过了回归系数的假设检验与回归方程的检验,由归系数的假设检验与回归方程的检验,由此得到回归方程是此得到回归方程是XY09375.041.818 例例2 现调查了生产某种产品的个同类企业的月现调查了生产某种产品的个同类企业的月产量与生产成
11、本的统计资料如下:产量与生产成本的统计资料如下:试作回归分析试作回归分析企业企业12345678月产量月产量(千吨)(千吨)1.22.03.13.85.06.17.28.0生产成本生产成本(万元)(万元)62868011011513213516019 x=c(1.2,2.0,3.1,3.8,5.0,6.1,7.2,8.0)y=c(62,86,80,110,115,132,135,160)lm.sol summary(lm.sol)20 结果输出结果输出 Call:lm(formula=y 1+x)Residuals:Min 1Q Median 3Q Max -11.301 -5.892 0.6
12、04 6.353 9.672 Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)51.323 6.755 7.598 0.000271*x 12.896 1.326 9.723 6.8e-05*-Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error:8.587 on 6 degrees of freedom Multiple R-Squared:0.9403,Adjusted R-squared:0.9304 F-statistic:94.55 on 1 and
13、 6 DF,p-value:6.795e-05 21 从结果来看,回归方程是从结果来看,回归方程是 并且通过了回归系数的假设检验与回归方并且通过了回归系数的假设检验与回归方程的检验其中程的检验其中51.323相当于固定成本,相当于固定成本,12.896相当于边际成本相当于边际成本 XY896.12323.51226-1-3 线性预测与控制线性预测与控制 线性回归的主要应用,是由相应的线性回归的主要应用,是由相应的X信息预报信息预报Y,即测得一个新的即测得一个新的X的值后,预报该总体中新的的值后,预报该总体中新的Y的的值,确切地说,是根据已有的值,确切地说,是根据已有的X的值,得到的值,得到Y期
14、望期望值的点估计值,也可得到值的点估计值,也可得到Y期望值的区间估计期望值的区间估计 23 R软件中用于线性预测的命令函数是软件中用于线性预测的命令函数是predict(),其使用格式如下:其使用格式如下:predict(object,newdata=data.frame,level=0.95)其中,其中,object是由是由lm构成的对象,构成的对象,newdata是是预测点的数据,它必须由数据框的形式输入,预测点的数据,它必须由数据框的形式输入,level用于输入置信度,默认是用于输入置信度,默认是95%,返回,返回Y期望期望值与区间估计值与区间估计 24 例如在例例如在例1中,若标准混合
15、肥料的施肥量是中,若标准混合肥料的施肥量是10英担,则预测马铃薯单位产量如下:英担,则预测马铃薯单位产量如下:X=c(0,4,8,12);Y=c(8.34,8.89,9.16,9.50)lm.sol new lm.pred-predict(lm.sol,new,interval=prediction,level=0.95);lm.pred 命令命令“new x=c(194.5,194.3,197.9,198.4,199.4,199.9,200.9,201.1,201.4,201.3,203.6,204.6,209.5,208.6,210.7,211.9,212.2)y=c(20.79,20.7
16、9,22.4,22.67,23.15,23.35,23.89,23.99,24.02,24.01,25.14,26.57,28.49,27.76,29.04,29.88,30.06)32 作散点图,如图下图作散点图,如图下图.plot(x,y)33 对对x与与y,线性回归分析如下:,线性回归分析如下:lm.sol|t|)(Intercept)-81.06373 2.05182 -39.51 2e-16*x 0.52289 0.01011 51.74 2e-16*-Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error:0.232
17、8 on 15 degrees of freedomMultiple R-Squared:0.9944,Adjusted R-squared:0.9941 F-statistic:2677 on 1 and 15 DF,p-value:abline(lm.sol1)输出如图输出如图37 观察可知,第观察可知,第12个数据点(个数据点(204.6,26.57)残差较大,该样本点的数据采集可能存在残差较大,该样本点的数据采集可能存在问题,剔除这一点,重新作回归分析如下:问题,剔除这一点,重新作回归分析如下:x=c(194.5,194.3,197.9,198.4,199.4,199.9,200.9,
18、201.1,201.4,201.3,203.6,209.5,208.6,210.7,211.9,212.2)y=c(20.79,20.79,22.4,22.67,23.15,23.35,23.89,23.99,24.02,24.01,25.14,28.49,27.76,29.04,29.88,30.06)lm.sol|t|)(Intercept)-80.667294 1.419984 -56.81 2e-16*x 0.520738 0.006997 74.42 2e-16*-Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error
19、:0.1608 on 14 degrees of freedomMultiple R-Squared:0.9975,Adjusted R-squared:0.9973 F-statistic:5538 on 1 and 14 DF,p-value:x1=c(76.0,91.5,85.5,82.5,79.0,80.5,74.5,79.0,85.0,76.5,82.0,95.0,92.5)x2=c(50,20,20,30,30,50,60,50,40,55,40,40,20)y=c(120,141,124,126,117,125,123,125,132,123,132,155,147)lm.sol
20、|t|)(Intercept)-62.96336 16.99976 -3.704 0.004083*x1 2.13656 0.17534 12.185 2.53e-07*x2 0.40022 0.08321 4.810 0.000713*-Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error:2.854 on 10 degrees of freedomMultiple R-Squared:0.9461,Adjusted R-squared:0.9354 F-statistic:87.84 on 2 and 10 DF,p-va
21、lue:4.531e-0748 结果表明,多元线性回归方程是结果表明,多元线性回归方程是 该方程通过了回归系数的假设检验与回归该方程通过了回归系数的假设检验与回归方程的检验方程的检验2140022.013656.296336.62xxy496-2-2 多元线性预测多元线性预测 当多元线性回归方程经过假设检验是显当多元线性回归方程经过假设检验是显著的,且每一个回归系数均具有统计意义著的,且每一个回归系数均具有统计意义时,可用此方程作线性预测,包括因变量时,可用此方程作线性预测,包括因变量的期望值预测与置信区间的预测的期望值预测与置信区间的预测50 例例2 在例在例1中,经过回归分析,我们得中,经
22、过回归分析,我们得到了多元线性回归方程,并且该方程通过到了多元线性回归方程,并且该方程通过了回归系数的假设检验与回归方程的检验,了回归系数的假设检验与回归方程的检验,那么与一元线性回归分析过程中的预测一那么与一元线性回归分析过程中的预测一样,也可通过命令样,也可通过命令predict(),求得,求得X=(75,40)时收缩压的点估计值及期望值区间估)时收缩压的点估计值及期望值区间估计计R操作如下:操作如下:new lm.pred-predict(lm.sol,new,interval=prediction,level=0.95);lm.pred 51软件输出软件输出 fit lwr upr1,113.2871 106.0412 120.5331 结果显示,因变量的估计值是结果显示,因变量的估计值是113.2871,95%的期的期望值区间估计是望值区间估计是106.0412,120.5331