《实用统计方法》课件shyt4.ppt

上传人(卖家):momomo 文档编号:5715962 上传时间:2023-05-05 格式:PPT 页数:96 大小:1.31MB
下载 相关 举报
《实用统计方法》课件shyt4.ppt_第1页
第1页 / 共96页
《实用统计方法》课件shyt4.ppt_第2页
第2页 / 共96页
《实用统计方法》课件shyt4.ppt_第3页
第3页 / 共96页
《实用统计方法》课件shyt4.ppt_第4页
第4页 / 共96页
《实用统计方法》课件shyt4.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

1、1实用统计方法实用统计方法第四章 回归与回归诊断2第四章第四章 回归与回归诊断回归与回归诊断 回归分析是处理多个变量间相关关系的回归分析是处理多个变量间相关关系的一种数学方法一种数学方法.变量间的关系有两种类型变量间的关系有两种类型:确定性的函数确定性的函数关系和相关关系关系和相关关系.回归分析方法是处理变回归分析方法是处理变量间相关关系的有力工具量间相关关系的有力工具.回归分析用于确定一个连续变量回归分析用于确定一个连续变量(因变量因变量)与另一些连续变量与另一些连续变量(自变量自变量)间的相互依赖间的相互依赖关系关系.3第四章第四章 回归与回归诊断回归与回归诊断 例例1(1(用电量的例子用

2、电量的例子)房主对空调器在他家电量消耗方面的影响是很关 注的,因此他记录了21天中每天空 调器使用的小时数。他还监测了这些天的电表并计算出使用的千瓦小时(度)数。同时还记录了烘干器每天使用的次数(数据见表4.1)。试建立每天用电量KWH与空调器使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。例例2(2(发动机性能例子发动机性能例子)表4.2的数据是一组检验某种工业用的发动机性能试验的数据。该试验使用的原料是柴油和从有机原料中通过蒸馏产生的气体的混合物。在各种不同的转速SPEED(用每分钟转几百转度量)下,测量发动机产生的马力POWER,试建立马力POWER与转速SPEED的关系式。

3、4第四章第四章 回归与回归诊断回归与回归诊断 例例3(3(水泥数据水泥数据)某种水泥在凝固时放出的热量Y(卡/克)与水泥中下列四种化学成份有关:x1-3CaO.Al2O3的成份(%);x2-3CaO.SiO2的成份(%);x3-4CaO.Al2O3.Fe2O3的成份(%);x4-2CaO.SiO2的成份(%)。共观测了13组数据(见表4.3),试求出Y与x1,x2,x3,x4的关系式。5第四章第四章 回归与回归诊断回归与回归诊断 在以上这些例子中都是研究一个(或几个)因变量Y与另一些变量的相互依赖关系。具体地说,我们研究以下几方面问题:我们研究以下几方面问题:建立因变量Y与x1,x2,xm的经

4、验公式(回归方程);对经验公式的可信度进行检验;判断每个自变量xi(i=1,m)对Y的影响是否显著?利用经验公式进行预报和控制,指导生产;诊断经验公式是否适合这组数据。6第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-散点图及变量的相关关系中学生身高与体重数据的散点图中学生身高与体重数据的散点图(用INSIGHT绘制.红色为男 生,兰色为女生.不同符号表示不同的年龄):7第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-散点图及变量的相关关系 散点图是直观地观察连续变化变量间相依关系的重要工具。利用SAS的菜单系统或编程可绘制Y与X的散点图。Insight:Ana

5、lyze=Scatter plot(Y X)或 Multivariate(Ys)编程:proc plot;plot y*x;run;Analyst:Graphs =Scatter plot 或:proc gplot;plot y*x;run;8第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关关系的类型3.4.1.2.用直线描述用直线描述用曲线描述用曲线描述可能有周期变化可能有周期变化无明显关系无明显关系9第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关系数系数(Correlation Coef.)线性联系是描述变量间联系中最简单和最常用的一种(Y=a1x

6、1+b)相关系数是描述两个变量间线性联系程度的统计指标 相关系数的计算公式:rXXYYXXYYiiii()()()()2210第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关系数系数(Correlation Coef.)零 相 关正正 相相 关关负负 相相 关关正相关:一个变量数值增加时另一个变量也增加负相关:一个变量数值增加时另一个变量减少11第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关系数的计算(用相关系数的计算(用SAS/INSIGHT)计算相关系数及绘制加上计算相关系数及绘制加上置信椭圆的散点图置信椭圆的散点图:(1)Analyze =Mul

7、tivariate(Ys)窗口=选中数值变 量作为y和x变量 按 Output纽 选Corr或者 在多变量分析窗口中,由菜单条选 Tables Corr(2)在散点图上加置信椭圆识别相关大小:在多变量分析窗口中,由菜单条选 Curves=Scatter Plot Conf.Ellipse Prediction:=90%或 =mean:=80%12第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关系数的计算(用相关系数的计算(用CORRCORR过程)过程)PROC CORR DATA=数据集名;RUN;PROC CORR DATA=数据集名;var 变量名列;with 变量名列

8、;partial 变量名列;by 变量名列;RUN;13第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关与回归相关与回归 强相关并不表示存在因果关系强相关并不表示存在因果关系 弱相关并不表示变量间不存在关系 个别极端数据可能影响相关系数曲曲 线线 关关 系系 -3-2-1012345678910111213-2-101234567891 0111 21 3YX有 极 端 数 据 下 的 相 关14第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-相关与回归相关与回归 相关分析量化连续型变量之间线性相关的相关分析量化连续型变量之间线性相关的强度强度 回归分析确定

9、一个连续变量与另一些连续回归分析确定一个连续变量与另一些连续变量间的相互依赖关系变量间的相互依赖关系 一元回归一元回归(Regression)分析描述一个因变分析描述一个因变量量Y与一个自变量与一个自变量X之间统计联系的关系之间统计联系的关系式式,Y=f(x),并用于解释和预测。并用于解释和预测。一元线性回归讨论一元线性回归讨论f(x)是是X的线性函数时的线性函数时的回归问题。的回归问题。15第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-简单线性回归模型简单线性回归模型 Yi=b0+b1xi+e i i=1,2,.,n Yi:因变量的第 i 次观测值 xi:自变量的第 i 次

10、观测值 b0,b1:待估计的未知参数 e i:随机误差(ERROR,相互独立,正 态分布,零均值,同方差)16第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-简单线性回归模型简单线性回归模型自变量(X)因变量(Y)17第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-简单线性回归模型简单线性回归模型自变量(X)因变量(Y)18第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-线性回归的拟合线性回归的拟合(最小二乘法估计最小二乘法估计LSE)使 达到最小值的点为b0,b1。称称 b0,b1 是参数的最小二乘乘估计(LSE)。称称Q为残差平方和。为残差平

11、方和。19第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-回归的方差分解回归的方差分解 SSSSSS()()()C-TotalModelError+20第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-一元线性回归的假设检验原假设原假设:简单线性回归模型拟合数据不比基线 模型好H0:b b1=0,r=0,|b1|小,SS(Model)小备选假设备选假设:简单线性回归模型拟合数据比基线 模型好H1:b b1不等于不等于 0,r不等于0,|b1|不为零,SS(Model)大基线模型:Yi =+ei 21 第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-

12、回归统计量回归统计量(R2,修正修正R2和和 PRESS)(预测残差平方和)m22第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-回归统计量回归统计量(预测值与置信限预测值与置信限)23第四章第四章 4.0 4.0 一元线性回归分析一元线性回归分析-一元线一元线性回归的计算性回归的计算()Analyst:Statistics=Regression =Simple.()PROC REG DATA=数据集名;MODEL 因变量=自变量;RUN;()SAS/INSIGHT:Analyze=)SAS/INSIGHT:Analyze=Fit(Y X)=指定指定Y和和 X变量变量(4)GL

13、M过程24第四章第四章 4.04.0 一元线性回归分析一元线性回归分析 一元线性回归的计算(一元线性回归的计算(SAS/INSIGHT)()散点图:Analyze Scatter Plot(Y X)()拟合:Analyze Fit(Y X)=指定和 变量=浏览结果()Noint:强制截距为零()计算预测值:在数据表底部自变量栏键入数据,即得到相应的预测值;()计算回归均值和预测值的置信区间:Curves=Cofidence Curves =mean:=95%或 Predction:=90%25第四章第四章 4.04.0 一元线性回归分析一元线性回归分析 一元线性回归的计算(一元线性回归的计算(

14、过程)过程)PROC REG DATA=数据集名;MODEL 因变量=自变量;RUN;PROC REG DATA=数据集名;MODEL 因变量=自变量名列/p cli clm noprint noint;id=变量名;output out=数据集名数据集名 关键统计量名关键统计量名=输出名输出名;RUN;26第四章第四章 4.04.0 一元线性回归分析一元线性回归分析 一元线性回归的计算(一元线性回归的计算(例子例子)proc reg data=kilowatt;model kwh=ac;title KWH与AC的一元回归模型;run;proc reg data=engine graphics

15、;model power=speed;plot power*speed/conf95 pred95;symbol v=star;output out=outfit p=ppo r=rpo l95=l95po u95=u95po;run;27第四章第四章 4.1 4.1 多元线性回归分析-多元线性回归模型多元线性回归模型 多元线性回归模型可同时研究 Y 与多个自变量(独立变量)x1,x2,.,xm 间的关系;对多元回归模型进行解释和选择最优要比单变量的模型复杂;多元线性回归分析对于解释分析因变量与自变量的关系、预测因变量等方面是一个有用的工具。一些变量间的非线性关系也可归为多元线性回归模型(例如

16、多项式关系)。28第四章第四章 4.1 4.1 多元线性回归分析-多元线性回归模型及多元线性回归模型及参数估计参数估计多元线性回归模型:mYi=b0+b1xi1+.+bmxim+ei,i=1,.,nei:相互独立、正态分布、同方差、零均值用最小二乘准则估计b0,b1,.,bm,使得:通过求解b0,b1,.,bm 的一个线性方程组(正规方程)可得参数的估计b0 b1 b2 bm.mim29第四章第四章 4.1 4.1 多元线性回归分析-最小二乘法和平方和分解最小二乘法和平方和分解 多元线性回归模型(用矩阵向量的符号):多元线性回归模型(用矩阵向量的符号):Y=Xb b+e e b b 的最小二的

17、最小二乘估计乘估计b b 为为 b b =(X X)-1X Y 预测向量为预测向量为 Y=X b30第四章第四章 4.1 4.1 多元线性回归分析-最小二乘法和平方和分解最小二乘法和平方和分解31第四章第四章 4.1 4.1 多元线性回归分析回归方程的显著性检验回归方程的显著性检验 求得回归方程后,此方程是否有意义求得回归方程后,此方程是否有意义?首先应检验以首先应检验以下假设:下假设:H0:b1=b2=.=bm=0使用的方法仍是方差分析法。从分析引起使用的方法仍是方差分析法。从分析引起yt(t=1,n)变化的总变差变化的总变差Total SS的原因入手。显然使得的原因入手。显然使得Y变化的变

18、化的原因有二个:第一原因有二个:第一,因因Y与与xi(i=1,m)线性相关,由线性相关,由xi的变化引起的变化引起Y的变化;第二,其它因素或误差引起的的变化;第二,其它因素或误差引起的。若。若Y的变化主要是由的变化主要是由xi的变化引起的,则模型中的自的变化引起的,则模型中的自变量变量xi的系数的系数i0。用方差分析的思想,把。用方差分析的思想,把yt(t=1,n)的总变差进行分解:的总变差进行分解:Total SS=Model SS+Error SS32第四章第四章 4.1 4.1 多元线性回归分析回归方程的显著性检验回归方程的显著性检验由总变差的分解公式:由总变差的分解公式:Total S

19、S=MSS+ESS可构造检验假设的检验统计量可构造检验假设的检验统计量F F=由观测数据计算由观测数据计算F值及显著性概率值及显著性概率(p值值),p值是指在值是指在H0下,利下,利用用F的分布规律,计算出检验统计量的分布规律,计算出检验统计量F大于等于样本大于等于样本F值的概率值的概率。若得出的。若得出的p值很小值很小(小于显著性水平小于显著性水平),依统计思想,小概率,依统计思想,小概率事件在一次实践中一般不会发生。如果发生小概率事件,将否事件在一次实践中一般不会发生。如果发生小概率事件,将否定前提假定定前提假定H0MSS/fm MMS(模型均方)模型均方)ESS/fe EMS(误差均方)

20、(误差均方)33第四章第四章 4.1 4.1 多元线性回归分析回归系数的显著性检验回归系数的显著性检验 对回归方程的显著性检验,若否定对回归方程的显著性检验,若否定H0,仅表,仅表示示1,2,m不全为不全为0,但并不排除有个别,但并不排除有个别i为为0。若若i=0,说明自变量说明自变量xi对因变量对因变量Y的影响不明显,应的影响不明显,应从回归模型中删除。因此对回归系数从回归模型中删除。因此对回归系数i(i=1,2,m)是否为是否为0逐个进行检验是很必要的。即逐个进行检验是很必要的。即检验以下的假设:检验以下的假设:H(i):i=0(i=1,2,m)类似地,可构造检验以上假设的检验统计量类似地

21、,可构造检验以上假设的检验统计量T,并并由由n组观测计算组观测计算T值和显著性概率值和显著性概率(p值值)。从而对。从而对H(i)是否成立进行统计推断。是否成立进行统计推断。34第四章第四章 4.1 4.1 多元线性回归分析回归系数的显著性检验回归系数的显著性检验 在多元线性回归分析中输出的回归系数在多元线性回归分析中输出的回归系数(参数参数)的的t 检验里,都是假定其它自变量进入回归检验里,都是假定其它自变量进入回归模型的前提下检验该变量进入的显著性模型的前提下检验该变量进入的显著性.即构即构造造t统计量的平方和为偏回归平方和统计量的平方和为偏回归平方和,在在SAS中中称称 之为之为II型平

22、方和型平方和(SS2)。若模型中有两个变量有相关关系,在这一检若模型中有两个变量有相关关系,在这一检验中两者的显著性都有可能被隐蔽起来。所验中两者的显著性都有可能被隐蔽起来。所以以,这一检验结果必须小心分析。这一检验结果必须小心分析。删除变量时,必须逐个删除。并在删除每个删除变量时,必须逐个删除。并在删除每个变量后,注意观察其它变量的变量后,注意观察其它变量的p 值的变化。值的变化。35第四章第四章 4.1 4.1 多元线性回归分析回归分析的例子(回归分析的例子(REGREG)例例4.1.1 使用SAS/STAT软件中提供的回归过程REG和SAS菜单系统“分析员应用”来建立用电量KWH与空调器

23、每天使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。解解 (1)用REG过程来建立经验公式。首先用首先用DATA步创建步创建SAS数据集数据集:data kilowatt;input kwh ac dryer;cards;35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0 94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1 94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1 77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1 43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1

24、33 6.0 0 ;36第四章第四章 4.1 4.1 多元线性回归分析回归分析的例子(回归分析的例子(REGREG)然后用PLOT过程画KWH随AC变化的散布图:proc plot data=kilowatt;plot kwh*ac=*;title 用电量KWH与空调器使用小时数AC的散布图;run;以下用REG过程对用电量数据进行回归计算:proc reg data=kilowatt;model kwh=ac dryer;title KWH与与AC和和DRYER的二元回归模型的二元回归模型;run;REG过程产生的部分输出结果见输出4.1.1。37第四章第四章 4.1 4.1 多元线性回归分

25、析回归分析的例子(回归分析的例子(分析员应用)用SAS菜单系统进行回归计算。首先启动“分析员应用”,并打开SAS数据集KILOWATT。进行多元线性回归分析的步骤如下:在“分析员应用”菜单栏目中选择Statistics=Regressi =Linear.。在弹出的线性回归主窗口中选择因变量和自变 量:KWH=Dependent,AC和DRYER=Quantitative。38第四章第四章 4.1 4.1 多元线性回归分析回归分析的例子(回归分析的例子(分析员应用)在线性回归主窗口的下方有几个键:Models键让用户选择筛选自变量的方法;Plots键供用户选择想绘制的各类图形,如散点图、残差图或

26、影响图等;Tests键供用户选择是否进行检验或功效分析;Statistics键让用户选择希望计算的统计量,如参数估计、标准回归系数、估计的相关阵或协差阵;Predictions键供用户由预测选项选择预测内容。按Plots键在弹出的“Plots Options”窗口中选择绘制因变量对自变量AC的散布图,并要求附加上预测的置信线=OK。39第四章第四章 4.1 4.1 多元线性回归分析回归分析的例子(回归分析的例子(分析员应用)将要求绘图、分析计算的项选择完毕后,从相应窗口按OK键返回到线性回归的主窗口=OK,系统将按用户的要求进行分析计算。查看输出结果,从“分析员应用”的数据窗口左边的树状表可以

27、选择你想查看的各类计算结果。输出4.1.2是因变量KWH对第一个自变量AC的散点图和预测置信线图形。回归的主要输出结果可参看输出4.1.1。40第四章第四章 4.2 4.2 曲线回归可化为线性的曲线回归 在有些实际问题中,因变量Y与x的关系不是线性关系。它们之间的关系有时可根据专业知识知道;有时通过画散点图可猜测Y与x的函数形式。这里要求我们了解常见函数的曲线图形。对这类不满足线性关系的回归问题,首先初步确定函数形式;然后对变量Y或x作适当的变换,目的是化为线性回归(一元线性或多元线性);然后用4.1介绍的方法求出变换后的线性关系式,最后转化为回归曲线。41第四章第四章 4.2 4.2 曲线回

28、归常见的函数及图形指数函数指数函数:Y=aebx (b0)指数函数指数函数:Y=aebx (b0)对数函数对数函数:Y=a+blog x (b1)幂函数幂函数:Y=a x b (0bRegression=Simple.。在弹出的简单线性回归主窗口(见图示4.3)中选择因变量和自变量:POWER=Dependent,SPEED=Independent。在简单线性回归主窗口的下方,按Plots键,在弹出的“Plots options”窗口中选择绘制因变量对自变量的散布图,并要求附加上预测的置信线=OK=OK。45第四章第四章 4.2 4.2 曲线回归曲线回归的例子 用REG过程也可以绘制高分辨的图

29、形,只需在REG语句中加上选项GRAPHICS;另在PLOT语句中斜线后的可用选项CONF95和PRED95要求在散布图上附加上均值的95%置信线和预测值的95%置信线,用全局语句SYMBOL还可以按用户的希望对散布图提出各种要求(如V=STAR要求散点用星号)。proc reg data=engine graphics;model power=speed;plot power*speed/conf95 pred95;symbol v=star;run;从生成的散点图(见输出4.2.1)大概可看出POWER和SPEED之间的关系不能很好地用一条直线表示。POWER随SPEED的增加开始也增加,

30、但增加到某个位置时它看来似乎趋于平衡并有向下弯曲的趋势。由散点图可看出应该用一条曲线(比如二次曲线)拟合这组数据。46第四章第四章 4.2 4.2 曲线回归曲线回归的例子 (3)曲线回归曲线回归(二次多项式回归二次多项式回归)对数据进行二次曲线拟合之前,首先需要生成一个存放SPEED平方值的新变量。在DATA步增加一个程序语句用于建立新变量(名为SPEEDSQ)。data engine2;set engine;speedsq=speed*speed;run;现在已经为拟合POWER与SPEED的二次回归曲线准备好了数据。下面键入调用REG过程的SAS程序(结果见输出4.2.2):proc re

31、g data=engine2;model power=speed speedsq;title 发动机性能数据中发动机性能数据中POWER与与SPEED的二次模型的二次模型;run;47第四章第四章 4.2 4.2 曲线回归曲线回归的例子 从计算结果可以得到:回归方程是显著的(显著性概率p值=0.0001)。回归系数都是显著的,一次项SPEED的p值=0.0001,二次项SPEEDSQ的p值=0.0002。因此二次项的系数b2是显著地不为0,这说明二次回归模型比一元线性回归模型能够更好地表示POWER和SPEED间的实际关系。拟合的回归曲线方程式为:POWER=-17.66+5.54(SPEED

32、)-0.08(SPEEDSQ)决定系数R2=0.9862;模型中误差方差2的估为s2=1.5241除了通过检验来考察二次项的系数是否显著之外,还可以用其它方法来判断这个二次项是否是必需的(参见4.4回归诊断)。若使用“分析员应用”来完成回归曲线的计算更简单。只需在简单线性回归主窗口的中间位置标签为Model的方框中选择做二次多项回归(Quadratic),系统将自动生成新变量并完成相应的计算。48第四章第四章 4.2 4.2 曲线回归曲线回归的例子 (4)预测值和预测值的置信界限预测值和预测值的置信界限 可以从二次回归模型中得到预测值、预测值的置信界限。还可以对二次回归模型绘制回归曲线的图形(

33、要求附加上预测值的95%置信线)。只需在上述程序之后加上下面这些语句:print cli;plot power speed=a predspeed=p l95 speed u95speed/overlay symbol=L;run;若使用“分析员应用”来绘制回归曲线及置信线,只需在简单线性回归主窗口的下方按Plots键和Predictions键,在弹出的窗口中选择所需选项,系统将自动完成相应的计算并生成所要求的图形。输出4.2.3是二次回归的散点图和预测置信线图;输出4.2.4是生成的预测值和置信上下限。49第四章第四章 4.2 4.2 曲线回归回归曲线拟合好坏的度量回归曲线拟合好坏的度量 线

34、性回归的效果可用决定系数R2和误差均方s2来判断。如例4.1.1(用电量数据)的回归中,R2=0.9709,误差均方s2=15.4872。对于曲线回归也有类似的统计量用于度量回归曲线的拟合效果。(1)相关指数相关指数 在曲线回归中称为曲线回归模型的相关指数。R2愈靠近1表示曲线回归的效果愈好。在发动机性能的例子中,所考虑的二次曲线回归的相关指数就等于二元线性回归的决定系数(0.9862)。有些曲线回归(比如对因变量Y作变换的曲线回归)相关指数和决定系数不相等。一般说来,当化为线性回归后的决定系数愈大,曲线回归的相关指数也大。50第四章第四章 4.2 4.2 曲线回归回归曲线拟合好坏的度量回归曲

35、线拟合好坏的度量 (2)剩余标准差剩余标准差s 在一元曲线回归中(m=1),称为曲线回归模型的剩余标准差。s值愈小表示拟合的曲线回归模型愈好。在发动机性能的例子中,s=1.2062。如果对某组数据可能拟合几种不同形式的曲线回归,为了确定哪条曲线更适合这组数据,可以比较相关指数R2或剩余标准差s,哪个模型的R2最大(或s最小),该模型最适合这组数据。(见练习题4-4)51第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择变量选择 在实际问题中,影响因变量Y的因素(自变量)可能很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及到变量选择问题。在回归方程中若漏掉对Y影响显著的变

36、量,那么建立的回归式用于预测时会产生大的偏差。但回归式中若包含的变量太多,且其中有些对Y影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度。因而适当选择变量用予建立一个“最优”的回归方程是十分重要的问题。52第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择变量选择 什么是“最优最优”回归方程回归方程?直观考虑应该是方程中直观考虑应该是方程中包含的所有变量对因变量包含的所有变量对因变量Y的影响都是显著的;而不的影响都是显著的;而不包含在方程中的变量对包含在方程中的变量对Y的影响是不显著的的影响是不显著的(可忽略)。也就是从自变量集x1,x2,,xm中选出适当的子集xi1,

37、xi2,,xil(l=m),使得建立Y与xi1,xi2,,xil 的回归方程就是这样的“最优”回归方程。这就是回归变量的选择问题。53第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择变量选择 回归变量的选择问题在实用上和理论回归变量的选择问题在实用上和理论上都是十分重要的。这个问题最大的困上都是十分重要的。这个问题最大的困难就是如何比较不同选择难就是如何比较不同选择(即不同子集即不同子集)的的优劣,即最优选择的标准。从不同的角优劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不度出发,可以有不同的比较准则,在不同的准则下,同的准则下,“最优最优”回归方程也可能回归方程也

38、可能不同。不同。54第四章第四章 4.3 4.3 逐步逐步回归回归最优选择的标准最优选择的标准 (1)均方误差均方误差s2最小最小 选择子集A=xi1,xi2,,xil,使均方误差:s2(A)=ESS(A)/(n-l-1)达最小。其中ESS(A)是Y与子集A回归模型的误差平方和,l是子集A中自变量的个数。(2)预测均方误差最小预测均方误差最小 选择子集A,使得J(A)=ESS(A)达最小。(3)Cp统计量最小准则统计量最小准则 选择子集A,使得Cp(A)=+2l-n 达最小,其中ESS是包含所有m个自变量的回归模型中误差平方和。n+l+1n-l-1 EES(A)ESS/(n-m-1)55第四章

39、第四章 4.3 4.3 逐步逐步回归回归最优选择的标准最优选择的标准 (4)AIC或或BIC准则准则 选择子集A,使得 AIC(A)=ln(ESS(A)+或 BIC(A)=ln(ESS(A)+达最小。(5)修正修正R2准则准则 选择子集A,使得修正R2=1-(1-R2)(当模型含截距项时i=1,否则i=0)达最大。2l nl lnn n n-i n -l56第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择及方法变量选择及方法 在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差;若加入了不该加入的变量,将加大所有的回归系数估计量的方差。回归分析中变量的选择是在自变量(独

40、立变量)集中按一定的准则找出合适的子集,用以描述模型和进行预报。常用的方法有:所有可能回归法(更多的候选模型)和逐步回归法(节省计算资源)。57第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择方法变量选择方法-逐步筛选法逐步筛选法 在过程中逐步筛选变量的方法通过以下有关的选项给出:NONE:全部进入,不筛选变量;FORWARD:向前加入法,即逐个加入变量;BACKWARD:向后删除法,全部加入后逐个剔除;STEPWISE:逐步筛选法,边进边出;MAXR:逐个加入和对换,使R2增加最大;MINR:逐个加入和对换,使R2增加最小.58第四章第四章 4.3 4.3 逐步逐步回归回归 变量选择

41、方法变量选择方法-逐步筛选法逐步筛选法 MAXR:开始加入使R2增加最大的变量 以后每一步选择模型内外变量进行对换-.选择使R2增加最大的对换;.选择加入一个使R2增加最大的新变量.MINR:开始加入使R2增加最小的变量以后每一步选择模型内外变量进行对换-.选择使R2增加最小的对换;.选择加入一个使R2增加最小的新变量.59第四章第四章 4.3 4.3 逐步逐步回归回归变量选择方法变量选择方法-所有可能回归法所有可能回归法R SQ U A R E:RSQ对不同个数自变量分别选择最大的模型Hock建议:预测估计CpCpppp+()(),21full(R2 )mCP:选择最先满足选择最先满足 Cp

42、 Regression =Linear.在多元线性回归窗口指定因变量和自变量后,从窗口下方:=按Model纽 =由Mothod 选方法 (注:INSIGHT未提供变量自动选择)61第四章第四章 4.3 4.3 逐步逐步回归回归变量的选择变量的选择-回归分析计算回归分析计算 ()编程编程-REG过程及选项过程及选项SELECTION PROC REG DATA=数据集名数据集名;MODEL 应变量应变量=自变量名列自变量名列/p cli clm r noprint selection=backward|forward|stepwise rsquare|adjrsq|cp slentry=0.50

43、 slstay=0.10 best=个数 aic sbc rmse include=n;id 变量名;output out=数据集名 关键统计量名=输出名.;RUN;62第四章第四章 4.3 4.3 逐步逐步回归回归 逐步回归的基本思想和步骤逐步回归的基本思想和步骤 以上介绍的选择回归子集的几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下:基本思想基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。基本步骤:基本步骤:首先给出引

44、入变量的显著性水平in和剔除变量的显著水平out。然后按以下框图筛选变量。63第四章第四章 4.3 4.3 逐步逐步回归回归 逐步回归的基本步骤逐步回归的基本步骤(框图框图)64第四章第四章 4.3 4.3 逐步逐步回归回归 逐步回归的例子逐步回归的例子 例例4.3.1 用REG过程或“分析员应用”分析水泥数据,并用逐步筛选方法建立“最优”的回归关系式;然后进行预测。解解(1)创建SAS数据集D431(DATA步省略了),调用REG过程完成逐步回归计算。假设引入变量的显著性水平in=0.10,剔除变量的显著水平out=0.10(一般取in=out ,也可取为不等.但要求in Regressio

45、n=Linear.。在弹出的线性回归主窗口中选择因变量和自变量:Y=Dependent,X1、X2、X3和X4=Quantitative。按线性回归主窗口下方的Models键,在弹出的模型选择窗口中67第四章第四章 4.3 4.3 逐步逐步回归回归 逐步回归的例子逐步回归的例子 按线性回归主窗口下方的Models键,在弹出的模型选择窗口中(见图示)选择标签为Method(方法)的项目,从显示的八种方法中选择逐步回归方法.在模型窗口中选择标签为Criteria(显著性准则)的项目从显著性水平框中指定引入模型和保留在模型中的显著性水平(如选引入模型的显著性水平为0.10,保留在模型里的显著性水平也

46、取为0.10)。在模型选项窗口中还可以指定总是包含在模型里的变量以及对几个全子集法选择输出的统计量等=OK。68第四章第四章 4.3 4.3 逐步逐步回归回归 逐步回归的例子逐步回归的例子 将要求的项选择完毕后,从相应窗口按=OK键,返回到线性回归的主窗口=OK,系统将按用户的要求进行分析计算。查看输出结果,从“分析员应用”的数据窗口左边的树状表可以选择你想查看的各类计算结果。以下是逐步回归最后一步(第四步)的结果和筛选过程的汇总结果。69第四章第四章 4.4 4.4 基本回归诊断基本回归诊断 在多元线性回归模型中我们做了以下假定:E(Y)=0+1x1+mxm,即E(Y)与m个自变量线性相关;

47、误差1,2,,n相互独立,且E(i)=0,Var(i)=2(方差齐性)(i=1,n);i N(0,2)(正态性)(i=1,2,n)。在实际问题中这些假定是否成立?如果成立,那么经典回归分析中讨论的估计和检验问题的结论是可靠的;否则前几节的讨论结果将是根据不足。70第四章第四章 4.4 4.4 基本回归诊断基本回归诊断回归诊断的必要性回归诊断的必要性-Anscombe-Anscombe数据及散点图数据及散点图(Anscombe(Anscombe数据数据见习题见习题4.5)4.5)71第四章第四章 4.4 4.4 基本回归诊断基本回归诊断回归诊断的必要性回归诊断的必要性-Anscombe-Ansc

48、ombe数据的计算结果数据的计算结果 Model R2 F ProbFCorrect 0.6665 17.990 0.0022Quadrat 0.6662 17.966 0.0022Outlier 0.6663 17.972 0.0022Influent 0.6667 18.003 0.0022 Model Intercept Prob|T|Slope Prob|T|Correct 3.000091 0.0257 0.500091 0.0022Quadrat 3.000909 0.0258 0.500000 0.0022Outlier 3.002455 0.0256 0.499727 0.00

49、22Influent 3.001727 0.0256 0.499909 0.002272第四章第四章 4.4 4.4 基本回归诊断基本回归诊断回归诊断的必要性回归诊断的必要性 Anscombe例子告诉我们例子告诉我们,经典回归分析中讨论的估计和经典回归分析中讨论的估计和检验问题并不能用于验证回归模型的各项假定检验问题并不能用于验证回归模型的各项假定.另数据中的异常另数据中的异常点可能使回归结果不稳定或不适用点可能使回归结果不稳定或不适用.这些任务需要在经典回归后这些任务需要在经典回归后进行回归诊断进行回归诊断.具体说有以下几方面具体说有以下几方面:.异常值异常值(outliers)或强影响点的

50、检查或强影响点的检查;.从已拟合回归的数据中分析线性模型的假定是否被破坏从已拟合回归的数据中分析线性模型的假定是否被破坏:因变量的均值是否是自变量的线性函数,因变量的均值是否是自变量的线性函数,是否需要对变量进行变换或拟合曲线回归是否需要对变量进行变换或拟合曲线回归;误差项是否同方差,不相关,正态分布误差项是否同方差,不相关,正态分布;.自变量间是否存在线性关系自变量间是否存在线性关系(仅多元有仅多元有)考察残差散点图是进行回归诊断的必要步骤考察残差散点图是进行回归诊断的必要步骤.73第四章第四章 4.4 4.4 基本回归诊断基本回归诊断残差分析残差分析-残差残差 回归分析的残差值是回归诊断的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(《实用统计方法》课件shyt4.ppt)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|