《统计计算及统计软件》课件ch7.pptx

上传人(卖家):momomo 文档编号:5563718 上传时间:2023-04-24 格式:PPTX 页数:36 大小:443.25KB
下载 相关 举报
《统计计算及统计软件》课件ch7.pptx_第1页
第1页 / 共36页
《统计计算及统计软件》课件ch7.pptx_第2页
第2页 / 共36页
《统计计算及统计软件》课件ch7.pptx_第3页
第3页 / 共36页
《统计计算及统计软件》课件ch7.pptx_第4页
第4页 / 共36页
《统计计算及统计软件》课件ch7.pptx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、第七章第七章 回归分析回归分析1 相关分析相关分析2 回归模型介绍回归模型介绍3 线性回归最小二乘估计线性回归最小二乘估计4 模型检验与区间估计模型检验与区间估计5 自变量选择自变量选择6 非线性回归非线性回归方法篇:回归分析(第七章)数据:数据:采集某校采集某校841名本科生的高数,概率,线代三门名本科生的高数,概率,线代三门公共基础课的期末卷面成绩,见数据集公共基础课的期末卷面成绩,见数据集.xlsx。问题:问题:1.分析三门课程成绩之间的关系分析三门课程成绩之间的关系 2.通常高数先修于概率,问能否通过高数成绩估通常高数先修于概率,问能否通过高数成绩估计概率成绩?计概率成绩?方法篇:回归

2、分析(第七章)方法篇:回归分析(第七章)样本相关系数Gs,gl=0.7092Gs,xd=0.6852Xd,gl=0.6464而且都通过显著相关的假设检验!7.1 相关分析相关分析由于随机因素的影响,导致变量之间呈现不确定的趋由于随机因素的影响,导致变量之间呈现不确定的趋势性的相互依存和相互依赖的关系,称为势性的相互依存和相互依赖的关系,称为相关关系相关关系。包括:包括:线性相关线性相关和非线性相关;单相关,复相关,偏和非线性相关;单相关,复相关,偏相关。相关。相关分析就是用来研究变量之间的相关关系的方法。相关分析就是用来研究变量之间的相关关系的方法。其中常用的分析工具有:相关系数、散点图、检验

3、等。其中常用的分析工具有:相关系数、散点图、检验等。方法篇:回归分析(第七章)7.1 相关分析相关分析 二维随机变量二维随机变量(X,Y)而言,若方差存在,则相关系数为而言,若方差存在,则相关系数为其样本其样本 ,可定义样本相关系数为可定义样本相关系数为方法篇:回归分析(第七章)cov(,)()()()()()()XYX YEXE XYE YD X D YD X D Y12211()()()()niiiXYnniiiixxyyrxxyy,1,2,iix yin|1|=10,()1 XYXYaP YaXb0,0=0|1负相关正相关不相关,|完全相关作为的估计XYXYXYXYXYXYr7.1 相关

4、分析相关分析 方法篇:回归分析(第七章)1.包:MASSmvrnorm函数引入二元正态分布的随机数2.x=rnorm(n);y=x+rnorm(n,0,0.6);plot(x,y);cor(x,y)理论上相关系数=?7.1 相关分析相关分析 方法篇:回归分析(第七章)222:0(2)12(|)1检验统计量:检验 值XYoXYXYXYXYrnHTt nrrnpP Tr参考 式子(7.5.8)若p值较小,则拒绝原假设,认为相关性较强,否则认为不相关。例如:x=rnorm(30);y=x+rnorm(30,0,0.6);cor.test(x,y)t=13.538,df=28,p-value=8.23

5、3e-14alternative hypothesis:true correlation is not equal to 095 percent confidence interval:0.8595227 0.96713137.2 回归模型回归模型英国著名生物统计学家高尔顿和他的学生皮尔逊收集英国著名生物统计学家高尔顿和他的学生皮尔逊收集了了1078个家庭的父子代身高数据,发现了人类身高有往个家庭的父子代身高数据,发现了人类身高有往中间靠拢的趋势,把这种趋势称为中间靠拢的趋势,把这种趋势称为回归效应回归效应。并建立了。并建立了一种直线方程:一种直线方程:父代身高以父代身高以177cm作为分割线

6、:低于的向上;高于的向下作为分割线:低于的向上;高于的向下方法篇:回归分析(第七章)33.730.516()85.670.516()英寸=2.54cm厘米yxyx7.2 回归模型回归模型方法篇:回归分析(第七章)2()(|)()()0,()yf xE y xf xED因变量自变量随机误差回归函数参数回归 如f(x)为含参数线性,非线性(一元,多元)半参数回归 部分参数、部分非参数非参数回归 f(x)为非参数形式(无具体函数形式)7.2 回归模型回归模型方法篇:回归分析(第七章)2()()0,()yf xED经典参数回归 p元线性回归模型(p=1)01 100(;)(1)pppiiif xxxx

7、x2(;)()0,()yf xED7.3 线性回归模型的最小二乘估计线性回归模型的最小二乘估计方法篇:回归分析(第七章)01 1002,(1)()0,()pppiiiyxxxxED011111212122111,1ppnnppnnxxyxxyyXxxy2()0,()nyXEDI设计矩阵N阶单位阵7.3 线性回归模型的最小二乘估计线性回归模型的最小二乘估计方法篇:回归分析(第七章)22(0,)()0,()nnyXNIyXEDI1()()()()0()()(),()()令求解利用易得TTTTTTTTQyXyXQx AAxx AxAAAAxxxxX XX y7.3 线性回归模型的最小二乘估计线性回归

8、模型的最小二乘估计方法篇:回归分析(第七章)()=0()()()()()()()()()()()2()()正规方程:TTTTTTTTTTTTX XX yXyXXQyXyXyXXyXXyXyXX XXyX=0=显然只有上式成立,才能保证目标函数最小。7.3 线性回归模型的最小二乘估计线性回归模型的最小二乘估计方法篇:回归分析(第七章)称为 的最小二乘估计,而称为拟合向量,其中yX0111121(,)()()()()称为给定时的拟合值称为帽子矩阵称为残差值,而=称为残差向量称为残差平方和iipipiipTTiiinnTTEiiyxxxxxHX X XXyyyyIH ySyyyy7.3 线性回归模型

9、的最小二乘估计线性回归模型的最小二乘估计方法篇:回归分析(第七章)1当时,称为一元回归p01iiyx011221222222()();(),=(),(),()()iiixyEyyxyyyxxyyixxixyiiiiiixxyyyxxxLSLLLLLyyLxxLxxyyynyxnxx ynx y7.3 线性回归模型的最小二乘估计线性回归模型的最小二乘估计方法篇:回归分析(第七章)2212211122(0,)1.y(),()().,()(),()()2.()13.(,),()4.(1)性质:在前提下是 的线性函数,注意与独立,且TTETjjjjppEENEDX Xr v XE AXAE XD AX

10、AD X ASEnpNCX XCSSnp7.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)平方和分解2222=()()()()TiiiiiiiSyyyyyyyyyy()讨论它们的关系ERSS22221/(1)11(1)11/(1)称为决定系数,回归平方和与总离差平方和的比R 称复负相关系数,越大说明“拟合效果”越好!称为调整决定系数RETTEaTSSRSSRSnpnRRnpSn7.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)01222:=0(0,),(,)不适合线性回归模型,即=在正态性前提下,pnnHNIyN XI2222(),(1),独立RESSp

11、np/(,1)/1RESpFF p npSnp显然F很大的时候,拒绝原假设,即认为线性回归模型显著。7.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)0220:(,),1T(1)T(1)=0,i=1,2,在正态性前提下,=则有成立时,iEiiiiiiiiiiiiiHpSNCnpt npHt npCC具体例题和程序参考:P2422437.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)dat=data.frame(x1=c(8,10,6,11,8,7,10,9,9,6,12,9),x2=c(135.0,150.0,124.5,157.6,129.6,126.

12、1,134.4,125.8,129.0,116.8,155.0,141.9),y=c(29.1,32.2,24.1,34.0,24.5,23.5,29.8,23.8,26.7,23.2,34.5,30.9)lm.out=lm(yx1+x2,data=dat)summary(lm.out)7.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)-12.13832 5.40935 -2.244 0.05151.x1 0.29059 0.42553 0.683 0.511

13、87 x2 0.27769 0.06116 4.540 0.00141*Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error:1.318 on 9 degrees of freedomMultiple R-squared:0.9213,Adjusted R-squared:0.9038 F-statistic:52.7 on 2 and 9 DF,p-value:1.074e-057.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)对于给定的x,估计y及其置信区间。(前提是:误差的正态假设下的线性模型)210

14、0000000(),()()()()TTTTTE yxD yD xx DxxX Xx210000(0,(1()TTyyNxX Xx00100(1)(1()TTyyTt npxX Xx110/2000/200(1)1(),(1)1()TTTTytnpxX XxytnpxX Xx7.4 模型检验与区间估计模型检验与区间估计方法篇:回归分析(第七章)对于给定的x=(9,140)估计y及其置信度为95%的置信区间。predict(lm.out,newdata=data.frame(x1=9,x2=140),interval=confidence,level=0.95)fit lwr upr1 29.3

15、5422 28.38973 30.31877.5 自变量选择自变量选择线性模型中,并非自变量的个数越多越好,选择对因变量有显线性模型中,并非自变量的个数越多越好,选择对因变量有显著影响的自变量,降低模型的复杂度,是一个很重要的研究问题。著影响的自变量,降低模型的复杂度,是一个很重要的研究问题。选择有显著影响选择有显著影响(有意义有意义)的自变量,的自变量,首先必须定义好首先必须定义好“规则规则”;其次应能够其次应能够便于计算便于计算实现;实现;最后要经得起实际问题的最后要经得起实际问题的检验检验。方法篇:回归分析(第七章)7.5 自变量选择自变量选择1.规则规则 (m表示全模型自变量个数表示全

16、模型自变量个数)(a)均方误差最小均方误差最小等价于调整决定系数最大等价于调整决定系数最大(b)Cp统计量最小统计量最小(马洛斯马洛斯1964)方法篇:回归分析(第七章)()1=pEpSMSEnp()()()()()(1)(1)222=全模型的残差平方和ppEEpmmEEmEnmSnmSCpnpSSS7.5 自变量选择自变量选择(c)AIC准则最小准则最小(赤池赤池1974)(d)BIC准则最小准则最小(e)预测均方误差最小预测均方误差最小参考参考 高惠璇高惠璇 北京大学出版社北京大学出版社 2005.1方法篇:回归分析(第七章)()ln()2ppEAICnSp()ln()=nln(ppEBI

17、CSpn()()/11,12=ppEJPESPSnpnpPSPnpnp7.5 自变量选择自变量选择2.最优回归方程最优回归方程m个自变量可以构成个自变量可以构成 个变量子集和线性回归模型,从中个变量子集和线性回归模型,从中可以找出一个满足上述准则的一个最优模型。可以找出一个满足上述准则的一个最优模型。这个计算量很大,如果这个计算量很大,如果m=10,则需要构建则需要构建1023个模型,才能找个模型,才能找出其中最优的模型。出其中最优的模型。通过通过 combn(m,k)可以得到可以得到m个中任取个中任取k个的所有组合个的所有组合,由此可方由此可方便地构建所有可能的模型。便地构建所有可能的模型。

18、方法篇:回归分析(第七章)21m7.5 自变量选择自变量选择3.逐步回归的思想逐步回归的思想通过逐步选入自变量的方式来构建最优模型通过逐步选入自变量的方式来构建最优模型前进法前进法通过逐步剔除自变量的方式来构建最优模型通过逐步剔除自变量的方式来构建最优模型后退法后退法通过先引入再剔除的方式来构建最优模型通过先引入再剔除的方式来构建最优模型逐步回归法逐步回归法在引入变量时,需要通过方程系数的显著性检验,因此需要给出个在引入变量时,需要通过方程系数的显著性检验,因此需要给出个显著性水平显著性水平a-in;同理剔除变量的也需要一个显著性水平;同理剔除变量的也需要一个显著性水平 a-out,通常要,通

19、常要求求 a-in a-out.在在R中可以通过中可以通过 step实现逐步回归;实现逐步回归;leaps包中包中leaps和和regsubsets函数函数实现变量选择。实现变量选择。方法篇:回归分析(第七章)7.6 非线性回归非线性回归方法篇:回归分析(第七章)()()是非线性含参函数yf xf x1、可线性化的非线性方程 通过变换将方程变成线性模型,进而求解2、不可线性化的非线性方程 一般通过最小化目标函数法,结合最小二乘,进行求解2()=1()(,)niiiQyf x7.6 非线性回归非线性回归 例子分析例子分析 dat=data.frame(x=c(2,5,7,10,14,19,26,

20、31,38,45,52,53,60,65),y=c(54,45,37,37,35,25,20,16,13,8,11,8,4,6)nls(yb0*exp(b1*x),data=dat,start=list(b0=10,b1=0)Nonlinear regression model :y b0*exp(b1*x)data:dat b0 b1 54.82802-0.03846 回归系数回归系数 residual sum-of-squares:66.82 残差平方和残差平方和Number of iterations to convergence:6 Achieved convergence toler

21、ance:1.664e-06方法篇:回归分析(第七章)7.6 非参数回归非参数回归方法篇:回归分析(第七章)()()是无参函数ym xm x,1()构造核权,()(1,2,)()inn injjnxxKhWxinxxKhnn iiWx,1()1nnn iiim xWx y,1()()离x越近的样本点xi,其对应的yi对估计的y影响越大。Nadaraya-Watson核估计核估计7.6 非参数回归非参数回归方法篇:回归分析(第七章),111构造k-近邻权,()()nnn kn iiiiimxWx yyk离x越近的样本点xi,其对应的yi对估计的y影响越大。近邻近邻(核核)估计估计-,111()(

22、,)构造近邻核权,()()()(,)(,)离x最近的K个样本点中,x方向偏差的最大值。iinnn kniiniijjxxKD x kkmxWx yyxxKD x kD x k7.6 非参数回归非参数回归方法篇:回归分析(第七章)构造模拟数据:引入随机扰动 N(0,0.04),取样本数据为 x=(1:200)/200;y=cos(2*pi*exp(x)*exp(x)+rnorm(0,0.2)plot(x,y)k.fun=function(p.x,x,y,kfun,h)wei.all=sum(kfun(p.x-x)/h);wei=kfun(p.x-x)/h)/wei.all;sum(wei*y)n

23、y=sapply(x,k.fun,x=x,y=y,dnorm,h=0.05);points(x,ny,pch=16);近邻近邻(核核)估计估计cos(2)xxyee/200,cos(2),1,2,.,200iixxiiixiyeei7.6 非参数回归非参数回归方法篇:回归分析(第七章)核回归充分展现了就近原则,越靠近x的样本点对E(y|X=x)的估计的贡献就越大。思考:(1)x 落在样本极值范围的两侧,估计如何?(2)x 落在样本极值范围之外,估计又如何?(3)如果样本点比较稀疏,估计精度又如何?近邻近邻(核核)估计估计方法篇:回归分析(第七章)例题分析1:以课后的习题7为例从p-value=0.003863可知回归方程整体线性显著,但从各个自变量系数的p-value来看,都不显著,需要作变量选择。方法篇:回归分析(第七章)第一步:全模型初始的AIC=21.71,删除X6导致增加的误差平方和最小,AIC最小,且21.71第二步:AIC=19.904,删除X1导致增加的误差平方和最小,同时AIC最小第三步:AIC=18.540,删除任何一个都会导致AIC增大,故停止后退法操作。此时得到回归模型2233445577yXXXXX

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(《统计计算及统计软件》课件ch7.pptx)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|