多元统计分析及R语言建模(第五版)课件第四五章.pptx

上传人(卖家):晟晟文业 文档编号:4287952 上传时间:2022-11-26 格式:PPTX 页数:71 大小:1.89MB
下载 相关 举报
多元统计分析及R语言建模(第五版)课件第四五章.pptx_第1页
第1页 / 共71页
多元统计分析及R语言建模(第五版)课件第四五章.pptx_第2页
第2页 / 共71页
多元统计分析及R语言建模(第五版)课件第四五章.pptx_第3页
第3页 / 共71页
多元统计分析及R语言建模(第五版)课件第四五章.pptx_第4页
第4页 / 共71页
多元统计分析及R语言建模(第五版)课件第四五章.pptx_第5页
第5页 / 共71页
点击查看更多>>
资源描述

1、第4章 多元相关与回归分析及R使用多元统计分析及建模-1-多元统计分析及R语言建模 变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模本节内容1 简单相关分析的R计算2 一元线性回归分析的R计算 【例 4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。l plot(x1,x2)通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x

2、2=c(57,64,41,38,35,44,41,51,57,49,47,46)l lxyF)x 1 712077 712077 27427|t|)(Intercept)-1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61|t|)(Intercept)23.5321088 4.5990714 5.117 2.47e-05*x1 -0.0033866 0.0080749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16*x3 0.0002919 0.0085527 0.034 0.973 x4

3、-0.0437416 0.0092638 -4.722 7.00e-05*Signif.codes:0*0.001*0.01*0.05.0.1 1Residual standard error:2.79 on 26 degrees of freedomMultiple R-squared:0.9997,Adjusted R-squared:0.9997 F-statistic:2.289e+04 on 4 and 26 DF,p-value:2.2e-16summary(fm)#多元线性回归系数t检验lm(formula=y x1+x2+x3+x4,data=yX)Residuals:Min

4、1Q Median 3Q Max-5.0229-2.1354 0.3297 1.2639 6.9690 多元统计分析及R语言建模 在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。多元统计分析及R语言建模多元统计分析及R语言建模设样本矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模其中rij为任意两变量之间的简单相关系数:多元统计分析及R语言建模举例与说明(续例4.4)财政收入与其他变量间

5、的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模#多元数据相关系数矩阵cor(yX)R语言代码数据输出多元统计分析及R语言建模函数说明多元统计分析及R语言建模library(mvstats)#多元数据相关系数检验corr.test(yX)R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。多元统计分析及R语言建模复相关分析 在实际分析中,一个变量的变化往往要受到

6、多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。多元统计分析及R语言建模多元统计分析及R语言建模假定回归模型为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数计算公式为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数:决定系数决定系数:多元统计分析及R语言建模#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq)R语言代码数据输出#显示多元数据复相关系数(R=sqrt(R2)1 0.99971 0.9999多元统计分析及R语言建模多元统计分

7、析及R语言建模多元回归分析主要用途用于描述解释现象,这时希望回归方程中所包含的自变量尽可能少一些用于预测,这时希望预测的均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模多元统计分析及R语言建模全部子集法向后删除法向前引入法逐步回归法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有可能回归法,即建立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,在实用上,从数据与模型拟合

8、优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。多元统计分析及R语言建模举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模library(leaps)#加载leaps包varsel=regsubsets(yx1+x2+x3+x4,data=yX)result=summary(varsel)data.frame(resultoutmat,RSS=resultrss,R2=result$rsq)R语言代码数

9、据输出多元统计分析及R语言建模多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模多元统计分析及R语言建模平均残差平方和最小准则误差均方根MSE最小准则校正复相关系数平方(Adjusted R2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与B

10、IC准则回归子集多元统计分析及R语言建模data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归有15个,当自变量个数为10时,所有可能的回归为1023个,当自变量数个数为50时,所有可能的回归为1015个,当p很大时,数字2p大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.多元统计分析及R语言建模逐步回归分析在作实际多元线性回归时常有这样情况,变量x1,x2,.xp相互之间常常是线性相

11、关的,即在x1,x2,.xp中任何两个变量是完全线性相关的,即相关系数为1,则矩阵XTX的秩小于p,XTX就无解。当变量x1,x2,.xp中任有两个变量存在较大的相关性时,矩阵XTX处于病态,会给模型带来很大误差。因此作回归时,应选变量x1,x2,.xp中的一部分作回归,剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选择方法。多元统计分析及R语言建模多元统计分析及R语言建模向前引入法向后剔除法逐步筛选法多元统计分析及R语言建模fm=lm(yx1+x2+x3+x4,data=yX)fm.step=step(fm,direction=forward)#向前引入法变量选择结果R语言代码数据输出

12、多元统计分析及R语言建模fm.step=step(fm,direction=backward)#向后剔除法变量选择结果R语言代码数据输出多元统计分析及R语言建模fm.step=step(fm,direction=both)#逐步筛选法变量选择结果R语言代码数据输出多元统计分析及建模 多元统计分析及R语言建模多元统计分析及R语言建模数据的分类与模型选择、广义线性模型概述、Logistic回归模型、对数线性模型、一般线性模型的计算。要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。2.模型选择方式模型选择方式:基本

13、公式:基本公式 yX连续变量连续变量0-1变量变量有序变量有序变量多分类变量多分类变量连续伴有删失连续伴有删失连续变量连续变量线性回归方程线性回归方程logistic回归模型回归模型累积比数模型累积比数模型对数线性模型对数线性模型对数线性模型对数线性模型多分类多分类logistic回归模型回归模型cox比例风险模型比例风险模型分类变量分类变量 实验设计模型(方实验设计模型(方差分析模型)差分析模型)连续变量连续变量分类变量分类变量协方差分析模型协方差分析模型表表5.1 广义线性模型中的常用分布族广义线性模型中的常用分布族 2、Logistic模型模型:函数形式其中参数估计采用极大似然估计。对对

14、45名驾驶员的调查结果,其中四个变量的含义为名驾驶员的调查结果,其中四个变量的含义为:x 1:表 示表 示 视 力 状 况,它 是 一 个 分 类 变 量,视 力 状 况,它 是 一 个 分 类 变 量,1 表 示 好,表 示 好,0 表 示 有 问 题;表 示 有 问 题;x2:年龄,数值型;:年龄,数值型;x3:驾车教育,它也是一个分类变量,:驾车教育,它也是一个分类变量,1表示参加过驾车教育,表示参加过驾车教育,0表示没有;表示没有;y:分类变量(去年是否出过事故,:分类变量(去年是否出过事故,1表示出过事故,表示出过事故,0表示没有)。表示没有)。d5.1=read.table(cli

15、pboard,header=T)#读取例读取例5.1数据数据 logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1)#Logistic回归模型回归模型summary(logit.glm)#Logistic回归模型结果回归模型结果得到初步的logistic回归模型:(1)建立全变量logistic回归模型:logit.step-step(logit.glm,direction=both)#逐步筛选法变量选择逐步筛选法变量选择由此得到新的logistic回归模型:(2)逐步筛选变量logistic回归模型:summary(logit.step)#逐步筛

16、选法变量选择结果逐步筛选法变量选择结果pre1-predict(logit.step,data.frame(x1=1)#预测视力正常司机预测视力正常司机Logistic回归结果回归结果p1-exp(pre1)/(1+exp(pre1)#预测视力正常司机发生事故概率预测视力正常司机发生事故概率pre2-predict(logit.step,data.frame(x1=0)#预测视力有问题的司机预测视力有问题的司机Logistic回归结果回归结果p2-exp(pre2)/(1+exp(pre2)#预测视力有问题的司机发生事故概率预测视力有问题的司机发生事故概率c(p1,p2)#结果显示结果显示(3

17、):):预测发生交通事故的概率预测发生交通事故的概率 3、对数对数线性模型线性模型:函数:函数形式形式 式式2含有交叉效应含有交叉效应 某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同的满意程度是否相同。满意满意不满意不满意合计合计高高533891中中434108542低低11148159合计合计598194792数据形式变为:用y表示频数,x1表示收入人群,x2表示满意程度(1)建立Poisson对数线性模型:从检验结果可看出,从检验结果可看出,p1=0.00310.01,p20.01,

18、说明收入和满意程度对产品有重要影响,说明收入和满意程度对产品有重要影响 设有设有3台机器,用来生产规格相同的铝合金薄板。现从台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板中各台机器生产出的薄板中各随机抽取随机抽取5块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异?块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异?机器机器12.362.382.482.452.472.43机器机器22.572.532.552.542.562.61机器机器32.582.642.592.672.662.62d5.3=read.table(clipboard,header=T

19、)#读取例读取例5.3数据数据 anova(lm(Yfactor(A),data=d5.3)#完全随机设计模型方差分析完全随机设计模型方差分析 P0.05,说明各种燃料,说明各种燃料A对火箭射程有无显著影响,对火箭射程有无显著影响,PB0.05,说明各种推进器,说明各种推进器B对火箭射程也无显著影响。对火箭射程也无显著影响。(1)数据格式为:关于关于40个不同年龄(个不同年龄(age,定量变量)和性别(,定量变量)和性别(sex,定性变量,用,定性变量,用0和和1代表代表女和男)的人对某项服务产品的观点(女和男)的人对某项服务产品的观点(y,二水平定性变量,用,二水平定性变量,用1和和0代表认可代表认可与不认可)的数据与不认可)的数据。一、一、数据管理数据管理二、二、R语言语言操作操作 拟合的模型为:拟合的模型为:Case4=read.table(clipboard,header=T);Case4fm=glm(ysex+age,family=binomial,data=Case4)fmsummary(fm)attach(Case4)Pr=predict(fm,data.frame(list(sex,age)#模型预测模型预测p=exp(Pr)/(1+exp(Pr)cbind(sex,age,y,p)plot(age,Pr)detach(Case4)谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(多元统计分析及R语言建模(第五版)课件第四五章.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|