1、8 回归分析方法当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是收集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途最广泛的一类模型统计回归模型。变量之间的关系可以分为两类:一类叫确定性关系,也叫函数关系,其特征是一个变量随着其他变量的确定而确定;另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是
2、相关关系。回归分析就是处理变量之间的相关关系的一种数学方法。父亲们的身高与儿子们的身高之间关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式yx160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的
3、平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”。后人将此种方法普遍用于寻找变量之间的规律 xyubxay516.033.84用回归分析方法解决问题的大致步骤如下:1.收集一组包含因变量和自变量的数据;2.选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二乘准则计算模型中的系数;3.利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;4.判断得到的模型是否适合于这组数据;5.利用模型对因变量做出预测或解释。回归分析方法有:1.一元线性回归2.多元线性回归3.非线性回归4.逐步回归8.1 一元线性回归分析回归模型可分为线性回归模型和
4、非线性回归模型。非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。某些非线性回归模型可以化为线性回归模型处理。设x,y是随机变量,我们称为一元线性回归模型,其中0,1为待定系数。假设有一组关系x和y的数据(xi,yi),i=1,2,n,确定0,1的方法是根据最小二乘准则,即求0,1使取得最小值。令 求0,1的估计值 ,从而得到直线 。),0(,210NxyniiixyQ121010)(),(,0,010QQxy1010,参数的区间估计 由于所计算出的 仍然是随机变量,因此要对 的取值的区间进行估计,如果区间估计值是一个较短的区间表示模型精度较高。误差方差估计 设 为回归函数的值,y
5、i为测量值,剩余方差为线性相关性检验 如果y与x具有较好的线性关系,则说明模型可用。反映模型是否具有良好线性关系可通过相关系数R的值和F值观察。10,10,iy niiiyyns122)(21一元线性回归的Matlab实现利用Matlab统计工具箱(Statistics Toolbox)中的regress函数可实现一元线性回归分析。其用法是:b,bint,r,rint,stats=regress(y,x,alpha)y为因变量数据,以列向量表示,x为1与自变量数据组成的矩阵,alpha为显著性水平(默认值为0.05).输出b=0,1,bint为0,1的置信区间,r是残差(列向量),r是残差的置
6、信区间,stats包含4个统计量:决定系数R2,F值,F(1,n-2)分布大于F值的概率p;剩余方差s2.R2越接近1,变量的线性相关性越强.如果满足F1-(1,n-2)F,则认为变量y与x显著地有线性关系.如果palpha,则模型可用.这三个值互相印证.s2的值越小说明模型的精度越高.例1 身高与腿长 在某地区测得成年女子身高与腿长的数据如下:试利用此数据分析成年女子身高与腿长的关系.腿长腿长8885889192939395969897969899100102身高1431451461471481501531541551561571581591601621648.2 多元线性回归分析 如果根据
7、经验和有关知识认为与因变量有关联的自变量不止一个,那么就应该考虑建立多元线性回归模型.设影响因变量y的主要因素有m个,记为x=(x1,x2,xm),我们称 为多元线性回归模型.若已知一组因变量y与自变量x的数据,采用最小二乘法确定系数可得到回归方程),0(,2110Nxxymmmmxxy110 建立多元线性回归模型是一个相当复杂的过程,概括起来主要有以下几个方面:1.根据研究目的收集数据和预分析,确定因变量与自变量;2.根据散点图是否具有线性关系建立基本回归模型;3.参数估计4.模型的精细分析5.模型应用例2 某类研究学者的年薪 某科学基金会希望估计从事某研究的学者的年薪y与他们的研究成果的质
8、量x1、工作时间x2、获得资助的能力x3等指标之间的关系,为此按一定的实验设计方法调查了24位学者,得到如下数据:学者学者123456789101112x13.55.35.15.84.26.06.85.53.17.24.54.9x29201833311325305472511x36.16.47.46.77.55.96.04.05.88.35.06.4y33.240.338.746.841.437.539.040.730.152.938.231.8学者学者131415161718192021222324x18.06.56.63.76.27.04.04.55.95.64.83.9x22335392
9、1740352333273415x37.67.05.04.45.57.06.03.54.94.38.05.8y43.344.142.533.634.248.038.035.940.436.845.235.1试建立y与x1,x2,x3之间关系数学模型。8.2.3 逐步回归方法 逐步回归就是一种从众多变量中有效地选择重要变量的方法。基本思路是,先确定一个包含若干自变量的初始集合,然后每次从集合外的变量中引入一个对因变量影响最大的,再对集合中的变量进行检验,从变量不显著的变量中移出一个影响最小的,依此进行,直到不能引入和移出为止。引入和移出都以给定的显著性水平为标准。在Matlab中使用stepwi
10、se实现逐步回归,它提供了一个人机交互式画面,通过此工具可以自由地选择变量进行统计分析。该命令的用法是:stepwise(x,y,inmodel,penter,premove)参数说明:x自变量数据,为nm矩阵(m为自变量个数,n为每个自变量的数据量)y 因变量数据,为n1矩阵inmodel 自变量初始集合的指标penter 显著水平上限值,缺省时为0.05.premove 显著水平下限值,缺省时为0.1交互式图形界面说明多元线性回归示例序号瘦肉量y(kg)眼肌面积x1(cm2)腿肉量x2(kg)腰肉量x3(kg)序号瘦肉量y(kg)眼肌面积x1(cm2)腿肉量x2(kg)腰肉量x3(kg)1
11、15.0223.735.491.211415.9423.525.181.98212.6222.344.321.351514.3321.864.861.59314.8628.845.041.921615.1128.955.181.37413.9827.674.721.491713.8124.534.881.39515.9120.835.351.561815.5827.655.021.66612.4722.274.271.501915.8527.295.551.70715.8027.575.251.852015.2829.075.261.82814.3228.014.621.512116.4032
12、.475.181.75913.7624.794.421.462215.0229.655.081.701015.1828.965.301.662315.7322.114.901.811114.2025.774.871.642414.7522.434.651.821217.0723.175.801.902514.3720.445.101.551315.4028.575.221.66例例 根据下述某猪场25头育肥猪4个胴体性状的数据资料,试进行瘦肉量y对眼肌面积(x1)、腿肉量(x2)、腰肉量(x3)的多元线性回归分析。8.2.4 多项式回归 多项式回归仍然属于多元线性回归,包括一元多项式回归和多元
13、一元多项式回归。一元多项式回归模型为可以使用Matlab的polytool命令进行求解。该命令的用法是:polytool(x,y,n,alpha)参数说明:x 自变量数据,列向量y 因变量数据,列向量n 多项式次数alpha 显著性水平输出为交互式图形界面,画面显示回归曲线及其置信区间mmxxy10多项式回归示例产犊月份x123456平均产奶量y(kg)3833.43 3811.58 3769.47 3565.74 3481.99 3372.82产犊月份x789101112平均产奶量y(kg)3476.76 3466.22 3395.42 3807.08 3817.03 3884.52例例 根据重庆市种畜场奶牛群各月份产犊母牛平均305天产奶量的数据资料,试进行一元二次多项式回归分析。8.3 非线性回归分析非线性回归模型一般形式为其中x为自变量,为参数,y为因变量。求解的方法仍然是使用最小二乘法。),(xfyb,R,J=nlinfit(x,y,model,b0)xxxy21),(
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。