1、 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分无法分析实际对象内在的因果关系析实际对象内在的因果关系;人们关心的变量人们关心的变量(因变量因变量)受另外几个变量受另外几个变量(自变量自变量)的关联的关联性性(非因果性非因果性)的影响,并且存在众多随机因素,难以用机理的影响,并且存在众多随机因素,难以用机理分析方法找出它们之间的关系;分析方法找出它们之间的关系;需要建立这些变量的数学模型,使得能够根据自变量的数值需要建立这些变量的数学模型,使得能够根据自变量的数值预测因变量的大小,或者解释因变量的变化。预测因变量的大小,或者解释因变量的变化
2、。回归分析是数学建模的有力工具回归分析是数学建模的有力工具薪金与资历、教育程度、工作岗位薪金与资历、教育程度、工作岗位 第1页,共16页。收集一组包含因变量和自变量的数据;收集一组包含因变量和自变量的数据;选定因变量与自变量之间的模型,利用数据按照选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;最小二乘准则计算模型中的系数;利用统计分析方法对不同的模型进行比较,找利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;出与数据拟合得最好的模型;判断得到的模型是否适合于这组数据判断得到的模型是否适合于这组数据,诊断有无诊断有无不适合回归模型的异常数据;不适合回归
3、模型的异常数据;利用模型对因变量作出预测或解释。利用模型对因变量作出预测或解释。回归分析的主要步骤回归分析的主要步骤第2页,共16页。1.简化的实际问题及其数学模型简化的实际问题及其数学模型2.一元线性回归一元线性回归3.多元线性回归多元线性回归4.非线性回归非线性回归回归分析回归分析(Regression Analysis)从应用角度介绍回归分析的基本从应用角度介绍回归分析的基本原理、方法和软件实现原理、方法和软件实现 第3页,共16页。一一.拟合.设有变量设有变量x,y,根据一组数据,根据一组数据(xi,yi),i=1,2,n,视为,视为平面上的平面上的 n 个点,寻求一个函数个点,寻求一
4、个函数 y=f(x),使,使 y=f(x)在某种在某种准则下与所有的数据点准则下与所有的数据点(xi,yi)总体上最接近。总体上最接近。线性最小二乘法线性最小二乘法令令 f(x)=b1r1(x)+b2r2(x)+bmrm(x)其中其中rk(x)是事先选定的一组函数是事先选定的一组函数,bk是待定系数是待定系数,k=1,2,mQ(b1,b2,bm)=niiiniiyxf1212)(min第4页,共16页。Q(b1,b2,bm)=niiiniiyxf1212)(min得,2,1,0mkbQknimkiikkimnimkiikkiyxrbxryxrbxr111110)()(0)()(nmmnnmnm
5、yyybbbxrxrxrxrR111111,)()()()(记0 yRbRTyRRbRTT当当 r1(x),r2(x),rm(x)线性无关时,线性无关时,R列满秩,故列满秩,故RTR可逆可逆yRRRbTT1)(第5页,共16页。三三、多元线性回归模型.y=b0+b1x1+b2x2+bkxk+e对对 n 组数据组数据(xi1,xi2,xik,yi)i=1,2,n记记111)1(0)1(111111,11,nnkkknnknknneeebbbxxxxXyyY Y=Xb+emin Q(b)=|Y Xb|2得得YXXXbTT1)(第6页,共16页。例2.求拟合下列数据的最小二乘解x=.24.65.95
6、 1.24 1.73 2.01 2.23 2.52 2.77 2.99y=.23-.26-1.10-.45.27.10-.29.24.56 1解:xxycos之间具有三角函数关系与xexy系之间还具有指数函数关与xxyln系之间还具有对数函数关与因此假设拟合函数与基函数分别为xcexbxaxScosln)(xex)(2xxln)(0 xxcos)(1第7页,共16页。00.511.522.53-1.5-1-0.500.51xy6.7941 -5.3475 63.2589-5.3475 5.1084 -49.008663.2589-49.0086 1002.5 1.6163-2.382726.7
7、728通过计算,得法方程组的系数矩阵及常数项矩阵为00.511.522.53-1.5-1-0.500.51xy第8页,共16页。用Gauss列主元消去法,得cba -1.0410 -1.2613 0.030735xexxxS030735.0cos2613.1ln0410.1)(*的最小二乘解是关于xy22*20)(*(miiiyxS20)030735.0cos2613.1ln0410.1(miixiiyexxi92557.0拟合的平方误差为第9页,共16页。例例2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1=管理人员,管理人员,0=非管非
8、管理人员;教育理人员;教育 1=中学,中学,2=大学,大学,3=研究生研究生建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考.编编号号薪金薪金资资历历管管理理教教育育01138761110211608103031870111304112831020511767103编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员
9、的档案资料 第10页,共16页。模型模型 y 薪金,薪金,x1 资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理人员非管理人员1=中学中学2=大学大学3=研究生研究生其它中学,x013其它大学,x014 资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用.教育教育线性回归模型线性回归模型 中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;研究生:研究生:x3=0,x4=0 443322110 xxxxy由数据确定由数据确定43210,假设假设第11页,共16页。系数系数系数估计系数估计置信区间
10、置信区间011032 10258 11807 1546 484 608 26883 6248 7517 3-2994-3826 -2162 4148-636 931 R2=0.957 F=226 p=0.000R2,F,p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员多管理人员多6883 中学程度比更高的少中学程度比更高的少2994 大学程度比更高的多大学程度比更高的多148 4置信区间包含零点,置信区间包含零点,解释不可靠解释不可靠!第12页,共16页。443322110 xxxxy考察残差考察残差 是否为是否为N(0,(0,2 2)yyee 与资历与资
11、历x1的关系的关系 05101520-2000-1000010002000 e与管理与管理教育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正,或全为负,残差全为正,或全为负,管理管理教育组合处理不当教育组合处理不当 残差大概分成残差大概分成3个水平,个水平,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映 应增加应增加x2与与x3,x4的交互项的交互项 组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合用残差分析发现交互作用用残差分析发现交互作用 第13页,共16页。增加管理增加管理x2与教
12、育与教育x3,x4的交互项的交互项系数系数系数估计值系数估计值置信区间置信区间01120411044 113631497486 508270486841 72553-1727-1939 -15144-348-545 1525-3071-3372-2769618361571 2101R2=0.999 F=554 p=0.000R2,F有改进,所有回归系数置信有改进,所有回归系数置信区间都不含零点,模型完全可用区间都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据(33号号)应去掉应去掉 05101520-1000-5000500e x1 123456-1000-5000
13、500e 组合组合426325443322110 xxxxxxxxy第14页,共16页。去掉异常数据后去掉异常数据后的结果的结果系数系数系数估计值系数估计值置信区间置信区间01120011139 112611498494 503270416962 71203-1737-1818 -16564-356-431 2815-3056-3171 2942619971894 2100R2=0.9998 F=36701 p=0.000005101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2:0.957 0.999 0.9998F:226 554
14、36701 置信区间长度更短置信区间长度更短残差残差图十分正常图十分正常最终模型的结果可以应用最终模型的结果可以应用第15页,共16页。模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金(资历资历x1 1=0)大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低 426325443322110 xxxxxxxxy组合组合管理管理x2 教育教育(x3,x4)系数系数“基础基础”薪金薪金10(1,0)0+3946321(1,0)0+2+3+51344830(0,1)0+41084441(0,1)0+2+4+61988250(0,0)01120061(0,0)0+218241第16页,共16页。