1、 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系无法分析实际对象内在的因果关系;人们关心的变量人们关心的变量(因变量因变量)受另外几个变量受另外几个变量(自变量自变量)的关的关联性联性(非因果性非因果性)的影响,并且存在众多随机因素,难以的影响,并且存在众多随机因素,难以用机理分析方法找出它们之间的关系;用机理分析方法找出它们之间的关系;需要建立这些变量的数学模型,使得能够根据自变量需要建立这些变量的数学模型,使得能够根据自变量的数值预测因变量的大小,或者解释因变量的变化。的数值预测因变量的大小,或者解释因变量的变化
2、。回归分析是数学建模的有力工具回归分析是数学建模的有力工具薪金与资历、教育程度、工作岗位薪金与资历、教育程度、工作岗位 收集一组包含因变量和自变量的数据;收集一组包含因变量和自变量的数据;选定因变量与自变量之间的模型,利用数据选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;按照最小二乘准则计算模型中的系数;利用统计分析方法对不同的模型进行比较,利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;找出与数据拟合得最好的模型;判断得到的模型是否适合于这组数据判断得到的模型是否适合于这组数据,诊断诊断有无不适合回归模型的异常数据;有无不适合回归模型的异常数据;利
3、用模型对因变量作出预测或解释。利用模型对因变量作出预测或解释。回归分析的主要步骤回归分析的主要步骤1.简化的实际问题及其数学模型简化的实际问题及其数学模型2.一元线性回归一元线性回归3.多元线性回归多元线性回归4.非线性回归非线性回归回归分析回归分析(Regression Analysis)从应用角度介绍回归分析的从应用角度介绍回归分析的基本原理、方法和软件实现基本原理、方法和软件实现 一一.拟合.设有变量设有变量x,y,根据一组数据,根据一组数据(xi,yi),i=1,2,n,视为,视为平面上的平面上的 n 个点,寻求一个函数个点,寻求一个函数 y=f(x),使,使 y=f(x)在某种在某种
4、准则下与所有的数据点准则下与所有的数据点(xi,yi)总体上最接近。总体上最接近。线性最小二乘法线性最小二乘法令令 f(x)=b1r1(x)+b2r2(x)+bmrm(x)其中其中rk(x)是事先选定的一组函数是事先选定的一组函数,bk是待定系数是待定系数,k=1,2,mQ(b1,b2,bm)=niiiniiyxf1212)(minQ(b1,b2,bm)=niiiniiyxf1212)(min得,2,1,0mkbQknimkiikkimnimkiikkiyxrbxryxrbxr111110)()(0)()(nmmnnmnmyyybbbxrxrxrxrR111111,)()()()(记0 yRb
5、RTyRRbRTT当当 r1(x),r2(x),rm(x)线性无关时,线性无关时,R列满秩,故列满秩,故RTR可逆可逆yRRRbTT1)(三三、多元线性回归模型.y=b0+b1x1+b2x2+bkxk+e对对 n 组数据组数据(xi1,xi2,xik,yi)i=1,2,n记记111)1(0)1(111111,11,nnkkknnknknneeebbbxxxxXyyY Y=Xb+emin Q(b)=|Y Xb|2得得YXXXbTT1)(例2.求拟合下列数据的最小二乘解x=.24.65.95 1.24 1.73 2.01 2.23 2.52 2.77 2.99y=.23-.26-1.10-.45.
6、27.10-.29.24.56 1解:xxycos之间具有三角函数关系与xexy系之间还具有指数函数关与xxyln系之间还具有对数函数关与因此假设拟合函数与基函数分别为xcexbxaxScosln)(xex)(2xxln)(0 xxcos)(100.511.522.53-1.5-1-0.500.51xy6.7941 -5.3475 63.2589-5.3475 5.1084 -49.008663.2589-49.0086 1002.5 1.6163-2.382726.7728通过计算,得法方程组的系数矩阵及常数项矩阵为00.511.522.53-1.5-1-0.500.51xy用Gauss列主
7、元消去法,得cba -1.0410 -1.2613 0.030735xexxxS030735.0cos2613.1ln0410.1)(*的最小二乘解是关于xy22*20)(*(miiiyxS20)030735.0cos2613.1ln0410.1(miixiiyexxi92557.0拟合的平方误差为例例2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1=管理人员,管理人员,0=非管理人员;教育非管理人员;教育 1=中学,中学,2=大学,大学,3=研究生研究生建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育
8、程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考.编编号号薪金薪金资资历历管管理理教教育育01138761110211608103031870111304112831020511767103编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员的档案资料 模型模型 y 薪金薪金,x1 资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理人员非管理人员1=中学中学2=大学大学3=研究生研究生
9、其它中学,x013其它大学,x014 资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用.教育教育线性回归模型线性回归模型 中学:中学:x3=1,x4=0;大大学:学:x3=0,x4=1;研究生:研究生:x3=0,x4=0 443322110 xxxxy由数据确定由数据确定43210,假设假设系数系数系数估计系数估计置信区间置信区间011032 10258 11807 1546 484 608 26883 6248 7517 3-2994-3826 -2162 4148-636 931 R2=0.957 F=226 p=0.
10、000R2,F,p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员多管理人员多6883 中学程度比更高的少中学程度比更高的少2994 大学程度比更高的多大学程度比更高的多148 4置信区间包含零点,置信区间包含零点,解释不可靠解释不可靠!443322110 xxxxy考察残差考察残差 是否为是否为N(0,(0,2 2)yyee 与资历与资历x1的关系的关系 05101520-2000-1000010002000 e与管理与管理教育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正,或全为负,残差全为正,或全为负,管理管理教
11、育组合处理不当教育组合处理不当 残差大概分成残差大概分成3个水平,个水平,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映 应增加应增加x2与与x3,x4的交互项的交互项 组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合用残差分析发现交互作用用残差分析发现交互作用 增加管理增加管理x2与教育与教育x3,x4的交互项的交互项系数系数系数估计值系数估计值置信区间置信区间01120411044 113631497486 508270486841 72553-1727-1939 -15144-348-545 1525-3071-3372
12、-2769618361571 2101R2=0.999 F=554 p=0.000R2,F有改进,所有回归系数置信有改进,所有回归系数置信区间都不含零点,模型完全可用区间都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据(33号号)应去掉应去掉 05101520-1000-5000500e x1 123456-1000-5000500e 组合组合426325443322110 xxxxxxxxy去掉异常数据后去掉异常数据后的结果的结果系数系数系数估计值系数估计值置信区间置信区间01120011139 112611498494 503270416962 71203-17
13、37-1818 -16564-356-431 2815-3056-3171 2942619971894 2100R2=0.9998 F=36701 p=0.000005101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2:0.957 0.999 0.9998F:226 554 36701 置信区间长度更短置信区间长度更短残差残差图十分正常图十分正常最终模型的结果可以应最终模型的结果可以应用用模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金(资历资历x1 1=0)大学程度管理人员比大学程度管理人员比更高更高程度管理人员的薪金高程度管理人员的薪金高 大学程度非管理人员比大学程度非管理人员比更高更高程度非管理人员的薪金略低程度非管理人员的薪金略低 426325443322110 xxxxxxxxy组合组合管理管理x2 教育教育(x3,x4)系数系数“基础基础”薪薪金金10(1,0)0+3946321(1,0)0+2+3+51344830(0,1)0+41084441(0,1)0+2+4+61988250(0,0)01120061(0,0)0+218241