1、 另一类是另一类是相关关系相关关系。例如消费者对某种商品的月。例如消费者对某种商品的月需求量与该种商品的价格的关系。又如农作物的需求量与该种商品的价格的关系。又如农作物的单位面积产量与降雨量、施肥量等的关系。这类单位面积产量与降雨量、施肥量等的关系。这类关系不能用函数来表达。变量之间的这种非确定关系不能用函数来表达。变量之间的这种非确定性关系,称为相关关系。性关系,称为相关关系。 对于相关关系,虽然不能求出变量之间精确的函对于相关关系,虽然不能求出变量之间精确的函数关系式,但是通过大量的观测数据,可以发现数关系式,但是通过大量的观测数据,可以发现它们之间存在着一定的统计规律性。它们之间存在着一
2、定的统计规律性。 由一个(或一组)非随机变量来估计或预测某一由一个(或一组)非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型和所个随机变量的观测值时,所建立的数学模型和所进行的统计分析,称为回归分析。如果这个模型进行的统计分析,称为回归分析。如果这个模型是线性的,就称为线性回归分析。研究两个变量是线性的,就称为线性回归分析。研究两个变量间的相关关系的回归分析,称为一元回归分析。间的相关关系的回归分析,称为一元回归分析。4.1.一元线性回归模型一元线性回归模型 在一元回归分析里,我们要考察的是随机变在一元回归分析里,我们要考察的是随机变量量 与非随机变量与非随机变量 之间的相互关
3、系。虽然之间的相互关系。虽然 和和 之间没有确定的函数关系。但是我们可以之间没有确定的函数关系。但是我们可以借助函数关系来表达它们之间的统计规律性。借助函数关系来表达它们之间的统计规律性。用以近似地描述具有相关关系的变量间的联系用以近似地描述具有相关关系的变量间的联系的函数,称为回归函数。的函数,称为回归函数。 YxYx 由于由于 与与 之间不存在完全确定的函数关系,之间不存在完全确定的函数关系,因此必须把随机波动产生的影响考虑在内。于是因此必须把随机波动产生的影响考虑在内。于是有一元线性回归模型的一般形式为有一元线性回归模型的一般形式为xY0120,YxED其中其中 是固定的未知参数,也称为
4、回归系数,是固定的未知参数,也称为回归系数,自变量自变量 是非随机可精确观测的,是非随机可精确观测的, 是均值为是均值为0,方差为方差为 的随机变量,在模型中它代表其他随的随机变量,在模型中它代表其他随机因素对机因素对Y产生的影响。产生的影响。01, x2x( )yE Y 一元线性回归分析的主要任务是用样本值对一元线性回归分析的主要任务是用样本值对回归系数回归系数 和和 作点估计;对作点估计;对 作假设检作假设检验;在验;在 处对处对 作预测,并对作预测,并对 作区间估计。作区间估计。01, 0 xxy记记 ,则,则 ,称为,称为 对对 的的回归直线方程。回归直线方程。01yxy01, y10
5、1121()(),()niiiniixxyyyxxx 的无偏估计为的无偏估计为2211()2neiiiyyn2残差平方和残差平方和参数参数 的置信水平为的置信水平为 的置信区间为的置信区间为22001122221111(2),(2)()()eenniiiixxtntnnnxxxx01参数参数 的置信水平为的置信水平为 的置信区间为的置信区间为1111222211(2)(2),()()eenniiiinnttxxxx11参数参数 的置信水平为的置信水平为 的置信区间为的置信区间为221122122()(),(2)(2)nniiiiiiyyyynn21用用 的回归值的回归值 作为作为 的预测值,的
6、预测值,同时同时 的置信水平为的置信水平为 的预测区间为的预测区间为200122120012211()(2) 1,()1()(2) 1()eniieniixxytnnxxxxytnnxx0y10010 yx0y0y4.2. 多元线性回归模型多元线性回归模型 有多个自变量的线性回归模型称为多元线性有多个自变量的线性回归模型称为多元线性回归模型。假定回归模型。假定 是一个可以观测的随机变量,是一个可以观测的随机变量, 为为k个自变量,且有个自变量,且有Y12,kx xx01 122(1)kkYxxx现假定对于变量现假定对于变量 与自变量与自变量 已得到已得到n组观测数据如下:组观测数据如下:Y12
7、,kx xx 与与 观测值表观测值表ix 变量 序号 1 2 nY1x2x11xkxY21x1kx1y2yny12x1nx22x2nx2kxknx在理论模型式(在理论模型式(1)下,可以认为表中数据满足)下,可以认为表中数据满足YX01 12 2(1,2,)jjjk kjjyxxxjn若记若记11121100212222111211,1kknnnknkkyxxxyxxxYXyxxx则上式可用矩阵表示为则上式可用矩阵表示为未知参数未知参数 估计式为估计式为1()TTX XX Y于是,有经验回归方程为于是,有经验回归方程为01Tk01122kkyxxx 的无偏估计为的无偏估计为2221()1nii
8、iyynk对于给定自变量对于给定自变量 ,用,用来预测来预测*12,kx xx*01122kkyxxx 称称 为为 的点预测,的点预测, 的的 的置信区间为的置信区间为* y100210021(1), 1(1)kkijijijkkijijijyc x x tnkyc x x tnk*01 122kkyxxx*yy11()()ijTCcX X4.3 利用利用Matlab软件实现软件实现 (1)b,bint,r,rint,stats=regress(Y,X,alpha),其中其中b是回归方程中的参数估计值,是回归方程中的参数估计值,bint是是b的置信的置信区间,区间,r和和rint分别表示残差及
9、残差对应的置信区间。分别表示残差及残差对应的置信区间。Stats包含三个数字,分别是相关系数,包含三个数字,分别是相关系数,F统计量及统计量及对应的概率对应的概率p值。值。其中其中 ,因变量数据向量,因变量数据向量Y和自变量数据矩阵和自变量数据矩阵X按以按以下排列方式输入下排列方式输入一、多元线性回归一、多元线性回归 1121111222221211,1kknnknnxxxyxxxyXYxxxy对一元线性回归,取对一元线性回归,取k1即可。即可。(2)当要画出残差及其置信区间,使用命令)当要画出残差及其置信区间,使用命令 rcoplot(r,rint) 作残差分析图。作残差分析图。 01012
10、7.0269,22.3226,31.7313140.6194,111.7842,169.454627.0269140.6194yxx例例4.1 某种合金强度与炭含量有关,研究人员在生产某种合金强度与炭含量有关,研究人员在生产试验中收集了该合金的强度试验中收集了该合金的强度y与炭含量与炭含量x的数据。试的数据。试建立建立y与与x的函数关系模型,并检验模型的可信度,的函数关系模型,并检验模型的可信度,检查数据中有无异常点。检查数据中有无异常点。(一元线性回归)(一元线性回归)该合金的强度该合金的强度y与炭含量与炭含量x的数据表的数据表x0.100.110.120.130.140.150.160.1
11、70.180.200.210.23y42.041.545.045.545.047.549.055.050.055.055.560.501 1221266.51760.41390.2698yxxxx例例4.2 某厂生产的一种商品的销售量某厂生产的一种商品的销售量y与竞争对手的与竞争对手的价格价格x1和本厂的价格和本厂的价格x2有关,其销售记录见下表。有关,其销售记录见下表。试建立试建立y与与x1,x2的关系式,并对得到的模型和系数的关系式,并对得到的模型和系数进行检验。进行检验。(多元线性回归)(多元线性回归)销售量与价格统计表销售量与价格统计表序号12345678910 x1120140190
12、130155175125145180150 x210011090150210150250270300250 y10210012077469326696585例例4.3 某销售公司将其连续某销售公司将其连续18个月的库存占用资金情个月的库存占用资金情况、广告投入的费用、员工薪酬以及销售额等方面的况、广告投入的费用、员工薪酬以及销售额等方面的数据做了汇总。该公司的管理人员试图根据这些数据数据做了汇总。该公司的管理人员试图根据这些数据找到销售额与其他找到销售额与其他3个变量之间的关系,以便进行销个变量之间的关系,以便进行销售额预测并为未来的工作决策提供参考依据。售额预测并为未来的工作决策提供参考依据
13、。(1)试建立销售额的回归模型;)试建立销售额的回归模型;(2)如果未来某月库存资金额为)如果未来某月库存资金额为150万元,广告投万元,广告投入预算为入预算为45万元,员工薪酬总额为万元,员工薪酬总额为27万元,试根据万元,试根据建立的回归模型预测该月的销售额。建立的回归模型预测该月的销售额。 (多元线性回归)(多元线性回归)月份库存资金额(x1)广告投入(x2) 员工薪酬总额(x3) 销售额(y)175.230.621.11090.42 77.631.321.41133380.733.922.91242.147629.621.41003.2579.532.521.51283.2681.82
14、7.921.71012.1798.324.821.51098.8867.723.621826.397433.922.41003.3月份库存资金额(x1)广告投入(x2) 员工薪酬总额(x3) 销售额(y)1015127.724.71554.611 90.845.523.2119912102.342.624.31483.113115.64023.11407.11412545.829.11551.315137.851.724.61601.216175.667.227.52311.717155.26526.52126.718174.365.426.82256.5012301 1223 3123162
15、.0632, 580.3603,904.48677.2739,4.3734,10.174313.9575,7.1649,20.75014.3996, 46.7796,37.9805162.06327.273913.95754.3996yxxxxxx 二、非线性回归二、非线性回归 非线性回归是指因变量非线性回归是指因变量 对回归系数对回归系数 (而不是自变量)是非线性的(而不是自变量)是非线性的 。 01,m ybeta,r, jnlinf it(x,y,model,beta0)其中,输入数据其中,输入数据 分别为分别为 矩阵和矩阵和n列向量,列向量,对于一元非线性回归,对于一元非线性回归, 为
16、为n 列向量;列向量;model是事是事先用先用m文件定义的非线性函数;文件定义的非线性函数;beta0是回归系数是回归系数的初值;的初值;beta是估计出的回归系数;是估计出的回归系数;r为残差,为残差,j为为, x ynmxJacobian矩阵,它们是估计预测误差需要的数据。矩阵,它们是估计预测误差需要的数据。例例4.4 测定某雌性鱼体长(测定某雌性鱼体长(cm)和体重()和体重(kg)的结)的结果如下表,试对鱼体重与体长进行回归分析。果如下表,试对鱼体重与体长进行回归分析。(非线性回归)(非线性回归)鱼体长与体重数据表鱼体长与体重数据表序号 1 2 3 4 5 6 7 8体长x70.70
17、98.25112.57122.48138.46148.00152.00162.00体重y1.004.856.599.0112.3415.5021.2522.11解:首先定义非线性函数解:首先定义非线性函数 function y=yut(beta,x) y=beta(1)*x.beta(2); 其次设计主程序其次设计主程序 x=70.70,98.25,112.57,122.48,138.46,148.00,152.00,162.00; y=1.00,4.85,6.59,9.01,12.34,15.50,21.25,22.11; beta0=0.1,3; 求回归系数求回归系数 beta,r,j=n
18、linfit(x,y,yut,beta0); beta %预测及作图预测及作图 YY,delta=nlpredci(yut,x,beta,r,j); plot(x,y,k+,x,YY,r)三、一元多项式回归三、一元多项式回归 1、确定多项式系数、确定多项式系数 p,S=polyfit(x,y,m) 说明:说明:x=(x1,x2,xn), y=(y1,y2,yn); 是多项式是多项式 的系数;的系数;S是一个矩阵是一个矩阵,用来估计预测误差用来估计预测误差 1121mmmmya xa xa x a121(,)mmpa aaa2、预测和预测误差估计、预测和预测误差估计(1)Y=polyval(p,
19、x) 求求polyfit所得的回归多项式在所得的回归多项式在x处的预测值处的预测值Y (2)Y,DELTA=polyconf(p,x,S,alpha) 求求polyfit所得的回归多项式在所得的回归多项式在x处的预测值处的预测值Y及预测及预测值的显著性为值的显著性为1-alpha的置信区间的置信区间YDELTA,alpha缺省时为缺省时为0.5 例例4.5 为了分析为了分析X射线的杀菌作用,用射线的杀菌作用,用200kv的的X射线射线来照射细菌,每次照射来照射细菌,每次照射6min,照射次数记为,照射次数记为t,照射,照射后的细菌数如下表。试求后的细菌数如下表。试求(1)y与与t的二次函数与三次函数关系;的二次函数与三次函数关系;(2)在同一坐标系内作出原始数据与拟合结果的散)在同一坐标系内作出原始数据与拟合结果的散点图。点图。 t12345678 y35221119716014210610460 t9101112131415 y56383632211915221.989751.1394347.8967ytt二次回归模型为二次回归模型为3230.17776.255779.3303391.4095yttt三次回归模型为三次回归模型为