1、1建立实际回归模型的过程建立实际回归模型的过程实际问题实际问题设置指标变量设置指标变量 解释变量的重要性;不相关性;用相近的变量代替或几个指标复合;个数适当这个过程需反复试算收集整理数据收集整理数据 时间序列数据:随机误差项的序列相关,如人们的消费习惯 横截面数据:随机误差项的异方差性,如居民收入与消费 样本容量的个数应比解释变量个数多 缺失值,异常值处理构造理论模型构造理论模型 绘制 yi 与 xi 的样本散点图,如生产函数、投资函数、需求函数估计模型参数估计模型参数最小二乘,偏最小二乘,主成分回归等,依靠软件.模型检验模型检验统计检验和模型经济意义检验,从设置指标变量修改模型运用模型运用
2、经济因素分析、经济变量控制、经济决策预测2线性回归实例选讲牙膏的销售量线性回归实例选讲牙膏的销售量 1. 问题问题建立建立牙膏销售量与价格、广告投入之间的牙膏销售量与价格、广告投入之间的模型模型;预测预测在不同价格和广告费用下的牙膏在不同价格和广告费用下的牙膏销售量销售量. 收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价广告费用,及同期其他厂家同类牙膏的平均售价 .9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.
3、503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其他厂家其他厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期3 确定关系:确定关系: 牙膏销售量牙膏销售量价格、广告投入价格、广告投入 内部规律复杂内部规律复杂数据统计分析数据统计分析 常用模型常用模型回归模型回归模型数学原理数学原理软件软件 30个销售周期数据:个销售周期数据: 销售量、价格、广告费用、同类产品均价销售量、价格、广告费用、同类产品均价销售周期 公司价 (元) 它厂价 (元) 广告(百万元)价差(元)销售量(百万支)13.853.805.50-0.057.3
4、823.754.006.750.258.51293.803.855.800.057.93303.704.256.800.559.2642. 基本模型基本模型011yx201222yxx55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1yv y 公司牙膏销售量v x1其它厂家与本公司价格差v x2公司广告费用解释变量(回归变量, 自变量) 被解释变量(因变量) v 多元回归模型多元回归模型22322110 xxxy5Matlab Matlab 统计分析统计分析 rcoplot(r,rint) 残差残差及其置信区间作图及其置信
5、区间作图 MATLAB7.0版本版本 s增加一个统计量增加一个统计量: 剩余方差剩余方差s2b , bint , r , rint , stats = regress( y , X , alpha )statistics toolbox01 122nnyxxx解释变量:矩阵显著性水平:0.05 系数 估计值 置信区间 残差向量向量y-xb 置信区间 被解释变量:列检验统计量:R2,F,p 随机误差:正态分布均值为零回归系数x=1 2221xxx3. 模型求解模型求解由数据由数据 y,x1,x2估计估计 x=ones(size(x1),x1,x2,x2.2;b,bint,r,rint,stats
6、=regress(y,x)程序程序64. 结果分析结果分析参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0490 0 1 2 320112232yxxx, 故故x22项显著项显著 但可将但可将x2保留在模型中保留在模型中 v 即:即:212217.32 1.313.700.35yxxxy的的90.54%可由模型确定、可由模型确定、 F远超过远超过F检验的临界检验的临界
7、值、值、 p远小于远小于 =0.05v 显著性显著性 :整体显著:整体显著v x2 : 2 置信区间包含零点置信区间包含零点, 但右端点距零点很近但右端点距零点很近 x2 对因变量对因变量 y 的影响不太显著;的影响不太显著;v 3 显著显著7v 控制价格差控制价格差 x1=0.2元,投入广告费元,投入广告费 x2=6.5 百万元百万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 v 若估计若估计 x3=3.9,设定,设定 x4=3.7201122328.2
8、933yxxx (百万支百万支)销售量预测销售量预测22322110 xxxy价差价差x1=它厂价它厂价x3-公司价公司价x4估计估计x3,调整,调整x4控制控制x1预测预测yv 得得 则可以则可以 95%的把握知道销售额在的把握知道销售额在 7.8320 3.7 29(百万(百万 元)以上元)以上85. 模型改进模型改进x1和和x2对对y的的影响独立影响独立 20112232yxxx20112232412yxxxx x 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.
9、34860.0379 0.6594 R2=0.9054 F=82.9409 p0.0001 s2=0.0426 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p0.0001 s2=0.0490 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用比较:比较:置信区间置信区间, R29比较比较: 两模型销售量预
10、测两模型销售量预测v控制价格差控制价格差 x1=0.2 元,投入广告费元,投入广告费 x2=6.5 百万元百万元21422322110 xxxxxy22322110 xxxy2933.8 y(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592 3272.8 y(百万支百万支)预测区间长度更短预测区间长度更短 略有增加略有增加 y 10 x2=6.5x1=0.2 -0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 2011
11、2232 yxxx 20112232412 yxxxx x 6. 比较比较:两模型两模型 与与x1, x2的关系的关系y 11讨论:交互作用影响讨论:交互作用影响 价格差价格差 x1=0.1 价格差价格差 x1=0.32221 . 06712. 07558. 72267.301xxyx2223 . 06712. 00513. 84535.321xxyx21422322110 xxxxxy5357. 72x广告投入广告投入y ( x2大于大于6百万元)百万元)价格差较小时价格差较小时增加的速率更大增加的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1 . 0
12、3 . 011xxyy价格优势价格优势y 价格差较小价格差较小广告作用大广告作用大x1x22122214777. 16712. 06080. 71342.11133.29xxxxxy12多元二项式回归多元二项式回归命令:rstool(x,y,model, alpha)nm矩阵显著性水平(缺省时为0.05)n维列向量13完全二次多项式模型完全二次多项式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57y ),(543210从输出从输出 Export 可得可得鼠标移动十字线鼠标移动十字线
13、(或下方窗口输入或下方窗口输入)可改变可改变x1, x2, 左边窗口左边窗口显示预测值显示预测值 及预测区间及预测区间y Rstool(x,y,model,alpha,xname,yname)14牙膏的销售量牙膏的销售量 建立统计回归模型的基本步骤建立统计回归模型的基本步骤 根据已知数据从常识和经验分析根据已知数据从常识和经验分析, 辅之以作图辅之以作图, 决定回归变量及函数形式决定回归变量及函数形式(先取尽量简单的形式先取尽量简单的形式). 用用软件软件(如如MATLAB统计工具箱统计工具箱)求解求解. 对结果作对结果作统计分析统计分析: R2,F, p, s2是对模型整体评价是对模型整体评
14、价, 回归系数置信区间是否含零点检验其影响的显著性回归系数置信区间是否含零点检验其影响的显著性. 模型改进模型改进, 如增添二次项、交互项等如增添二次项、交互项等. 对因变量进行对因变量进行预测预测.15非线性回归实例选讲酶促反应非线性回归实例选讲酶促反应 问问题题研究酶促反应(酶催化反应)中研究酶促反应(酶催化反应)中嘌呤霉素嘌呤霉素(处理与否处理与否)对反应速度与底物(反应物)浓对反应速度与底物(反应物)浓度之间关系的影响度之间关系的影响. 酶促反应酶促反应 由酶作为催化剂催化进行的化学反应由酶作为催化剂催化进行的化学反应 生物体内的化学反应绝大多数属于酶促反应生物体内的化学反应绝大多数属
15、于酶促反应 酶促反应中酶作为高效催化剂使得反应以极快的速度酶促反应中酶作为高效催化剂使得反应以极快的速度(1031017倍)或在一般情况下无法反应的条件下进行倍)或在一般情况下无法反应的条件下进行 酶是生物体内进行各种化学反应最重要的因素酶是生物体内进行各种化学反应最重要的因素16 建立数学模型,反映该酶促反应的速度与底物建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系浓度以及经嘌呤霉素处理与否之间的关系 设计了两个实验设计了两个实验 酶经过嘌呤霉素处理酶经过嘌呤霉素处理 酶未经嘌呤霉素处理酶未经嘌呤霉素处理 实验数据实验数据:底物浓度底物浓度(ppm)(ppm)0
16、.020.060.11反应速反应速度度处理处理764797107123139未处理未处理6751848698115底物浓度底物浓度(ppm)(ppm)0.220.561.10反应速反应速度度处理处理159152191201207200未处理未处理131124144158160/1700.511.5050100150200250经嘌呤霉经嘌呤霉素处理素处理xy00.511.5050100150200250未经嘌呤未经嘌呤霉素处理霉素处理xyxy0 1 1/2 2 2 (半速度点半速度点)分分析析Michaelis-Menten模型xxxfy21),(待定系数 =( 1 , 2)基本模型 酶促反应
17、的速度底物浓度v 酶促反应的基本性质酶促反应的基本性质 底物浓度较小时,反应速度大致与浓度成正比;底物浓度较小时,反应速度大致与浓度成正比; 底物浓度很大、渐进饱和时,反应速度趋于固定值底物浓度很大、渐进饱和时,反应速度趋于固定值数据数据分析分析18解决方案一:线性化模型解决方案一:线性化模型 v经嘌呤霉素处理后实验数据的估计结果经嘌呤霉素处理后实验数据的估计结果 参数参数参数估计值(参数估计值(10-3)置信区间(置信区间(10-3) 15.1073.539 6.676 20.2470.176 0.319R2=0.8557 F=59.2975 pk, a1(n)=0, a2(n)=0, a3
18、(n)=1v从状态从状态3不会转移到其它状态。不会转移到其它状态。n012350a1(n)10.80.7570.72850.12930a2(n)00.180.1890.18350.03260a3(n)00.020.0540.08800.8381153理论理论v 状态状态1,2,(0,1,)nXkn1)(1nakiikippkjijij, 2 , 1, 1, 01()ijk kPpPnana)() 1(kipnanakjjiji, 2 , 1,)() 1(1v 基本方程基本方程12( )( ),( ),( )ka na n a nannPana)0()(马氏链的基本方程马氏链的基本方程1(),
19、,1,2,0,1,ijnnpP Xj Xii jn( )(),1,2,0,1,ina nP Xiinv 状态概率状态概率v 转移概率转移概率54 1 1、正则链、正则链马氏链的两个重要类型马氏链的两个重要类型Pnana)() 1(wPwv任一状态出发经有限次转移任一状态出发经有限次转移以正概率到达另外任一状态以正概率到达另外任一状态,0NN P ,( )()w a nw n 0.8 0.20.7 0.3P) 9/2 , 9/7 (w2211213 . 02 . 07 . 08 . 0wwwwww11kiiw121ww217 . 02 . 0ww w 稳态概率稳态概率v例例1:特征向量特征向量定
20、义定义 对于马氏链,若存在一正整对于马氏链,若存在一正整 数数N,使其转移矩阵,使其转移矩阵 的的N次幂次幂MN0(每一分量均大(每一分量均大 于于0),则称此马尔链为一正则(),则称此马尔链为一正则(regular)链。)链。55v 存在吸收状态存在吸收状态v一旦到达就不会离开的状态一旦到达就不会离开的状态v且从任一非吸收状态出发经有限次转移能以正概率到且从任一非吸收状态出发经有限次转移能以正概率到达吸收状态达吸收状态 2 2、吸收链、吸收链QRIPrr0有非零元素有非零元素01)(ssQQIMTe) 1 , 1 , 1 (Meyyyyrk),(21yi 从第从第 i 个非吸收状态出发,被某
21、个非吸收状态出发,被某个吸收状态吸收前的平均转移次数个吸收状态吸收前的平均转移次数Pnana)() 1(v转移矩阵:转移矩阵:n-r个非吸收状态个非吸收状态有有r个吸收状态个吸收状态56v 钢琴销售钢琴销售v售量很小售量很小v商店的库存量不大以免积压资金商店的库存量不大以免积压资金v一家商店根据经验估计:平均每周的钢琴需求为一家商店根据经验估计:平均每周的钢琴需求为1架架v 存贮策略存贮策略v每周末检查库存量每周末检查库存量v仅当库存量为零时,才订购仅当库存量为零时,才订购3架供下周销售架供下周销售v否则,不订购。否则,不订购。 v 问题:问题:v估计在这种策略下失去销售机会的可能性有多大,以
22、估计在这种策略下失去销售机会的可能性有多大,以及每周的平均销售量是多少。及每周的平均销售量是多少。背景与问题背景与问题57分析与假设分析与假设v 需求:顾客的到达相互独立需求:顾客的到达相互独立v需求量近似服从波松分布,其参数由需求均值为每周需求量近似服从波松分布,其参数由需求均值为每周1架架确定确定 计算不同的需求概率计算不同的需求概率v 失去销售机会:需求超过库存失去销售机会:需求超过库存动态过程动态过程概率概率v 存贮策略:周末库存量为零时订购存贮策略:周末库存量为零时订购3架架, 周初到货;否则,不周初到货;否则,不订购订购v周末的库存量:周末的库存量:0, 1, 2, 3v周初的库存
23、量:周初的库存量:1, 2, 3共三种状态共三种状态v 用马氏链描述不同需求导致的周初库存状态的变化用马氏链描述不同需求导致的周初库存状态的变化v以每周初的库存量作为状态变量以每周初的库存量作为状态变量v状态转移具有无后效性状态转移具有无后效性v 在稳态情况下在稳态情况下时间充分长以后时间充分长以后v计算该存贮策略失去销售机会的概率、每周的平均销售量计算该存贮策略失去销售机会的概率、每周的平均销售量动态过程中每周销售量不同,失去动态过程中每周销售量不同,失去销售机会(需求超过库存)的概率销售机会(需求超过库存)的概率不同不同. . 58v 状态转移规律状态转移规律模型模型Dn第第n周需求量:泊
24、松分布周需求量:泊松分布 1()(0,1,2)!neP Dkkk状态变量:状态变量:Sn第第n周初库存量周初库存量nnnnnnnSDSDDSS, 3,13 , 2 , 1nS均值为均值为1v需求量需求量需求量需求量进货量进货量Pnana)() 1(v状态转移矩阵状态转移矩阵333231232221131211pppppppppP3 , 2 , 1nS59 则则368. 0)0() 11(111nnnDPSSPp0) 12(112nnSSPp0.368 00.6320.368 0.368 0.2640.184 0.368 0.448p448. 0) 3() 0() 33(133nnnnDPDPS
25、SPp计算计算632. 0) 1() 13(113nnnDPSSPpDn第第n周需求量,均值为周需求量,均值为1的泊松分布的泊松分布 1()/ ! (0,1,2,)enP DkkkDn 0 1 2 3 3P 0.368 0.368 0.184 0.061 0.019Sn第第n周初库存量周初库存量(状态变量状态变量 )状态转状态转移规律移规律 nnnnnnnSDSDDSS, 3,13 , 2 , 1nS60v 状态概率状态概率v 马氏链的基本方程马氏链的基本方程3 , 2 , 1),()(iiSPnani123(,)(0.285,0.263,0.452)ww w w已知初始状态:可预测第已知初始
26、状态:可预测第n周初库存量周初库存量Sn=i 的概率的概率20P n, 状态概率状态概率 )452. 0 ,263. 0 ,285. 0()(naPnana)() 1(已知已知0.368 00.6320.368 0.368 0.2640.184 0.368 0.448p,0NN P正则链正则链正则链正则链稳态概率分布稳态概率分布 w 满足满足 wP=w模型建立模型建立 61v 估计在这种策略下失去销售机会的可能性估计在这种策略下失去销售机会的可能性v第第n周失去销售机会的概率周失去销售机会的概率模型求解模型求解)(nnSDPn充分大时充分大时 iw105. 0452. 0019. 0263.
27、0080. 0285. 0264. 031() ()nnniP Di Si P Si321) 3() 2() 1(wDPwDPwDP(0.285,0.263,0.452)稳态概率分布稳态概率分布1()(0,1,2)!neP Dkkk需求需求 库存库存从长期看,失去销售机会的可能性大约从长期看,失去销售机会的可能性大约 10%D 0 1 2 3 3P 0.368 0.368 0.184 0.061 0.01962v估计这种策略下每周的平均销售量估计这种策略下每周的平均销售量 第第n周平均售量周平均售量311(,)(,)innnnnijRjP Dj SiiP Di Si857. 0452. 097
28、7. 0263. 0896. 0285. 0632. 0)( )()(311iSPiSiDiPiSjDPjninnnnij n充分大时充分大时 iw需求不超过存量需求不超过存量,需求被售需求被售需求超过存量需求超过存量,存量被售存量被售需求需求存量存量从长期看,每周的平均销售量为从长期看,每周的平均销售量为 0.857(架架) inwiSP )(63 平均需求:每周平均需求:每周1 (架架) 附近波动时,结果有多大变化附近波动时,结果有多大变化 设设Dn服从均值为服从均值为 的柏松分布的柏松分布敏感性分析敏感性分析 ()(0,1,2 )!knP DkekkeeeeeeeeP) 2/(12/)1
29、 (11022状态转移阵状态转移阵Pnana)() 1(123nS 111(11)(0)nnnpP SSP D1nS64for i=1:10 lamda=0.5+0.1*i; d(i,1)=poisspdf(0,lamda); d(i,2)=poisspdf(1,lamda); d(i,3)=poisspdf(2,lamda); d(i,4)=poisspdf(3,lamda); d(i,5)=1-poisscdf(3,lamda); p1=d(i,1) 0 1-d(i,1);d(i,2) d(i,1) 1-d(i,1)-d(i,2);d(i,3) d(i,2) 1-d(i,2)-d(i,3)
30、; V,D=eig(p1); V1(i,:)=abs(V(:,1)/(1 1 1*V(:,1); P(i)=d(i,3)+d(i,4)+d(i,5),d(i,4)+d(i,5),d(i,5)*V1(i,:);endP)(nnSDPP第第n周周(n充分大充分大)失去销售机会的概率:失去销售机会的概率:v当平均需求当平均需求(=1.0)增长(或减少)增长(或减少)10%时,失去销售机时,失去销售机会的概率将增长(或减少)约会的概率将增长(或减少)约12% 0.80.91.01.11.2P0.0730.0890.1050.1220.139结果65钢琴销售的存贮策略钢琴销售的存贮策略 存贮策略存贮策略(周末库存为周末库存为0则订购则订购3架架, 否则不订购否则不订购)已定已定,计算计算两个指标两个指标(失去销售的概率和每周平均销售量失去销售的概率和每周平均销售量).动态随机存贮策略动态随机存贮策略是马氏链的典型应用是马氏链的典型应用. .关键是在无后效性的前提下恰当地定义系统的关键是在无后效性的前提下恰当地定义系统的状态状态变量变量(本例是每周初的库存量本例是每周初的库存量).