1、概论统计模型一一.传送系统的效率传送系统的效率二二.报童的诀窍报童的诀窍三.牙膏的销售量牙膏的销售量 四.轧钢中的浪费轧钢中的浪费概率模型概率模型 现实世界的变化受着众多因素的影响,包括确定的和随机的。如果从建模的背景、目的和手段看,主要因素是确定的,随机因素可以忽略,或者随机因素的影响可以简单地以平均值的作用出现,那么就能够建立确定性模型。如果随机因素对研究对象的影响必须考虑,就应建立随机模型。本章讨论如何用随机变量和概率分布描述随机因素的影响,建立随机模型-概率模型。统计模型统计模型 如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的模
2、型,那么通常要搜集大量的数据,基于对数据的统计分析建立模型,这就是本章还要讨论的用途非常广泛的一类随机模型统计回归模型。一一 传送系统的效率传送系统的效率在机械化生产车间里,排列整齐的工作台旁工人们紧张的生产同一种产品,工作台上放一条传送带在运转,带上设置若干钩子,工人将产品挂在经过他上方的钩子上带走,如图。当生产进入稳定状态后,每个工人生产一件产品所需时间是不变的,而他挂产品的时刻是随机的。衡量这种传送系统的效率可以看他能否及时把工人的产品带走。在工人数目不变的情况下传送带速度越快,带上钩子越多,效率越高。要求构造衡量传送系统效率的指标,并在简化假设下建立模型描述这个指标与工人数目、钩子数量
3、等参数的关系。传送带挂钩工作台1 1 模型分析模型分析 为了用传送带及时带走的产品数量来表示传送系统的效率,在工人生产周期(即生产一件产品的时间)相同的情况下,需要假设工人生产出一件产品后,要么恰好有空钩子经过工作台,他可以将产品挂上带走,要么没有空钩子经过,他将产品放下并立即投入下一件产品的生产,以保证整个系统周期性的运转。工人生产周期相同,但由于各种因素的影响,经过相当长的时间后,他们生产完一件产品的时刻会不一致,认为是随机的,并在一个生产周期内任一时刻的可能性一样。由上分析,传送系统长期运转的效率等价于一周期的效率,而一周期的效率可以用它在一周期内能带走的产品数与一周期内生产的全部产品数
4、之比来描述。2 2 模型假设模型假设3)在一周期内有 个钩子通过每一工作台上方,钩子均匀排列,到达第一个工作台上方的钩子都是空的。m4)每个工人在任何时刻都能触到一只钩子,且只能触到一只,在他生产出一件产品的瞬间,如果他能触到的钩子是空的,则可将产品挂上带走;如果非空,则他只能将产品放下。放下的产品就永远退出这个传送系统。1)有n个工人,其生产是独立的,生产周期是常数,个工作台均匀排列。n2)生产已进入稳态,即每个工人生产出一件产品的时刻在一个周期内是等可能性的。3 3 模型建立模型建立 将传送系统效率定义为一周期内带走的产品数与生产的全部产品数之比,记作 ,设带走的产品数为 ,生产的全部产品
5、数为 ,则 。需求出 。D得到 的步骤如下:(均对一周期而言)任一只钩子被一名工人触到的概率是 ;任一只钩子不被一名工人触到的概率是 ;由工人生产的独立性,任一只钩子不被所有 个工人挂上产品的概率,即任一只钩子为空钩的概率是 ;任一只钩子非空的概率是 。snnsD/s 如果从工人的角度考虑,分析每个工人能将自己的产品挂上钩子的概率,这与工人所在的位置有关(如第1个工人一定可挂上),这样使问题复杂化。我们从钩子角度考虑,在稳定状态下钩子没有次序,处于同等地位。若能对一周期内的 只钩子求出每只钩子非空的概率 ,则 。mpmps pm/1m/11nnm11nmp111s传送系统的效率指标为nmnmn
6、mpD111mn为了得到比较简单的结果,在钩子数 相对于工人数 较大,即 较小的情况下,将多项式 展开后只取前3项,则有mnnm11mnmnnmnnmD21121112如果将一周期内未带走的产品数与全部产品数之比记作E再假定1n,则mnEED2,1当40,10mn时,上式给出的结果为%5.87D用D的精确表达式计算得%4.89D4 4 模型评价模型评价这个模型是在理想情况下得到的,其中一些假设,如生产周期不变,挂不上钩子的产品退出系统等是不现实的,但模型的意义在于,一方面利用基本合理的假设将问题简化到能够建模的程度,并用简单的方法得到结果;另一方面所得到的简化结果具有非常简单的意义:指标DE1
7、与n成正比,与m成反比。通常工人数目 是固定的,n一周期内通过的钩子数 增加一倍,可使“效率”降低一倍。mE思考:思考:如何改进模型使“效率”降低?(可理解为相反意义的效率)考虑通过增加钩子数来使效率降低的方法:考虑通过增加钩子数来使效率降低的方法:在原来放置一只钩子处放置的两只钩子成为一个钩对。一周期内通过m个钩对,任一钩对被任意工人触到的概率mp/1,不被触到的概率pq1,于是任一钩对为空的概率是nq,钩对上只挂一件产品的概率是1nnpq,一周期内通过的m2个钩子中,空钩的平均数是12nnnpqqm带走产品的平均数是122nnnpqqmm未带走产品的平均数是122nnnpqqmmn按照上一
8、模型的定义,有111112211nnmmnmnmDEnm11和111nm的近似展开,可得2226621mnmnnEnm11展开取4项,111nm展开取3项。而上一模型中的方法有mnE41有1EEmn32当32 nm 时,1,所以该模型提供的方法比上一个模型好。注意:利用二二 报童的诀窍报童的诀窍问题:问题:报童每天清晨从报社购进报纸零售,晚上将没有卖掉的报纸退回。设报纸每份的购进价为b,零售价为a,退回价为c,假设abc。即报童售出一份报纸赚a-b,退回一份赔b-c。报童每天购进报纸太多,卖不完会赔钱;购进太少,不够卖会少挣钱。试为报童筹划一下每天购进报纸的数量,以获得最大收入。模型分析:购进
9、量由需求量确定,需求量是随机的。假定报童已通过自己的经验或其他渠道掌握了需求量的随机规律,即在他的销售范围内每天报纸的需求量为 份的概率是 (r=0,1,2,)有了 和 ,就可以建立关于购进量的优化模型。r rf rfcba,模型建立:假设每天购进量是n份,需求量r是随机的,r可以小于,等于或大于n,所以报童每天的收入也是随机的。那么,作为优化模型的目标函数,不能取每天的收入,而取长期卖报(月,年)的日平均收入。从概率论大数定律的观点看,这相当于报童每天收入的期望值,简称平均收入。记报童每天购进n份报纸的平均收入为 nG,如果这天的需求量nr,则售出r份,退回rn份;如果需求量nr 则n份将全
10、部售出。需求量为r的概率是 rf,则 nrnrrnfbarfrncbrbanG01问题归结为在 cbarf,已知时,求n使 nG最大。模型求解:ndrrpcbnnpbadndG0r通常需求量r和购进量n都相当大,将r视为连续变量便于分析和计算,这时概率 rf转化为概率密度函数 rp nndrrnpbadrrprncbrbanG0计算 drrpbadrrpcbdrrpbannpbannn0则令使报童日平均收入达到最大的购进量0dndG,得到 cbbadrrpdrrpnn0n应满足上式。因为 cabadrrpn0 10drrp,所以根据需求量的概率密度 rp的图形可以确定购进量n在图中用21,PP
11、分别表示曲线 rp下的两块面积,则cbbaPP21 rpO n r1P2P因为当购进超过n份报纸时,drrpPn01是需求量r不超过n的概率,即卖不完的概率;drrpPn2是需求量rn的概率,即卖完的概率,所以上式表明,购进的份数n应该使卖不完与卖完的概率之比,恰好等于卖出一份赚的钱ba与退回一份赔的钱cb之比。结论:结论:当报童与报社签订的合同使报童每份赚钱与赔钱之比越大时,报童购进的份数就应该越多。练习:练习:利用上述模型计算,若每份报纸的购进价为0.75元,售出价为1元,退回价为0.6元,需求量服从均值500份,均方差50份的正态分布,报童每天应购进多少份报纸才能使平均收入最高,最高收入
12、是多少?三三 牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(
13、元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1,x2解释变量解释变量(回归变量回归变量,自变量自变量)y被解释变量(因变量)被解释变量(因变量)0,1,2,3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分
14、布随机变量)正态分布随机变量)MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha)输入输入 x=n 4数数据矩阵据矩阵,第第1列为全列为全1向量向量1 2221xxxalpha(置信置信水平水平,0.05)22322110 xxxyb 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F,p yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.3244
15、5.7282 28.92061.30700.6829 1.9311-3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311-3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 322322110 xxxyF远超过远超
16、过F检验的临界值检验的临界值 p远小于远小于=0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近)x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整体上看成立模型从整体上看成立22322110 xxxy销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理
17、的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握知道销售额在知道销售额在 7.8320 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1,x2预测预测y2933.822322110 xxxy(百万支百万支)模型改进模型改进x1和和x2对对y的的影响独立影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311-3.6956-7
18、.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906-7.6080-12.6932 -2.5228 0.67120.2538 1.0887-1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用两模型销售量预测两模型销售量预测比较比较21422322110 xxxxx
19、y22322110 xxxy2933.8 y(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592 3272.8 y(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 y x2=6.5x1=0.2-0.200.20.40.67.588.59x1y-0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy两模型两模型 与与
20、x1,x2关系的关系的比较比较y 交互作用影响的讨论交互作用影响的讨论2221.06712.07558.72267.301xxyx价格差价格差 x1=0.1 价格差价格差 x1=0.32223.06712.00513.84535.321xxyx21422322110 xxxxxy5357.72x加大广告投入使销售量增加加大广告投入使销售量增加(x2大于大于6百万元)百万元)价格差较小时增加价格差较小时增加的速率更大的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1.03.011xxyy价格优势会使销售量增加价格优势会使销售量增加 价格差较小时更需要靠广告价
21、格差较小时更需要靠广告来吸引顾客的眼球来吸引顾客的眼球 完全二次多项式模型完全二次多项式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57x1x2y),(543210从输出从输出 Export 可得可得四 轧钢中的浪费轧钢中的浪费去掉多余去掉多余模型分析模型分析显然,如果粗轧时,均值调的比较长,那么整根报显然,如果粗轧时,均值调的比较长,那么整根报废的几率减小,但精轧时浪费比较大;废的几率减小,但精轧时浪费比较大;如果粗轧时均值调的比较短,那么精轧时浪费比较如果粗轧时均值调的比较短,
22、那么精轧时浪费比较小,但整根报废的几率会增加。小,但整根报废的几率会增加。模型分析模型分析应该存在最佳的应该存在最佳的m使总使总的浪费最小。的浪费最小。定性地分析:定性地分析:lldxxxpdxxplxW)()()(ldxxlpdxxxp)()(建模建模选择合适的目标函数选择合适的目标函数切掉多余部分切掉多余部分的浪费的浪费整根报废整根报废的浪费的浪费总浪费总浪费=+lPm粗轧一根钢材平均浪费长度粗轧一根钢材平均浪费长度粗轧粗轧N根根成品材成品材 PN根根成品材长度成品材长度l PN总长度总长度mNNlPNmN lPm共浪费长度共浪费长度 mN-lPN正态分布正态分布lPmPNlPNmN)()
23、(mPmmJ记222)(21)(,)()(mxlexpdxxpmP 选择合适的目标函数选择合适的目标函数粗轧一根钢材平均浪费长度粗轧一根钢材平均浪费长度lPmNlPNmN得到一根成品材平均浪费长度得到一根成品材平均浪费长度更合适的目标函数更合适的目标函数优化模型:求优化模型:求m 使使J(m)最小(已知最小(已知l,)建模建模粗轧粗轧N根得成品材根得成品材 PN根根,mxylm,)()(J2221)()()(yzeydyyz)()(mPmmJ222)(21)()()(mxlexpdxxpmPz)()()(zzzJ)()(J求解求解求求 z 使使J(z)最小(已知最小(已知 )求解求解)()()
24、(zzzJ0)()()(zzz)(/)(zzz)()(zz0dzdJ)(/)()()(zzzFzzF2221)()()(yzeydyyz1.02.00-1.0-2.0105F(z)z简表)()()(zzzFz*z例例设设l=2(米米),=20(厘米厘米),求求 m 使浪费最小。使浪费最小。=l/=10z*=-1.78*=-z*=11.78m*=*=2.36(米米)求解求解1.2530.8760.6560.5160.4200.3550227.0-3.00.556.79-2.51.018.10-2.01.57.206-1.52.02.53.4771.680-1.0-0.5zzF(z)F(z)zzF)(lm ,