数学建模-第二章-概率统计模型课件.pptx

上传人(卖家):三亚风情 文档编号:3203814 上传时间:2022-08-03 格式:PPTX 页数:85 大小:4.21MB
下载 相关 举报
数学建模-第二章-概率统计模型课件.pptx_第1页
第1页 / 共85页
数学建模-第二章-概率统计模型课件.pptx_第2页
第2页 / 共85页
数学建模-第二章-概率统计模型课件.pptx_第3页
第3页 / 共85页
数学建模-第二章-概率统计模型课件.pptx_第4页
第4页 / 共85页
数学建模-第二章-概率统计模型课件.pptx_第5页
第5页 / 共85页
点击查看更多>>
资源描述

1、第二章 概率统计模型一个例子一个例子 二战时期,为了提高飞机的防护能力,英国的科学家、设计师和工程师决定给飞机增加护甲.为了不过多加重飞机的负载,护甲必须加在最必要的地方,那么是什么地方呢?统计学家将每架中弹但仍返航的飞机的中弹部位描绘在图纸上,然后将这些图重叠,形成了一个密度不均的弹孔分布图.统计学家拿着这张分布图,指着那些没有弹孔的地方说,这就是要增加护甲的地方,因为这地方中弹的飞机都 没能返回。例子的背后例子的背后 上面的例子可以领略到统计学的精彩之处。统计模型是数学模型的重要组成部分,尤其对具有大量数据的对象,统计建模具有极其重要的作用。大量的数据挖掘工作,就其本质而言,就是对于这些海

2、量数据的大量的数据挖掘工作,就其本质而言,就是对于这些海量数据的统计处理。统计处理。概率统计模型概率统计模型2.12.1概率统计模型的基本概率统计模型的基本理论理论2.1.12.1.1蒙特卡洛蒙特卡洛方法的一般原理方法的一般原理蒙特卡洛方法解题的基本步骤蒙特卡洛方法解题的基本步骤()确定所要模拟的目标以及实现这些目标的随机变量,一般情况下,目标就是这些随机变量的期望;()找到原问题中随机变量的分布规律;()大量抽取随机样本(在如今的计算机时代,一般是利用计算机抽取相应分布的伪随机数来作为随机样本)以模拟原问题的随机量;()求出随机样本的样本均值.2.1.22.1.2马尔科夫方法的一般原理马尔科

3、夫方法的一般原理马尔科夫马尔科夫过程过程 现实中很多问题都可以看作马尔科夫过程:如布朗运动、传染病爆发过程、车站候车人流量等。马尔科夫模型也在网站流量分析、教学质量评估、股票期权等方面得到了广泛的应用。马尔科夫过程的特性在于未来的演变不依赖于它过去的演变。例如明天是否会下雨不依赖于昨天是否下雨。这种性质被称作无后效性。马尔科夫链马尔科夫链121,ki iii j-L12110kkkttttt-+L111111(|,)(|)kkkkktttktttP Xj XiXiXiP Xj Xi+-+-=L转移概率矩阵转移概率矩阵EjmnmiXjXP1)|(遍历性与极限分布遍历性与极限分布平稳分布平稳分布平

4、稳分布与遍历性关系平稳分布与遍历性关系 当马尔科夫链具有遍历性时,极限分布必定存在且唯一。当马尔科夫链不具有遍历性时,极限分布必定不存在,而平稳分布可能存在且不唯一。当有限马尔科夫链具有遍历性,极限分布必定是平稳分布;当无限马尔科夫链具有遍历性,如果极限分布存在,则极限分布必定是平稳分布。2.1.32.1.3 逻辑回归方法的一般逻辑回归方法的一般原理原理逻辑回归 实际问题中,我们经常需要探讨变量之间的关系。当两个变量之间或者多个变量之间具有较高的相关关系,而又需要我们通过某个(些)变量 的变化来解释另一个(些)变量 的变化情况,则我们会先尝试采用线性回归的方法探讨解释变量对响应变量的影响。当响

5、应变量为定性变量时,相应回归方法的改进就称为LOGISTIC回归模型,中文称为逻辑回归模型。logitlogit 变换变换)1ln()(logitppp一元一元LogisticLogistic回归方程回归方程 设有一个自变量,用logit(p)与建立起回归关系为 这里的 为回归系数,为随机误差。用回归方法求出回归系数,代入上式,经过简单运算可得下式:01logit()+px01,0101(1|)1xxepp Yxebbbb+=+多元多元LogisticLogistic回归方程回归方程 如果解释变量不止一个,则可以将一元logistic回归推广到多元logistic回归,得到模型如下:即可类似求

6、得Y=1的概率:01 122logit()ln()+1mmppxxxpL01 12 201 12 21m mm mxxxxxxepebbbbbbbb+=+LL参数检验参数检验 回归系数的检验,即检验每个解释变量对响应变量的影响是否有统计学上的意义。若有m个回归系数 ,假设检验为:常用的回归系数检验方法有Wald统计量:式中分子为解释变量的参数估计值,分母为参数估计值Wald的标准误。1,mL01:0:0(j1,2,m)jjHHbb=L22/()jjWaldse模型评价模型评价 一般情况下,Wald检验的结果趋向于保守。当样本量较小时,可能会产生一个很大的标准误,从而导致Wald值变得很小,增加

7、犯第二类错误的可能。这种情况下采用似然比检验更为可靠。当Wald检验与似然比检验结果出现不一致时,一般似然比检验结果更为可取。模型估计完成后,要评价模型有效匹配观测数据的程度。若模型的预测值与对应的观测值有较高的一致性,则认为该回归模型拟合数据,即所谓“拟合优”,否则需重新估计模型,这就是拟合优度检验。2.1.42.1.4 聚类分析方法的一般原理聚类分析方法的一般原理聚类分析过程聚类分析过程 面对大量的数据和变量,如何快速将具有相近特质的样本或变量分在一类,从而达到降维和寻找共性的目的就成为一个重要的研究方向。聚类分析正是这样一种快速将大量数据分类的统计方法,有很强的应用价值。宗旨:根据数据样

8、本的性质,将具有相近特质的样品或变量分在一组,既可以根据不同组的特性进行不同的处理,也可以对同组数据进行更进一步的分析。Q Q型聚类型聚类 对样品进行分类处理,距离由样品相似性来度量。R R型聚类型聚类 对变量进行分类处理,距离由变量相似性来度量。样品相似性度量样品相似性度量 样品相似性的度量包括闵可夫斯基距离、马氏距离和兰氏距离等等。闵可夫斯基距离 当q=1,称绝对距离,当q=2,称欧氏距离。马氏距离 马氏距离又称为广义欧几里得距离。qdkqjkikjixxxxd11)|(),()()()(12jijiijXXXXMddkjkikjkikijxxxxdLd1|1)(变量相似性度量变量相似性度

9、量pkjkpkikpkjkikijxxxx12121cos相关系数相关系数经常用来度量变量间的相似性。代表第i个变量xi的平均值,则第i个变量和第j个变量的相关系数定义为ixpkjkjikipkjkjikijijiijxxxxxxxxyxxxr1221)()()()var()var(),cov(分析分析 采用不同的距离公式,会得到不同的聚类结果。在聚类分析时,可以根据需要选择符合实际的距离公式。在样品相似性度量中,欧氏距离具有非常明确的空间距离概念,马氏距离有消除量纲影响的作用;如果对变量作了标准化处理,通常可以采用欧氏距离。聚类分析方法分类聚类分析方法分类 系统聚类系统聚类按照距离的远近,把

10、距离接近的数据一步一步归为一类,直到数据完全归为一个类别为止。第一步 将每个样品独自聚成一类,共有n类;第二步 根据所确定的样品“距离”公式,把距离较近的样品聚合成一类,其他的样品仍各自为一类;第三步 将“距离”最近的类进一步聚成一类;以上步骤一直进行下去,直至最后将所有的样品聚成一类。K均值聚类K均值聚类首先人为确定分类数,起步于一个初始的分类,然后通过不断的迭代把数据在不同类别之间移动,直到最后达到预定的分类数为止。第一步 将所有的样品分成K个初始类;第二步 逐一计算每一样品到各个类别中心点的距离,把各个样品按照距离最近的原则归入各个类别,并计算新形成类别的中心点。第三步 按照新的中心位置

11、,重新计算每一样品距离新的类别中心点的距离,并重新进行归类,更新类别中心点。第四步 重复第三步,直到达到一定的收敛标准,或者达到分析者事先指定的迭代次数为止。类间距离类间距离 类间距离:类与类之间的距离 由类间距离定义的不同会产生不同的系统聚类法。常用的类间距离定义有最短距离法、最长距离法、中间距离法、重心法、类平均法、可变法和离差平法和法。最短距离法:两个类别中距离最短的样品距离为类间距离。最长距离法:两个类别中距离最长的样品距离为类间距离。min,|min,jlGlGjqpjlpqdGlGjdDqpmax,|max,jlGlGjqpjlpqdGlGjdDqp)()(2qpqppqXXXXD

12、1(,)pqGiji Gj GpqDp qdn n挝=邋方法选择方法选择 当数据量不大的时候,一般会利用系统聚类法,从而达到最佳聚类结果。如果要聚类的数据量很大,则利用系统聚类法会消耗太多计算时间,一般选择K均值法,可以大大减少计算时间。2.22.2蒙特卡洛模型蒙特卡洛模型应用应用2.2.1 2.2.1 投针算圆周率问题投针算圆周率问题 蒲丰问题早在1777年,蒲丰提出求解圆周率的一个另类思路:其过程是首先在纸上画一组间距为a的平行横线,然后随机往里投针,针长b(bu。假定u=50米/分钟,道口宽度50米;3.红灯时间为c,绿灯时间为d(在模拟例子中,假设c=1分钟,d=5分钟);4.黄灯时间

13、忽略,假定车子看到红灯后可以立即停车;5.开始模拟时间没有候车。6.开始模拟时间为刚由绿灯转为红灯;7.暂不考虑出现交通事故的可能。分析:分析:在绿灯期间,车子以速度v正常驶过路口,不会拥堵。红灯期间,车子停在路口,车子到达按泊松分布,即在红灯等候时间c里,到达路口并停下等候的车为n辆的概率为:这里a是到达强度,需要根据路口情况事先确定。假如a=2,c=1,那么在红灯时间段,到达道口等红灯的车辆数的概率如下表:(),0,1,2,.!nacacenn 模型求解:模型求解:1.抽取0,1之间均匀分布的随机数,确定这次模拟路口停红灯的车数,例如,抽到0.732,则这个数落在区间(0.671,0.85

14、7)的范围里,所以这次模拟停车数为3;2.计算红灯转为绿灯后,在绿灯延续期间d(如题设5分钟)内,这部车以速度u通过道口共需时间t=(50/50)*3(分钟),如果td,那么道口发生堵塞,在本次模拟中t=3分钟,没有发生堵塞;3.抽取随机数很多次,如10000次,记下其中多少次发生堵塞,从而估算出道口发生堵塞的概率。2.2.3 2.2.3 电梯问题电梯问题 问题高层商务楼中一般配备了多台电梯,如何安排好各台电梯的运行方式,既能保证大楼内各公司员工的正常工作和出行,又能降低能耗,节约成本。在一般高层商务楼中,经常采用的是分层次或单双层的运行方式,或者某部电梯直达某高层以上的方法,试建立一个适合的

15、电梯运行方案(高峰时),并具体评价这些方案的优劣。分析:分析:评价电梯运行方案往往以电梯高峰期运行时间为依据。一般来说,可以预估电梯可能停靠楼层数、电梯运载次数、电梯停靠时间等参数来计算电梯高峰期运行总时间。但这种估计的方法十分粗略,可能与实际结果相差巨大。我们的目的是模拟电梯一次循环所需的平均时间,并设计电梯停靠方案以使这个时间最短。这里的主要随机量是各楼层乘客的到达数。可以考虑采用蒙特卡罗方法对电梯上下楼的方案进行随机模拟。假定:假定:1.高层商务楼一共有fl层,每层有people人上班;一共有n台电梯,每台电梯最多承载elvn人;2.假设1到4层为商场,顾客上下楼不通过商务电梯,即认为1

16、到4楼没有人等电梯;3.上下班时,一段时间内等电梯的员工数服从泊松分布,设平均每分钟到达poisson人;4.因为刚上班时选择下楼的人数很少,可以忽略下楼人数对电梯运营的影响。上班时认为不会有人下楼,同理,下班时认为不会有人上楼;5.电梯从启动到匀速需要时间,电梯加速比匀速多用的时间记为elva,而电梯匀速经过一层楼需要elvrun秒,电梯加速需要elvrun-elva秒;6.电梯开关门需要时间。假设电梯开关门时间一样,为elvclose秒。员工进入电梯需要时间,假设每个人进入电梯需要elvout秒;7.不会有两台以上的电梯同时抵达同一层接员工;8.上班时,当电梯运载超过90%人上楼后认为高峰

17、期结束,下班同理。三种电梯运行方案三种电梯运行方案 方案一为层层停:n部电梯每层楼都能抵达;方案二为单双层运行:部分电梯只停单层,部分电梯只停双层;方案三为高低层电梯:部分电梯只达某高层以上,部分电梯只能到达某高层以下。方案一框图方案方案一一 基本基本编程思路编程思路 由于电梯在上下行的过程存在两种状态:停靠或运行,所以以电梯改变状态为循环依据。如果某电梯的状态即将发生改变,则一次循环结束。以此为思想,首先计算每个电梯到其状态改变所需要的时间,找出最短的时间p以及对应的电梯k;其次计算电梯i到新的改变状态需要的时间,其余电梯到其状态改变的时间要减去时间p。按以上方法进行循环,对电梯运载进行模拟

18、,此外还需要考虑电梯载满客后去一楼等特殊情况,停止准则为电梯运载超过90%的员工进入电梯。结果解读结果解读 用MATLAB 进行3次模拟,每次模拟对3种方案各模拟10000次后取平均,单位为分钟,结果如下表所示:显然,对题设数据,方案三运行时间最少,电梯分高低层的方法值得采纳。2.32.3马尔科夫模型应用马尔科夫模型应用2.3.1 2.3.1 疾病健康问题疾病健康问题 问题描述人的健康状态随着时间的推移会随机地发生转变,保险公司要对投保人未来的健康状态作出估计,以制订保险金和理赔金的数额。人的健康状况分为健康和患病两种状态,设对特定年龄段的人,今年健康、明年保持健康状态的概率为0.8,今年患病

19、、明年转为健康状态的概率为0.7。若某人投保时健康,问10年后他仍处于健康状态的概率?模型建立模型建立n1,nX2,n第 年健康第 年患病()(),1,2;0,1,ina nP Xiin状态概率L1(),1,2;0,1,ijnnpP Xj Xii jn转移概率 L11112212112222(1)()()(1)()()a na n pa n pa na n pa n p0.80.20.70.3P模型计算模型计算1、设投保时健康,即a1(0)=1,a2(0)=0,由此得到2、设投保时患病,即a1(0)=0,a2(0)=1,由此得到实际意义实际意义 若患病病人平均理赔金额为2,000元,投保期为1

20、0年,投保人数为10人,则由稳态概率可近似计算每年每人的投保金额x(未考虑利息理论)为:10*10*x=2000*2/9*10,从而得:x=44.4(元)2.3.2 2.3.2 疾病健康死亡问题疾病健康死亡问题0.800.180.020.650.250.100.000.001.00P模型计算模型计算依此,可得每一时刻的状态与状态转移概率,如下表:实际意义实际意义 从上表看出,无论初始状态是哪种情形,当投保年份越来越多时,最终投保人都会转到状态3,即投保人死亡。一旦a1(k)=a2(k)=0,a3(k)=1,则对于nk,恒有:a1(n)=0,a2(n)=0,a3(n)=1,即从状态3不再会转移到

21、其它状态。转换公式如下:111122133121122223323113223333(1)()()()(1)()()()(1)()()()a na n pa n pa n pa na n pa n pa n pa na n pa n pa n p2.3.3 2.3.3 汽车工况问题汽车工况问题 问题描述汽车工厂要了解某一类重型汽车的行驶状况(工况),来研究如何降低汽车油耗。需要模拟并在实验室重现能够代替实际汽车道路行驶的工况。如何构造一定时间的汽车行驶工况,且其能代表重型汽车长时间的实际行驶状况从而可以在实验室对汽车发动机进行各种配置以找到最优配置?思路分析思路分析重型汽车在公路上行驶常常会因

22、为路况、避让等原因造成速度间歇性地不均匀变化,需要消除这些不必要的行驶状态,为行驶实验提供稳定的行驶状态,但同时还需要让重组的行驶状态能代替汽车实际行驶状况,这是非常关键的一点。重型汽车行驶的速度变化图是不规则的曲线。首先将这条曲线按照一定规则切割成无数小段,再通过提取和重组,构建出具有代表性的一段光滑曲线,以此代表汽车的工况,这是重型汽车行驶状况构建的基本思想。模型建立模型建立1、将行驶划分为各个片段;2、聚类为多个大类;片段随时间变化在各个大类中转移,可以将这个过程看成马尔科夫链。3、设定片段拼接优化指标D;4、根据马尔科夫链的性质和指标D确定片段重组标准5、最后检验重组的片段是否能代表实

23、际行驶状况。根据速度切分片段根据速度切分片段根据加速时段、减速时段和匀速时段这三大类情况进行切割。例如汽车加速到顶点的时段记为片段1;随后匀速行驶一段时间记为片段2;之后一直减速的时段记为片段3;如此切割下去,如下图所示。片段聚类片段聚类采用系统聚类法将片段分为合适类(本例共五类):根据片段在大类之间转移的频数可以写出状态转移概率矩阵。联合概率分布联合概率分布根据速度和加速度可以写出联合概率分布。2,()ijiji jDPQ重组拟合度:重组思路重组思路片段重组的4个步骤:1、计算所有行驶片段的速度加速度概率分布,每个片段计算出D值,选择D值最小的片段作为初始片段;2、选择下一个片段的起始速度与

24、前一片段的末速度相差必须保持在可达范围之内,即试验数据中允许的加速度范围之内;3、前一片段与后一片段所属的状态转移概率要大于0,能够转移才能进行片段重组;4、每选择一次片段,对于新合成的工况,都要使D值相对最小。片段重组的基本思想是局部最优法,要求每拼接一个新的片段,要该新片段的D值相较其他未拼接片段最小,且前后拼接处的速度、加速度变化符合实际发动机工作原理。结果比对结果比对按上述标准得到重组后的简化工况,和简化前的工况进行对比,得到结果如下图:简化后的工况相比简化前的工况更加平滑,也非常接近于简化前的工况。用简化后的工况代表汽车在公路上的行驶状态,从而为研究如何降低重型汽车耗油量提供帮助。2

25、.42.4逻辑回归模型逻辑回归模型应用应用2.4.12.4.1优惠券的精准投放问题优惠券的精准投放问题 问题描述一家连锁超市推出优惠券活动,如果顾客购买200元以上的商品,将给予50元的优惠。为了精准投放,超市只愿意将优惠券赠送给最有可能使用优惠券的顾客。思路分析思路分析研究人员认为,顾客是否使用优惠券会与顾客在这家连锁超市的年消费支出和顾客是否拥有会员卡有关。顾客的年消费支出可以从积分卡上获得;如果顾客拥有会员卡则记为1,否则记为0。模型建立模型建立现在超市把优惠券赠送给随机抽取的100名有积分的顾客,在调查结束时,研究人员记录下顾客是否使用了优惠券(使用了优惠券记为1,否则记为0)。其中抽

26、取10个数据如下表所示,建立logistic模型分析年消费支出和是否拥会员卡对使用优惠券的影响。样例部分数据样例部分数据模型求解模型求解变量定义如下0 1 Y=如果顾客在调查期间没有使用优惠券如果顾客在调查期间使用优惠券的年消费支出(千元)连锁超市在 1x如果顾客拥有会员卡顾客没有会员卡 1如果 02x选择二元logistic回归方程,代入数据,得到回归方程为:01 12 21201 12 2122.1464 0.34161.09872.1464 0.34161.0987()11xxxxxxxxeeE Yeebbbbbb+-+-+=+结果说明结果说明可以利用上式估计特定类型的顾客使用优惠券的概

27、率例如,估计年消费支出为1000元并且没有会员卡的顾客使用优惠券的概率,为此我们将x1=1,x2=0代入logistic回归方程,得到E(Y)=0.1416.估计年消费支出为1000元和拥有会员卡的顾客使用优惠券的概率,为此我们将x1=1,x2=1代入logistic回归方程,得到E(Y)=0.3305.结果显示:年消费支出为1000元的顾客,拥有会员卡会比没有会员卡的顾客使用优惠券的概率大1倍多。ROC ROC 曲线曲线受 试 者 工 作 特 征 曲 线(r e c e i v e r o p e r a t i n g characteristic curve),简称ROC曲线,是以特异性

28、为横坐标,敏感性为纵坐标绘制而成。曲线下方面积越大,或者说曲线越靠近左上方,则logistic回归预测的准确性越高。制定活动策略制定活动策略由逻辑回归模型,可以根据年消费支出和是否拥有会员卡对使用优惠券的概率做出预测:据此,超市指定的活动策略为:拥有会员卡的顾客:对年消费支出在2000元以上的顾客赠送优惠券;没有会员卡的顾客:对年消费支出在5000元以上(0.3921非常接近0.4,超市认为也可以将这一类顾客包括进来)的顾客赠送优惠券。2.4.2 2.4.2 投保投保客户加保可能性问题客户加保可能性问题 问题描述在保险业务中,常常需要计算投保客户的加保可能性大小,并对加保可能性大小不同的客户进

29、行分类和区别处理。如何计算加保可能性?思路分析思路分析在保险业务的客人加保分析中,常常通过证据权重法,将逻辑回归模型所得的结果转换为标准评分卡的形式,方便保险公司对于加保可能性大小不同的客户进行分类和区别处理。模型建立模型建立表2.9所示是共分为r类的名义变量x和被分为正常和违约两类的违约变量的双向频数表.使用这些符号,xi类的WOE值可以表示为:/ln1100nnnnWOEiii根据WOE转换,可以将名义变量x的WOE重新表述为:1122()rrWOE xWOEWOEWOEddd=+L模型建立(续)模型建立(续)01 1ln()ln()1pppoddsxxpbbb=+-L1111(),1,2

30、,.,iiiiikikvWOE xwwipdd=+=L模型建立(续)模型建立(续)ppvvvppodds22110)1ln()ln(pkppkpppppkkkkwwwwwwppodds)()()()()()()1ln()ln(11222222121211111111110评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义:)ln(oddsBAScore其中和是常数.模型计算模型计算ln(2)PDOB)ln(00BPA将新模型代入分值刻度,得到221112121111110)()()()(ppppppwwwwBAScore结果解读结果解读可以看到,变量对应的值都小于0.0001,

31、说明这些变量与是否加保都有明显关系。结果解读(续)结果解读(续)可以看到,预测加保率非常接近实际加保率,大部分差距都在2以内,说明模型的结果非常好。根据该模型,还可以对未来进行预测。2.52.5聚类分析模型聚类分析模型应用应用2.5.12.5.1空气质量分类问题(空气质量分类问题(Q Q型)型)问题描述随着雾霾的增多,空气质量逐渐成为人们关注的热点。空气污染物中包括多种不同种类和来源的污染物,如划分颗粒物大小标准的PM2.5指标、SO2和NO2的含量等等。气象部门会对城市的空气质量进行分类,如何根据这些指标对空气质量进行比较准确的分类?模型建立模型建立模型求解模型求解结果解读结果解读根据聚类图

32、和实际情况可以将31个城市分为四类:1、严重污染城市:兰州、西安、石家庄和太原 重工业内陆城市,少雨少风,污染非常严重,且不易缓解。2、重度污染城市:沈阳、哈尔滨、西宁、呼和浩特、济南、成都、北京、天津、郑州、拉萨和银川 污染程度比较高,属于重度污染。3、中度污染城市,重庆、合肥、杭州、南京、武汉、南昌、长沙、广州、上海、长春和乌鲁木齐 污染程度相比较轻,属于中度污染。4、轻度污染城市,福州、南宁、贵阳、昆明和海口 环境优美,属于沿海城市或旅游城市,工业污染少,污染相对较轻。2.5.2 2.5.2 食品分类问题(食品分类问题(R R型)型)问题描述某食堂需要制定食品采购策略,因而希望针对不同食

33、品,进行分类,从而帮助制定相应的采购策略。现有2012到2016年20个品种食品的每月价格数据,试用聚类分析对这20个食品进行分类。模型求解模型求解这是对变量的聚类,可以采用pearson相关系数作为变量间的聚类距离,使用类平均法定义类间距离,采用spss软件对变量进行聚类,得到结果如右:结果解读结果解读根据聚类的结果和人为的需要,一共可以分为四类:1、包括白素鸡、豆奶、老豆腐、香干、厚百叶,这一类都是豆制品;2、包括大白菜、花菜、卷心菜、光莴笋、青菜,这一类都是蔬菜;3、包括冻碎肉、冻大排、猪爪、冻小排、腿肉、带皮方肉,这一类都是猪肉;4、包括鸡全腿、半片鸭、鸡翅根、箱鸡蛋,这一类都是禽蛋类

34、。可以看出分类结果和食品的种类非常接近,也和它们的价格走势非常接近,聚类结果有很好的指导意义。2.5.3 2.5.3 电商客户问题(电商客户问题(RFMRFM模型)模型)问题描述每年双十一都是百姓消费的一次大狂欢。届时,早就计划好久的人们在各种购物平台上选择购买看中的折价商品,每年这个时候的消费金额惊人!在这狂欢之中,细心的商家会保持冷静,思考如何让自己盈利最大化。这其中包括如何刺激老客户在双十一继续购买?如何吸引新客户的购买?如何留存住在双十一偶然购买的客户?思路分析思路分析在对客户关系的管理分析中,RFM模型是经常使用的一种类聚类分析方法。RFM指如下三个指标:最近一次消费(Recency

35、)消费频率(Frequency)消费金额(Monetary)RFM模型是将这三个重要指标作为评判用户购买潜力的。RFM分析侧重对客户行为的分析,客户在做些什么?他们的这些行为会对将来的购买产生什么样的影响?能否通过客户过去的行为预测他们将来的购买行为?从而指导商家有针对性地开展营销。模型建立模型建立将所有客户记录依次按三个关键指标进行排序后,分为五个相等数量的群体,并把每一个五等分的代号放入每一个数据库记录里,标上5到1的相应数字,就完成了对客户数据的RFM编号。举例来说,某一个客户在按购买时间排序后,属于五等分客户群里最近最新的日期,则此客户的R编码为5;继续将此客户按购买频率排序后,发现它

36、属于五等分客户群里第二类客户,则此客户F编码为2;再接着把这个客户按消费金额排序,发现它在第三类客户里,则它的M编码为3,将三个编码合并起来,此客户的RFM编码就是523,这个简单的三位数代码,分别代表此客户的最近购买情况、购买频率和消费金额。模型解读模型解读根据RFM单元量级大小,客户层可以大致分为8组:重要发展客户、重要价值客户、重要保持客户、重要挽留客户、一般发展客户、一般价值客户、一般保持客户和一般挽留客户。具体如图所示:具体案例具体案例 广州某公司用消费金额(M)作为级别划分的主要依据,根据消费金额(M)指标划分的客户有5级,M5是消费金额最高的金卡会员,该公司为金卡和银卡会员提供比

37、普通会员更高的积分倍率。根据消费频率(F)也将客户划分了5个级别,F5是最忠实的会员,对F值较高的会员,该公司会结合会员的住址信息和所购商品信息,推测他们是否为附近居民,以便在促销期间加强对此部分会员的联系。在最近消费时间(R)上,该公司采用了把消费频率(F)和最近消费时间(R)相结合的方法进行评估,如果客户的最近一次消费时间与到店频率偏差很大,该公司会在客户关系管理系统里产生客户流失预警标识。销售策略销售策略 对三个值都很低的会员,营销部门会把他们定义为“边缘会员”并减少相关的营销预算。对到店频率(F)值低但消费金额(M)值高的会员,结合他们的购买时间(R),会被定位为“团购会员”。在重要节日前,都会特别强化与这部分会员的联系。母亲节前,先根据会员的人口特征信息把相关年龄层次会员筛选出来,再根据消费金额(M)和到店频率(F),把最有购买倾向的客户挖掘出来。结合客户所购商品的特点,该公司还会基于RFM模型选择精准的目标会员,推出例如“文具节”或“泰国食品节”等各种主题促销。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数学建模-第二章-概率统计模型课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|