1、统计建模优点v统计学的研究方法具有客观、准确和可检验的特点,从而成为实证研究,利用数量挖掘规律的重要手段。v目前它广泛适用于自然、社会、经济、科学技术各个领域的数据分析和研究。v统计模型是数学模型的重要组成部分,尤其对具有大量数据的对象,统计建模具有极其重要的地位。飞机防护问题v二战时期,德英空战不断,德国对英国本土每天不定期进行狂轰滥炸。英方积极应战,战机的损失也不断增加。v为了提高飞机的防护能力,决定给飞机最必要的地方增加护甲。v统计学家这么做:将每架中弹但仍返航的飞机的中弹部位描绘在图纸上,然后将所有这些图重叠,形成了一个浓密不等的弹孔分布图。那些没有弹孔的地方,就是要增加护甲的地方,因
2、为这地方中弹的飞机都没能返回。飞机防护问题v二战时期,德英空战不断,德国对英国本土每天不定期进行狂轰滥炸。英方积极应战,战机的损失也不断增加。v为了提高飞机的防护能力,决定给飞机最必要的地方增加护甲。v统计学家这么做:将每架中弹但仍返航的飞机的中弹部位描绘在图纸上,然后将所有这些图重叠,形成了一个浓密不等的弹孔分布图。那些没有弹孔的地方,就是要增加护甲的地方,因为这地方中弹的飞机都没能返回。四种流行的统计方法v1、蒙特卡洛方法v2、马尔科夫过程v3、逻辑回归模型v4、聚类分析1、蒙特卡洛模型v蒙特卡洛是世界闻名的赌城,蒙特卡洛方法借用这一城市的名称,也表明了该方法的基本特点;v蒙特卡洛方法是以
3、概率和统计理论方法为基础的一种计算机模拟方法;v利用随机数来解决复杂的计算问题,将所求解的问题同一定的概率模型相联系,用计算机实现统计模拟或抽样,以获得问题的近似解。v随机试验次数越多,获得的近似解的精度也越高。基本原理v蒙特卡罗方法的基本思想:首先构造一个概率空间,然后在该概率空间中确定一个依赖于随机变量X(任意维)的统计量g(X),其数学期望v v正好等于所要求的值G,其中F(x)为X的分布函数。然后产生随机变量的简单子样,用其相应的统计量 的算术平均值v v作为G的近似估计。11()NNiiGg XN()()()E g Xg x dF x投针算圆周率v蒲丰问题 早在1777年,蒲丰(Ge
4、orges Louis Leclere de Buffon,17071788)提出求解圆周率的一个另类思路,其过程是首先在纸上画一组间距为a的平行横线,然后随机往里投针,针长b(bu。假定u=50米/分钟,道口宽度50米;v3.红灯时间为c,绿灯时间为d(在模拟例子中,假设c=1分钟,d=5分钟);v4.黄灯时间忽略,假定车子看到红灯后可以立即停车;v5.开始模拟时间没有候车。v6.开始模拟时间为刚由绿灯转为红灯;v7.暂不考虑出现交通事故的可能。1、蒙特卡洛模型v蒙特卡洛是世界闻名的赌城,蒙特卡洛方法借用这一城市的名称,也表明了该方法的基本特点;v蒙特卡洛方法是以概率和统计理论方法为基础的一
5、种计算机模拟方法;v利用随机数来解决复杂的计算问题,将所求解的问题同一定的概率模型相联系,用计算机实现统计模拟或抽样,以获得问题的近似解。v随机试验次数越多,获得的近似解的精度也越高。应用实例电梯问题v问题描述 高层商务楼中一般配备了多台电梯,如何安排好各台电梯的运行方式,既能保证大楼内各公司员工的正常工作和出行,又能降低能耗,节约成本。在一般高层商务楼中,经常采用的是分层次或单双层的运行方式,或者某部电梯直达某高层以上的方法,试建立一个适合的电梯运行方案(高峰时),并具体评价这些方案的优劣。2、马尔可夫模型v清晨,你醒了,睁开双眼的你面临三个选择:继续睡一会、躺床上听听音乐、看看手机或者起床
6、准备学习v下午,你可能决定放松身心,娱乐一会。v晚上你又有其它的选择。v把每天分时段进行的活动看作是一个随机过程v你作出的决定不取决于你之前干过什么,比如你决定下午玩耍一下和早上有没有看过书没有关系,那么这就是一个特殊的随机过程马尔科夫过程。基本原理转移概率矩阵v一步转移概率矩阵000102101112202122ppppppPppp骣=玷LLLMMMO疾病健康模型v问题描述人的健康状态随着时间的推移会随机地发生转变,保险公司要对投保人未来的健康状态作出估计,以制订保险金和理赔金的数额。人的健康状况分为健康和患病两种状态,设对特定年龄段的人,今年健康、明年保持健康状态的概率为0.8,今年患病、
7、明年转为健康状态的概率为0.7。若某人投保时健康,问10年后他仍处于健康状态的概率?v思路分析:首先需要求解出状态转移概率矩阵,由马氏链的基本方程,根据给定a(0),可以预测 a(n),这样就可以求出任意时间点的状态概率了。模型假设与建立:v本模型满足马尔科夫链的基本要求,也即该人某年健康或患病概率只与其前一年健康或患病状态有关,与再前面各年份健康情况无关。v模型建立 设 表示第n年投保人身体所处状态,记v则 是时间状态均离散的马尔科夫链,其中v v nXn1,nX2,n第 年健康第 年患病nX()(),1,2;0,1,ina nP Xiin状态概率L1(),1,2;0,1,ijnnpP Xj
8、 Xii jn转移概率L模型求解v设投保时健康v设投保时患病疾病健康死亡模型v问题延伸 如果人的状态分为健康、疾病和死亡三种状态,记 表示n年后投保人身体健康,表示投保人患病,表示投保人因疾病死亡.若三种状态的转换概率如下图所示,则转换矩阵P为:1nX 2nX 3nX 模型假设与建立:v本模型满足马尔科夫链的基本要求,也即该人某年健康或患病概率只与其前一年健康或患病状态有关,与再前面各年份健康情况无关。v模型建立 设 表示第n年投保人身体所处状态,记v则 是时间状态均离散的马尔科夫链,其中v v nXn1,nX2,n第 年健康第 年患病nX()(),1,2;0,1,ina nP Xiin状态概
9、率L1(),1,2;0,1,ijnnpP Xj Xii jn转移概率L模型求解v状态与状态转移概率v设投保时健康0.800.180.020.650.250.100.000.001.00P应用实例汽车工况研究v问题描述 汽车工厂要了解某一类重型汽车的行驶状况(工况),来研究如何降低汽车油耗。但重型汽车在公路上行驶时间一般很长,且因为路况复杂,速度变化很不均匀,所以很难对重型汽车实际行驶状况进行分析。需要模拟并在实验室重现能够代替实际汽车道路行驶的工况。如何构造一定时间的汽车行驶工况,且其能代表重型汽车长时间的实际行驶状况从而可以在实验室对汽车发动机进行各种配置以找到最优配置?3、逻辑回归模型v实
10、际问题中,我们经常需要探讨变量之间的关系;v大部分情况下,都会先尝试采用线性回归的方法探讨解释变量对响应变量的影响;v当响应变量不是定量变量,而是定性变量时,传统的线性回归方法就失效了。基本原理vlogit 变换 当响应变量 是二分类变量时,可以采用一种被称为logit变换来转换概率的值。设Y取值为1的概率为p,,logit 变换将概率p所在区间转换为实数轴,从而可用来作为回归的响应变量v v设有一个自变量x,用logit(p)与x建立起回归关系为:v求出p、q=1-p 的概率:01logit()+pxlogit()ln()1ppp(0,1)p0101(1|)1xxepp Yxebbbb+=+
11、优惠券的精准投放v问题描述 一家连锁超市推出优惠券活动,如果顾客购买200元以上的商品,将给予50元的优惠。为了精准投放,超市只愿意将优惠券赠送给最有可能使用优惠券的顾客。v思路分析 研究人员认为,顾客是否使用优惠券会与顾客在这家连锁超市的年消费支出和顾客是否拥有会员卡有关。顾客的年消费支出可以从积分卡上获得;如果顾客拥有会员卡则记为1,否则记为0。建立logistic模型分析年消费支出和是否拥会员卡对使用优惠券的影响模型求解v变量定义如下v选择二元logistic回归方程0 1 Y如果顾客在调查期间没有使用优惠券如果顾客在调查期间使用优惠券=1 x 在 连锁超市 的年消费支出(千元)20 1
12、 x顾客没有会员卡如果顾客拥有会员卡01 12 201 12 2()1xxxxeE Yebbbbbb+=+ROC曲线v受试者工作特征曲线(receiver operating characteristic curve),简称ROC曲线,是以特异性为横坐标,敏感性为纵坐标绘制而成。v年消费支出与是否使用优惠券的ROC曲线v是否拥有会员卡与是否使用优惠券的ROC曲线应用实例加保问题v问题描述 在保险业务中,常常需要计算投保客户的加保可能行大小,并对加保可能性大小不同的客户进行分类和区别处理,如何计算加保可能性?v思路分析 在保险业务的客人加保分析中,常常通过证据权重法(Weight of Evid
13、ence,简称WOE)将logistic回归模型所得的结果转换为标准评分卡的形式,方便保险公司对于加保可能性大小不同的客户进行分类和区别处理。4、聚类分析v“物以类聚、人以群分”。v面对大量的数据和变量,如何快速将具有相近特质的样本或变量分在一类,从而达到降维和寻找共性的目的就成为一个重要的研究方向。v聚类分析正是这样一种快速将大量数据分类的统计方法,有很强的应用价值。基本原理v聚类分析一般分为Q型聚类和R型聚类两种:v样品相似性的度量用来测度样本之间距离的远近,距离相差不大的分为一组,比如将成绩相近的学生分为一组;变量相似性的度量用来测度变量之间相关性的大小,将具有相同趋势的变量分为一组,比
14、如将学生的数学成绩和物理成绩分为一组。基本原理v闵可夫斯基距离v欧氏距离v马氏距离v兰氏距离v变量相似性的度量 主要包括夹角余弦和相关系数等。21(,)()dijikjkkd x xxx12211cospikjkkijppikjkkkx xxx1221()()cov(,)var()var()()()pkiikjjijkijpijkiikjjkxxxxx xrxyxxxx1221()()cov(,)var()var()()()pkiikjjijkijpijkiikjjkxxxxx xrxyxxxx空气质量分类v问题描述 随着雾霾的增多,空气质量逐渐成为人们关注的热点。空气污染物中包括多种不同种类
15、和来源的污染物,如划分颗粒物大小标准的PM2.5指标、SO2和NO2的含量等等。气象部门会对城市的空气质量进行分类,如何根据这些指标对空气质量进行比较准确的分类?v思路分析 一些地方采取空气质量指数的办法来对各城市的空气质量进行评分,除此之外,还可以采用聚类分析的方法对城市的空气质量进行分类。计算结果食品分类v问题描述 某食堂需要制定食品采购策略,因而希望针对不同食品,进行分类,从而帮助制定相应的采购策略。现有2012到2016年20个品种食品的每月价格数据,试用聚类分析对这20个食品进行分类。v思路分析 这是对变量的聚类,可以采用pearson相关系数作为变量间的聚类距离,使用类平均法定义类间距离,采用spss软件对变量进行聚类。计算结果应用实例RFM模型v问题描述 每年双十一都是百姓消费的一次大狂欢。届时,早就计划好久的人们在各种购物平台上选择购买看中的折价商品,每年这个时候的消费金额惊人!在这狂欢之中,细心的商家会保持冷静,思考如何让自己盈利最大化。这其中包括如何刺激老客户在双十一继续购买?如何吸引新客户的购买?如何留存住在双十一偶然购买的客户?