1、2022-3-312022-3-311 1大数据分析与决策(2016-1)2022-3-312022-3-312 2一、大数据的相关概念二、大数据分析三、大数据应用的典型案例四、大数据的可靠性五、大数据与贝叶斯方法报告内容- - 3 3 - - *数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段现使该领域进入了一个新的发展阶段194619511956196119701974197919912001 200320082011第一台计算机ENIAC面世磁带+卡
2、片人工管理磁盘被发明,进入文文件管理件管理时代时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBM E.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑
3、在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算- - 4 4 - - *大数据发展背景*全球信息化发展已步入大数据时代全球信息化发展已步入大数据时代*150亿个设备连接到互联网*全球每秒钟发送 290万封电子邮件*每天有 2.88 万小时视频上传到Youtube*Facebook 每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB*2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB*大数据正迅速成为最值得关注的大数据正迅速成为最值得关注的IT IT领域之一领域之一*2011年5
4、月,EMC World 2011大会主题“云计算相遇大数据”,EMC 除了一直倡导的云计算外,还抛出大数据(Big Data)概念*2011年6月底,IBM、麦肯锡等众多国外机构发布大数据相关研究报告,予以积极跟进*2011 年10 月,Gartner 认为2012 年十大战略技术将包括大数据*2011 年11 月底,IDC(互联网数据中心) 将大数据放入2012 年信息通信产业十大预测之一IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)Google网站 Big data关键词搜索及新闻引用量2022-3-312022-3-315 5什么是大数据123大数据的定义理解大数据的“
5、4V”特征大数据的产生、增长2022-3-312022-3-316 6“大数据”是如何产生的? 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”
6、这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。2022-3-312022-3-317 7大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!1GB = 230字节1TB = 240字节1PB = 250字节1EB = 260字节1ZB = 270字节2022-3-312022-3-318 8大数据的4V
7、特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。2022-3-312022-3-319 9 数据体量巨大(Volume):百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证明,到目前为止,人类生产的所有印刷材料的数据仅为200PB(不能在单个计算机上集中存储,一般需要用到分布式/云计算模式等)。 数据类型多样化:现在的数据不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多种
8、类型的数据,个性化、非结构化数据占据较大比例。大数据的4V特征 处理速度快数据处理遵循“1秒定律”,可从各种类型的数据中快速获取高价值的信息 价值密度低:以视频为例,几小时的视频,在不间断的监控过程中,有用的数据可能仅仅几秒。单个数据可能价值不大,但是数据整体还是有高价值的(比如一个班级大家发的微博可能没有特别大的意义,但是全国高校大学生发的微博就可以反映当代大学生思想理念)2022-3-312022-3-311010大数据的构成大数据 = 海量数据 + 复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数
9、据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、微博、微信及其他来源的社交媒体数据构成。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。2022-3-312022-3-311111大数据的市场潜力12利用GPS数据了解交通状况2012年
10、3月29日奥巴马政府公布了”大数据研发计划”。该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。“大数据战略大数据战略”上升为美国最高国策上升为美国最高国策对数据占有和控制,做为在陆权、海权、空权之外的另一种国家核心能力。*大数据的浪潮大数据与乔布斯的癌症治疗大数据与乔布斯的癌症治疗沃尔玛的啤酒与纸尿布沃尔玛的啤酒与纸尿布沃尔玛蛋挞与飓风用品的关系沃尔玛蛋挞与飓风用品的关系谷歌流感预测谷歌流感预测1313*中国大数据市场分析12011年-2016年中国大数据市场规模22012年各行业大数据市场规模l计世
11、资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。l由于各个行业都存在大数据应用需求,潜在市场空间非常可观。l计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。l计世资讯预测,2012年中国大数据市场规模将达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。14*大数据的商业价值行业行业数据处理方式数据处理方式价值价值银行银行/金金融融l贷款、保险、发卡等多业务数据集成分析,市场评估l新产品风险
12、评估l股票等投资组合趋势分析l增加市场份额l提升客户忠诚度l提高整体收入l降低金融风险医疗医疗l共享电子病历及医疗记录,帮助快速诊断l穿戴式设备远程医疗l改善诊疗质量l加快诊疗速度互联网互联网l在线广告投放l商品评分、排名l社交网络自动匹配l搜索结果优化l提升网络用户忠诚度l改善社交网络体验l向目标用户提供有针对性的商品与服务政府政府/公公共事业共事业l智能城市信息网络集成l天气、地理、水电煤气等公共数据收集、研究l公共安全信息集中处理、智能分析l更好地对外提供公共服务l舆情分析l准确预判安全威胁媒体媒体/娱娱乐乐l收视率统计l热点信息统计、分析l创造更多联合、交叉销售商机l准确评估广告效用零
13、售零售l基于用户位置信息的准确促销l社交网络购买行为分析l促进客户购买热情l顺应客户购买行为习惯2022-3-312022-3-311515一、大数据的相关概念二、大数据分析三、大数据应用的典型案例三、大数据的可靠性四、大数据与贝叶斯方法*报告内容2022-3-312022-3-311616 分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真 大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现
14、:云计算;标签云;关系图等相关技术 存储结构化数据p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)二、大数据分析二、大数据分析二、大数据分析lAnalytic Visualizations(可视化分析)(可视化分析)lData Mining Algorithms(数据挖掘算法)(数据挖掘算法)lPredictive Analytic Capabilities
15、(预测性分析能力)(预测性分析能力)lSemantic Engines(语义引擎)(语义引擎)lData Quality and Master Data Management(数据(数据质量和数据管理)质量和数据管理)二、大数据分析-可视化分析lAnalytic Visualizations(可视化分析)(可视化分析) 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 二、大数据分析-数据挖掘算法lData Mining Algorithms(数据挖掘算法)(数据挖掘算法) 可视化是给人看的,数据挖掘就是给机器看
16、的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。二、大数据分析-预测性分析能力lPredictive Analytic Capabilities(预测性分析能力)(预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。二、大数据分析-语义引擎lSemantic Engines(语义引擎)(语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信
17、息。二、大数据分析-数据质量和数据管理l Data Quality and Master Data Management(数据质(数据质量和数据管理)量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。2022-3-312022-3-312323一、大数据的相关概念二、大数据分析三、大数据应用的典型案例三、大数据的可靠性四、大数据与贝叶斯方法*报告内容2022-3-312022-3-312424三、大数据应用的典型案例-流感预测*全球每年约10%15%的人群会患上流感,受感染人群约5000万人,死亡人数约50万
18、。这可不是个小数字。如果我们能够尽早提前预测到流感即将爆发,无疑将使全球公众都将受益:政府和医疗机构提前拿出应对措施,就能挽救大量生命。*2008年,谷歌推出了其著名的流感趋势网站(http:/www.google.org/flutrends)。该网站假定的前提是:如果用户患上了流感,则他们会搜索更多同流感相关的信息。如此一来,如果对任何一个国家或地区有关流感的搜索量进行统计,就能较好推断出某个国家或地区是否正爆发流感。*2009年,谷歌在甲型H1N1流感爆发之前,用“谷歌流感趋势”(GFT)模型成功预测了流感在美国境内的传播。谷歌的相应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计
19、的数据非常接近(97%)。在某些情况下,谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。2022-3-312022-3-312525*全球每星期会有数以百万计的用户在网上搜索健康信息。正如您所预料的那样,在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而到了夏季,与晒伤有关的搜索又会大幅增加。*某些搜索字词非常有助于了解流感疫情。某些搜索字词非常有助于了解流感疫情。Google 流感趋势会根据流感趋势会根据汇总的汇总的 Google 搜索数据,近乎实时地对全球当前的流感疫情进搜索数据,近乎实时地对全球当前的流感疫情进行估测。行估测。*搜索流感相关主题的人
20、数与实际患有流感症状的人数之间存在着密切的关系。当然,并非每个搜索“流感”的人都真的患有流感,但将与流感有关的搜索查询汇总到一起时,便可以找到一种模式。将统计的查询数量与传统流感监测系统的数据进行了对比,结果发现许多搜索查询在流感季节确实会明显增多。通过对这些搜索查询的出现次数进行统计,便可以估测出世界上不同国家和地区的流感传播情况。*Detecting influenza epidemics using search engine query data, Nature 457, 1012-1014 (19 February 2009) 三、大数据应用的典型案例-流感预测2022-3-3120
21、22-3-312626*卡耐基梅隆大学的 Jiwei Li 和康乃尔大学的 Claire Cardie,成功利用 Twitter 预测了早期流感爆发。*他们的方式与 Google 类似。首先,从 Twitter 数据流中过滤包含与“流感”相关,并带有位置标签的 tweet;然后,在地图上标注这些 tweet 的位置分布,以及随时间产生的变化。同时,还制作了流感的动态变化模型。新模型中,流感包括 4 个阶段:无传染阶段、爆发阶段、稳定阶段以及衰退阶段。*此外,采用了全新的算法,试图尽可能快得发现不同时期的转换节点。实际上,Li 和 Cardie 在 2008 年 6 月至 2010 年 6 月间
22、,已经利用 100 万美国人的 360 万条 tweet ,验证了该方法的有效性。 为了检验他们的预测是否成真,Li 和 Cardie 将他们的分析与 CDC 进行对比。他们说,“我们确信,流感相关 tweet 与 CDC 提供的流感疾病案例数目,呈显著相关。 ”三、大数据应用的典型案例-流感预测2022-3-312022-3-312727*日本国内有一个网站,你只要打开这个网站用自己的 Twitter 账号登录,就可以在短时间内通过数万条 Twitter 找出可能感冒的人,并通过过去的感冒情况和今日的感冒情况进行分析(以及统计目前发烧以及嗓子痛的患者数量),另外该程序还会结合气温和湿度的变化
23、来预测 将来感冒的流行情况,并制作一个“易感冒日历”。目前,此类服务正在日本陆续展开。通过这个服务器的分析,大家就能够知道在自己身边到底有多少人有感冒的症状,并提前做好预防准备。*日本国立感染症研究所将会把全国约5000 个医疗诊所的流感患者进行统计并发布数据。经过对比,研究所得出的实际统计数字和网站上预测的结果基本是一致的,那么为什么大数据的结果会很准呢?*首先是因为通过网络信息分析的技术有所进步,已经可以通过各种各样的留言自动搜索到相关的数据,并自动分类。就像 Google 现在所使用的技术,就是利用服务器分析与流感关系十分密切的十几个单词进行统计。*另一个就是大数据所特有的功能。在流感最
24、严重的时候,每天会有成千上万条 Tweets 发布,即便有一些误差,但通过数据分析也能分析出数据的精准度。*以往,公共机构在发布流感情报的时候至少要延迟一周,在有些偏远地区的立杆信息也并不确切,而现在,通过网络能够有效弥补这些缺憾。三、大数据应用的典型案例-流感预测2022-3-312022-3-312828*亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单前,提前发出包裹。*这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。(因为在下单到收获之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物)*亚马逊根据之前的订单和其他因素,预测用户的购物习惯,从而
25、在他们实际下单前就将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹会暂存在快递公司的转运中心或者卡车里。*亚马逊为了决定要运送那些货物,可能会参考以前的订单、商品搜索记录、愿望清单、购物车、甚至包括用户的鼠标在某件商品上停留的时间。三、大数据应用的典型案例-亚马逊“预测式发货”2022-3-312022-3-312929*2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队对选民的行为、支持偏向进行了数据搜集,并进行了大规模与深入的数据挖掘。在这次大选中,奥巴马竞选阵营的高级助理们决定将参考得到的数据分析结果来制定下一步的竞选方案,
26、从而获得选民的支持。三、大数据应用的典型案例-奥巴马选举2022-3-312022-3-313030三、大数据应用的典型案例-“老鼠仓”*早在2009年,上交所曾经利用“大数据”设置“捕鼠器”的设想,设定一定的指标预警,当相关指标达到某个预警点时,监控系统会自动报警。*深交所“大数据”监控系统,设置200多个指标用于监控估计,一旦出现股价偏离大盘的走势,将利用大数据查探异动背后的机构或投资人。*马乐案,监管系统发现有三个账户的交易特点和当时的博时精选基金高度重合,从交易记录上可以看到,持股时间最长不过一两个月,大多是三四天、四五天。2022-3-312022-3-313131三、大数据应用的典
27、型案例-阿里“水文模型”*阿里“水文模型”是按照小微企业类型、级别等分别统计一个阿里系客户的相关“水文数据”库。*如过往每到一个时点,该店铺销售会进入旺季,销售额就会增长,同时没到这个时段,该客户对外投放的额度就会上升,结合这些水文数据,系统可以判断出该店铺的融资需求;结合该店铺以往资金支出数据及同类店铺资金支用数据,可以判断出该店铺的资金需求额度。2022-3-312022-3-313232三、大数据应用的典型案例-啤酒与尿布*全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个
28、举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。2022-3-312022-3-313333三、大数据应用的典型案例-数据新闻让英国撤军*2010年10月23日卫报利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。2022-3-312022-3-313434三、大数据应用
29、的典型案例-乔布斯癌症治疗*乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。2022-3-312022-3-313535三、大数据应用的典型案例 -微软大数据成功预测奥斯卡21项大奖*2013年,微软纽约研究院的经济学家大卫罗斯柴尔德(David Rothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。2014年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人
30、们展示现代科技的神奇魔力。2022-3-312022-3-313636一、大数据的相关概念二、大数据分析三、大数据应用的典型案例四、大数据的可靠性五、大数据与贝叶斯方法*报告内容2022-3-312022-3-313737四、大数据的可靠性大数据思维的相关关系可以替代因果关系吗?大数据思维下可以直接用调研结果来指导实践吗?2022-3-312022-3-313838四、大数据的可靠性-谷歌流感预测*在2011-2013年的三年间,谷歌流感模型的预测出现严重偏差:一直在高估流感的事态。其中最严重的偏差出现在2013年1月,谷歌产品估计的结果是CDC汇总实际结果的2倍。2022-3-312022-
31、3-313939四、大数据分析的可靠性-谷歌流感预测*谷歌的目的是估算禽流感在整个美国的发病率。数据来源是自用户使用搜索引擎的检索记录,即谷歌用搜索关键字的网民行为来预测整个国家人们患病的可能性。*Q1:有禽流感症状的人都会使用google搜索关键字吗?*Q2:用google搜索关键字的人都有禽流感症状吗?2022-3-312022-3-314040四、大数据的可靠性-谷歌流感预测*谷歌模型失败原因*谷歌模型是基于关键字和发病率的关系来进行预测。大数据思维重视相关性(A和B同时发生),却忽略了因果关系(A导致B发生)的分析。*随着流感的发展,媒体不断增加对流感的报道,引来越来越多人的重视,也就
32、有相应一部分人会通过google来搜索流感关键词,但是这些人并不一定得了流感。1A导致导致B2B导致A3C导致A和B4A和B互为因果5小样本引起的巧合*A和B的关系2022-3-312022-3-314141四、大数据的可靠性-被解雇的市场调研部员工*2004年,我国某知名电视机生产公司因为一次市场调查的结果,解雇了市场调研部的大量员工2022-3-312022-3-314242四、大数据的可靠性-被解雇的市场调研部员工为调查该企业电视机品牌的市场占有率,该公司排除市场研究部的两组员工,调查消费者会选择的电视机品牌。Q:为什么同样的抽样方法结果差异这么大?愿意购买愿意购买不愿购买不愿购买A组组
33、36%64%B组组16%84%2022-3-312022-3-314343四、大数据的可靠性-被解雇的市场调研部员工Q:为什么同样的抽样方法结果差异这么大?原因:1 A组调查员在询问过程中均戴着有该公司logo的领带2 在问题的选项中,该公司的名字排在众多品牌的第一位2022-3-312022-3-314444四、大数据的可靠性“大数据,大偏差”科学的技术诚实的态度严密的操作2022-3-312022-3-314545一、大数据的相关概念二、大数据分析三、大数据应用的典型案例四、大数据的可靠性五、大数据与贝叶斯方法*报告内容 假设掷出一枚硬币,正面朝上的概率是50%,如果连续99次投掷硬币都是
34、正面朝上落地,那么下一次投掷硬币正面朝上落地的概率是多少? 这是Taleb在黑天鹅一书中给出的一个假想的问题。在Taleb的书中,受过正统教育的给出了教科书教给我们的标准回答,下一次投掷硬币正面朝上落地的概率仍然为50%,因为下一次硬币朝向与之前投掷的结果无关。而教育背景没有那么光鲜的则认为下一次投掷硬币正面朝上的概率为99%。孰对孰错?每个人都不妨给出自己的判断。 而如果一定要为自己的答案下一万块钱的赌注的话,可能我就会和Taleb一样,更倾向于和不是那么教条的胖托尼保持一致,即更倾向于相信下一次硬币正面朝上的几率为99%,更倾向于相信我之前的有关正面朝上落地的概率是50%的假设是错误的。五
35、、大数据与贝叶斯方法五、大数据与贝叶斯方法 近几年“大数据”成为热词后,诸如“贝叶斯算法”这样的统计学名词也随之在IT领域热起来。所谓的贝叶斯方法源于托马斯贝叶斯(Thomas Bayes)生前为解决一个“逆概逆概”问题写的一篇文章。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测呢?”。这个问题,就是所谓的逆概问题
36、。 五、大数据与贝叶斯方法五、大数据与贝叶斯方法 实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别地,贝叶斯是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的,我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。这个时候,我们就需要做一个猜测,所谓猜测,当然就是不
37、确定的,但也绝对不是两眼一抹黑瞎蒙。但也绝对不是两眼一抹黑瞎蒙。五、大数据与贝叶斯方法五、大数据与贝叶斯方法 虽然,人们在谈大数据时往往都会谈及利用Hadoop等新兴技术对海量数据处理等技术问题,也会谈及Facebook、Google等公司所处理的PB级别数据的问题。但是,大数据的核心问题在于预测大数据的核心问题在于预测。电子商务网站通过数据预测顾客是否会购买推荐的产品;信贷公司通过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪的可能性;交通部门利用数据预测交通流量。但是,预测不是大数据时代才有的新问题,但是,预测不是大数据时代才有的新问题,它是人类本能的一部分它是人类本能的一
38、部分。五、大数据与贝叶斯方法五、大数据与贝叶斯方法 但是,与科学研究中以求真为目的的构建模型不同,大数据时代的模型构建将更加以务实为目的,即遵循统计学家George E. P. Box的观点“本质而言,所有模型都是错误的,只是有些模型更有用”。大数据时代的很多模型都是为了指导商业决策而设的,而商业决策通常会影响决策者的利益。所以,一个模型是否正确不是最重要的,重要的是决策者对这个模型有多大的把握,决策者能否从这个模型中获利。所以,大大数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行决策,并且帮助决策者改善决策赚取相应的
39、利润决策,并且帮助决策者改善决策赚取相应的利润。五、大数据与贝叶斯方法五、大数据与贝叶斯方法 艾赛亚柏林(Isaish Berlin)曾经援引古希腊诗人的残简“狐狸多狐狸多知而刺猬有一大知知而刺猬有一大知”将知识分子分为狐狸和刺猬两类。刺猬用一个宏大刺猬用一个宏大的概念解释所有现象,如约翰博士一般;狐狸知道很多事情,用多元化的概念解释所有现象,如约翰博士一般;狐狸知道很多事情,用多元化的甚至相互矛盾的视角看待问题,狐狸也愿意包容新的证据以使得自己的甚至相互矛盾的视角看待问题,狐狸也愿意包容新的证据以使得自己的模型与之相适应,如胖托尼一般的模型与之相适应,如胖托尼一般。Tetlock等人的研究表
40、明,在现实的预测中,狐狸的表现要优于刺猬。在大数据时代,人们能够接触越来越多的信息,这些信息能否修订决策者已有的观念,对决策者的决策产生影响,这是大数据能否发挥价值的关键所在。五、大数据与贝叶斯方法五、大数据与贝叶斯方法 很多人都知道亚当斯密(Adam Smith)在国富论中所描述的市场中的“看不见的手”。在市场中,没有人掌握有关生产和消费的全局信息,但是人们通过市场交易对供需的行为作出反应,从而逐步更新价格,进而达到平衡。 Thomas Bayes与亚当斯密同时代且同在苏格兰接受教育,他的(Bayesians Theorem)也和亚当斯密的“看不见的手”有相通之处。贝叶斯理论允许每个人拥有有
41、关世界的先验的信念,胖托尼也许最初认为硬币正面朝上的概率是50%,而当他看到了连续99次的硬币正面朝上落地,则他不断利用数据修改其信念。五、大数据与贝叶斯方法五、大数据与贝叶斯方法 英国哲学家艾赛亚柏林,把一句古希腊谚语“狐狸多技巧,刺猬仅一招”发挥成关于两种类型的思想家之差异的深刻比喻:一类是追求一元论的思想家,他们力图找出唯一绝对的真理,并将它应用于万事万物,恰如刺猬遇到危险总是使用相同的招数竖起满身倒刺;另一类则是承认多元论的思想家,他们体察世间万物之复杂微妙,没有不变应万变的宗旨,因此宁可自己思想矛盾,亦不强求圆融统一之理,恰如狐狸遇事之灵活、机智。五、大数据与贝叶斯方法五、大数据与贝
42、叶斯方法 利用新的数据与新的证据不断修订对世界的假设是狐狸式的思利用新的数据与新的证据不断修订对世界的假设是狐狸式的思维方式也是贝叶斯思维方式的基本理念,这也应当是大数据时代思维方式也是贝叶斯思维方式的基本理念,这也应当是大数据时代思维的基本理念维的基本理念。随着互联网及云计算的普及,在大数据时代,人们有机会从多个渠道、多个角度获得对事物的知识。贝叶斯的“看不见的手”利用这些知识逐步修订人们对事物的假设,而人们基于这些假设进行的决策通过亚当斯密的市场的“看不见的手”被评估与选择,从而形成相应的社会秩序。无论人们最初关于事物的认识存在什么样的差异,在贝叶斯与亚当斯密两重“看不见的手”的作用下,“
43、随着越来越多的证据的出现,我们的信念将趋于一致,并且趋于真相即使我们最初拥有有误的甚至是错得离谱的先验认识,最终也将趋于真相。”五、大数据与贝叶斯方法五、大数据与贝叶斯方法 自拍杆和蓝牙相机自拍杆和蓝牙相机: : 有两个一模一样的抽奖箱,装满奖券,奖券上有对应的奖品。抽奖有两个一模一样的抽奖箱,装满奖券,奖券上有对应的奖品。抽奖箱箱A A中有中有3030个自拍杆和个自拍杆和1010个蓝牙相机;抽奖箱个蓝牙相机;抽奖箱B B里有里有2020个自拍杆和个自拍杆和2020个蓝牙相机。个蓝牙相机。 如果小明随机选择一个抽奖箱,从里面抽出一张奖券,发现是自拍如果小明随机选择一个抽奖箱,从里面抽出一张奖券
44、,发现是自拍杆,这个自拍杆来自抽奖箱杆,这个自拍杆来自抽奖箱A A的概率是多少的概率是多少? ? 设设A A和和B B分别为选中抽奖箱分别为选中抽奖箱A A和抽奖箱和抽奖箱B B的事件,因为从外观看两个箱的事件,因为从外观看两个箱子没有区别,则选中两个箱子的概率应该相等,即:子没有区别,则选中两个箱子的概率应该相等,即: P(A)=P(B)=0.5 P(A)=P(B)=0.5 这是先验概率,代表在没有抽奖之前的信息。这是先验概率,代表在没有抽奖之前的信息。 S S代表抽到自拍杆的事件,则问题求的即为代表抽到自拍杆的事件,则问题求的即为P(A|S)P(A|S)。五、大数据与贝叶斯方法五、大数据与
45、贝叶斯方法-案例分析案例分析自拍杆和蓝牙相机自拍杆和蓝牙相机: : P(A|S) P(A|S)代表抽到自拍杆这个事件发生后,对代表抽到自拍杆这个事件发生后,对P(A)P(A)的一个修正和调整即求的一个修正和调整即求 的是后验概率。的是后验概率。 根据条件概率公式可知:根据条件概率公式可知: P(A|S)=P(A) P(A|S)=P(A)* *P(S|A)/P(S)P(S|A)/P(S)分析:分析:已知已知P(A)=0.5,P(S|A)=0.75(P(A)=0.5,P(S|A)=0.75(代表从代表从A A中抽取自拍杆的概率,因为中抽取自拍杆的概率,因为 A A中中3030个个自拍杆,自拍杆,1
46、010个蓝牙相机,所以概率为个蓝牙相机,所以概率为0.75)0.75)。根据全概率公式:根据全概率公式:P(S)=P(S|A)P(S)=P(S|A)* *P(A)+P(S|B)P(A)+P(S|B)* *P(B)P(B) =0.75 =0.75* *0.5+0.50.5+0.5* *0.50.5 =0.625 =0.625带入贝叶斯公式可得:带入贝叶斯公式可得: P(A|S)=P(A) P(A|S)=P(A)* *P(S|A)/P(S)P(S|A)/P(S) =0.5 =0.5* *0.75/0.625=0.60.75/0.625=0.6结论结论:将更多信息引入,可以对问题推测进行修订。通过引入抽出的奖券是自:将更多信息引入,可以对问题推测进行修订。通过引入抽出的奖券是自 拍杆的信息,可推断出来自拍杆的信息,可推断出来自A A的可能性增强,这和逻辑相符。的可能性增强,这和逻辑相符。五、大数据与贝叶斯方法五、大数据与贝叶斯方法-案例分析案例分析