1、大数据时代 生活、工作与思维的大变革Living,working and thinking big changes 大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发一场生活、工作与思维的大变革一场生活、工作与思维的大变革1.大数据,变革公共卫生2.大数据,变革商业3.大数据,变革思维4.大数据,开启重大的时代转型5.预测,大数据的核心6.大数据,大挑战什么是大数据2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大
2、努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。Google处理了5000万条历史记录、4.5亿个不同的数学模型。什么是大数据Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。FarecastBing大数据的特
3、性大数据大数据的特性的特性大数据时代的思维变革大数据时代的商业变革大数据时代的管理变革一、大数据时代的思维变革一、大数据时代的思维变革更多“更多”不是随机样本,而是全体数据 当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本总体一、大数据时代的思维变革更杂“更杂”不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只
4、有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生一、大数据时代的思维变革更好“更好”不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法二、大数据时代的商业变革二、大数据时代的商业变革数据化“数据化”一切皆可“量化”大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变
5、革随处可见,但是如今信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通成为数据一切事物的数据化二、大数据时代的商业变革价值“价值”“取之不尽,用之不竭”的数据创新 数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据创新1:数据的再利用数据创新2:重组数据数据创新3:可扩展数据数据创新4:数据的折旧值数据创新5:数据废气
6、数据创新6:开放数据给数据估值二、大数据时代的商业变革角色定位“角色定位”数据、技术与思维的三足鼎立 微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。大数据价值的3大构成大数据掌控公司大数据技术公司大数据思维公司和个人全新的数据中间商专家的消亡与数据科学家的崛起大数据,决定企业的竞争力三、大数据时代的管理变革二、大数据时代的管理变革风险“风险”让数据主宰一切的隐忧 我们时刻都暴露在“第三只眼
7、”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。无处不在的“第三只眼”我们的隐私被二次利用了预测与惩罚,不是因为“所做”,而是因为“将做”数据独裁挣脱大数据的困境二、大数据时代的管理变革掌控“掌控”责任与自由并举的信息管理 当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任管理变革2:
8、个人动因VS预测分析管理变革3:击碎黑盒子,大数据程序员的崛起管理变革4:反数据垄断大亨结 语正在发生的未来大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。大数据时代下的数据挖掘 Contents数据挖掘简介数据挖掘简介1数据挖掘分类数据挖掘分类2成功案例成功案例3总结与展望总结与展望4数据挖掘简介数据挖掘简介 产生背景随着数据库技术的飞速发展,快速增长的海量数据收集、存放在大量数据储存库中理解他们已经远远超出人的能力数据坟墓难得再访问的数据档案数据丰富,但信息缺乏如何利用大
9、量数据如何利用大量数据数据挖掘定义v从大量的、不完全的、有噪声的、随机的数据中提取含在其中的、人们事先不知道的、有用的信息和知识的过程。v功能的广义观点:从存放在数据库、数据仓库或其他信息库中的大量数据中发现知识的过程v数据挖掘是一个新兴、交叉学科领域演变历程演变历程数据仓库 提取信息和知识数据挖掘数据库原始文件原始文件处理原始文件处理纸张纸张界面、查询界面、查询硬盘硬盘联机分析处理联机分析处理各个数据库各个数据库各种媒体各种媒体20世纪60年代前20世纪60年代20世纪80年代现在现在 数据挖掘受多学科的影响数据挖掘受多学科的影响统计学数据库技术信息科学其他学科机器学习数据挖掘步骤数据挖掘步
10、骤结果解释和评估数据挖掘算法执行数据收集数据收集和与处理和与处理问题定义数据挖掘分类数据挖掘分类离群点离群点分析分析分类分类分析分析聚类聚类分析分析关联关联分析分析时间时间序列序列数据挖掘数据挖掘 分类分析:找出描述和区分数据类或概念的模型,以便能够使模型预测未知的对象类 常用方法:分类规则;决策树;神经网络;聚类分析:根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组 常用算法:K-MEAMS;分层凝聚发;估算最大值法 关联分析:发现数据库中不同项之间的联系 常用方法:Apriori;MAQA;IUA;时间序列分析:描述行为随时间变化的对象的规律或趋势,并对其建模匹配方法:A
11、RMA模型 离群点分析:检测和分析离群点离群点:与数据的一般行为或模型不一致的点成功案例成功案例 啤酒加尿布 地点:沃尔玛在美国加州的某连锁店 起因:每天销售信息和顾客基本情况的数据库中发现购买婴儿尿布的顾客多是男性,而且往往也同时购买啤酒 经过:重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在两者之间放上土豆之类的佐酒小食品和男性生活用品 结果:上述几种商品销量大增总结与展望总结与展望 现状:作为一个新兴的研究领域,数据挖掘已经取得了广泛和重大进展。应用到众多领域,出现了大量的商品化数据挖掘系统 发展方向:对现有方法进一步改进,研究发展数据挖掘语言的标准化,可视化方法和处理复杂数据类型的新方法 目前面临困难:成功案例少,中小企业需求少,人才稀缺。