大数据研究现状及热点应用介绍课件.pptx

上传人(卖家):三亚风情 文档编号:3428719 上传时间:2022-08-30 格式:PPTX 页数:58 大小:9.24MB
下载 相关 举报
大数据研究现状及热点应用介绍课件.pptx_第1页
第1页 / 共58页
大数据研究现状及热点应用介绍课件.pptx_第2页
第2页 / 共58页
大数据研究现状及热点应用介绍课件.pptx_第3页
第3页 / 共58页
大数据研究现状及热点应用介绍课件.pptx_第4页
第4页 / 共58页
大数据研究现状及热点应用介绍课件.pptx_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、大数据交流提纲大数据交流提纲顺序顺序题目题目侧重点侧重点讲解人讲解人时间时间1大数据研究现状及热点应用介绍大数据发展、热点应用、架构黄绍辉9:0010:002化工销售大数据应用设想大数据价值、数据资源分析、应用展望索寒生10:0010:30讲解和时间安排如下:20142014年5 5月石化盈科信息技术有限责任公司石化盈科信息技术有限责任公司MES事业部事业部目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构3一、大数据的研究现状一、大数据的研究现状一、大数据的研究现状4世界存储、传输与计算信息的技术能力马丁希尔伯特,普里西拉洛佩兹 随着数字化信息的发展,人类产

2、生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾字节(EB)甚至泽字节(ZB)(1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB)2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到2007年,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到1.2ZB,其中数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长信息数据化程度的大幅提升,推动了大数据的商业价值显现数字数据数字数据93%93%数字数据数字数据98%98%20002000数字数据数

3、字数据25%25%20072007300EB300EB201320131.2ZB1.2ZB一、大数据的研究现状一、大数据的研究现状5数字化信息的处理,以容量为标准的划分1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB一、大数据的研究现状一、大数据的研究现状6据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT产业增速的7倍来源:Wikibon公司,2012年722012年各行业大数据市场规模计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据

4、一 半市场份额。由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。一、大数据的研究现状一、大数据的研究现状12011年-2016年中国大数据市场规模计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展计世资讯预测,2013年大数据市场迎来增速为138.3%的飞跃,2016年整个市场规模逼近百亿0%81%138%107%110%92%90%0%30%60%120%150%020406080100市场规模 增长率CCW Research 2012/04互联网15%电信11%流通4%金融11

5、%医疗9%制造9%教育4%零售6%能源8%交通4%政府15%其他4%CCW Research 2012/04一、豌豆实验一、豌豆实验 -大数据的应用之道大数据的应用之道8孟德尔(Gregor Johann Mendel)(18221884)奥地利人,是遗传学的奠基人。1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出22个品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色种皮或白色种皮等。通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的实验方法需要极大的耐心和严谨的态度。起初

6、,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的过程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究,其中包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。一、曹冲称象一、曹冲称象 -大数据的分布处理之道大数据的分布处理之道9工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理?是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)?“分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具来同时处理,最后将每一个部分的结果汇总

7、起来,就是对大事物的处理结果10Google大数据的诞生Google云计算MapReduceBigTableGFSChubby一、一、GoogleGoogle大数据大数据 -大数据的平台搭建之道大数据的平台搭建之道1998年,斯坦福大学的博士生拉里佩奇和谢尔盖布林在车库中创办了Google公司。两位年轻人没有找到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就是Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每天新增

8、的24PB数据一、诺兰模型一、诺兰模型11美国管理信息系统专家诺兰(RichardLNolan)通过对200多个公司、部门发展信息系统的实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。起步:只有个别人具有使用计算机的能力;一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部门、各系统

9、基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过程结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力一、诺兰模型的总结一、诺兰模型的总结12数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准确性。企业的信息化建设必然会走到以数据为中心的

10、发展阶段,无论是否愿意,这条规律都是不可违背一、大数据的研究现状一、大数据的研究现状132004年-最初的版本由Doug Cutting和Mike Cafarella开始实施2006年1月-Doug Cutting加入雅虎2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展2006年2月-雅虎的网格计算团队采用Hadoop2011年12月 Cloudera 授权培训认证正式进入中国2012年5月28日-Apache Hadoop 2.0 Alpha 版本发布2013年12月-除了社区的Apache hadoop发行版以外,cloudera、hort

11、onworks、mapR、EMC、IBM、INTEL、华为等都提供了hadoop商业版本 发展过程一、大数据的研究现状一、大数据的研究现状14Gartner2012技术成熟度曲线一、大数据的研究现状一、大数据的研究现状15Gartner2013技术成熟度曲线近几年大数据不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的挑战,核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据开始实实在在的为企业解决问题。一、大数据的研究现状一、大数据的研究现状16应用可能性应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:纵轴契合度:

12、表示该用户的IT应用特 点与大数据特性的契合 程度;横轴应用可能性横轴应用可能性:表示 该用户出于主客观因素 在短期内投资大数据的 可能性;HighHighMidMidLowLowLowLowMidMidHighHigh优先关注行业用户应用特点与大数据技 术有较高的契合度,在主客观条件上也有 较高的应用可能性。值得关注行业 用户应有特点与大 数据的契合度 及应用可能性 综合较高适当关注行 业用户两个维度暂 时都不具备 优势,可适 当给予关注互联网(电子商务)契合度契合度流通零售制造大数据存在于各个行业领域,根基市场的关注度和技术成熟度将陆续应用不同行业不同应用会使用不同的产品和方案来满足自身的

13、实际需要一、大数据的研究现状一、大数据的研究现状17国外业界对大数据宽泛的认知第一,数据体量巨大,根据IDC的研究数据显示,预计到2015年全世界将会有8万亿GB的信息量第二,数据类型繁多,包括以往文本为主的结构化数据,也包括网络日志、音频、视频、图片、地理位置信息等大量的非结构化数据第三,处理速度快,1秒定律第四,大数据的3V构成也导致其数据价值高但价值密度低的特点,也被称为大数据特点的第4个V,即数据价值Value8 8万亿万亿GBGB20152015全球信息量全球信息量1s1s数据处理速度数据处理速度85%85%非结构化数据占非结构化数据占比比数据价值数据价值Volume Volume

14、数据体量大数据体量大VarietyVariety数据类型多数据类型多Velocity Velocity 处理速度快处理速度快ValueValue大量用户 群体海量计算大量数据管理数据分析一、大数据的研究现状一、大数据的研究现状18国内业内人士对大数据的认知数据在线“知著、见微、晓意”-大数据的解决之道目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构19一、大数据的研究现状20 诞生Google云计算MapReduceBigTableGFSChubbyMapReduce MapReduceGFS HDFSBigTable HbaseChubby ZooKeep

15、er二、大数据的技术实现二、大数据的技术实现二、大数据的技术实现二、大数据的技术实现21大数据处理的平台解决方案大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构二、大数据的技术实现二、大数据的技术实现22Hadoop是个体系二、大数据的技术实现二、大数据的技术实现23大数据处理的平台解决方案传统并行计算架构并行计算+分布式存储运算储存传统储存架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-noth

16、ing),具有高系统延展性(scale-out)。二、大数据的技术实现二、大数据的技术实现24Hadoop VS RDBMSRDBMSHadoop资料量GB-TBTB-PB存取方式交互式与批次批次数据更新多次读写一次写,多次读数据结构固定 schema无 schema资料一致性高(ACID)低扩充性非线性线性二、大数据的技术实现二、大数据的技术实现25Hive SQL like Hadoop DatabaseDriver(compiler,optimizer,executor)metastoreData NodeData NodeData NodeData NodeHadoop Cluster

17、M/RM/RM/RM/RWeb UICLIJDBCODBCCreate M/R Job二、大数据的技术实现二、大数据的技术实现26Sqoop SQL to HadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreate Map Tasks二、大数据的技术实现二、大数据的技术实现27传统数据处理流程运营信息物料信息工艺参数操作信息数据仓库其他信息大部份删除ETL部份资料二、大数据的技术实现二、大数据的技术实现28探索的数据处理流程物料信息工艺参数操作信息效益分析?工艺分析?报警分析?运营信息数据仓库二、大数据的技术实现二、大数据的技术实现29Spark:大

18、数据的“电光石火”Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错设计上不打折扣快:Spark对小数据集能达到亚秒级的延迟,这对于Hadoop MapReduce是无法想象的。就大数据集而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于

19、MapReduce、Hive和Pregel的实现快上十倍到百倍灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scala trait动态混入策略;在原语层,它允许扩展新的数据算子、新的数据源、新的language bindings;在范式层,Spark支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种 范式巧:Spark借Hadoop之势,与Hadoop无缝结合;无论是语法还是API,在实现上又能灵巧借力。缺点:不能很好地支持细粒度、异步的数据处理二、大数据的技术实现二、大数据的技术实现30Storm:高速处理流式数据Storm是一个免费开源、分布式、高容错的实时计算系统。

20、Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的Storm带着流式计算的标签华丽地出场了:分布式系统、运维简单、高度容错、无数据丢失、多语言Storm 物理拓扑结构 Nimbus服务器将拓扑二、大数据的技术实现二、大数据的技术实现312012-2013中国IT技术趋势大调查-数据管理的新技术预测数据管理的新技术预测如上图所示,分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86

21、%;其次是内存数据库技术,占到23.30%;云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也获得较多关注。从调查结果来看,以Hadoop为代表的分布式存储与计算已成为人们心目中大数据的关键技术。以SAP HANA为代表的内存数据库技术和以SQL Azure为代表的云数据库技术,也将成为占据重要地位的数据管理创新平台二、大数据的技术实现二、大数据的技术实现322012-2013中国IT技术趋势大调查-商业智能的发展趋势商业智能的发展趋势对于商业智能未来的趋势预测,调查显示排在前三位的是丰富的挖掘模型、实时的分析、精准的特定目的分析。其后是社交网络分析、云端服务和移动BI。

22、由此看出人们期待商业智能应用能够在这些方面做出改变。以上趋势不难看出,在大数据时代,人们把焦点放在那些能快速改变现状的颠覆性技术上,大数据存储与计算、数据挖掘与分析,以及商业智能等应用将在未来大放异彩二、大数据时代的技术特点二、大数据时代的技术特点33大数据背景下IT解决方案变化特点二、大数据的挑战二、大数据的挑战34大数据的角色和技能无论什么样的IT技术,说到底都是对人才的需求数据科学家 行业知识 分析技能商业智能专业人员 Hadoop、.Net 关系型数据库业务分析Business Analysts0101010101010101011010101010101010010101010101

23、01101010101010二、大数据时代的算法二、大数据时代的算法35数据挖掘算法十大经典算法说明其他八种算法说明1C4.5分类决策树算法1FP-Tree关联分析算法2K-Means聚类算法2HITS链接挖掘3SVM支持向量机3BIRCH聚类算法4Apriori布尔关联规则算法4GSP序列模式算法5EM概率模型5PrefixSpan序列模式算法6PageRankGoogle专利算法6CBA关联规则分类算法7Adaboost迭代算法7Finding reduct粗集类算法8KNNK最近邻分类算法8gSpan频繁子图挖掘算法9Naive Bayes朴素贝叶斯模型10CART分类与回归树The I

24、EEE International Conference on Data Mining(ICDM国际数据挖掘)2006年12月评选出了数据挖掘领域的十大经典算法。其实参加评选的所有18种算法都是经典算法,在数据挖掘领域都产生了极为深远的影响。二、大数据与云计算的关系二、大数据与云计算的关系36大数据与云计算是同一件事v 云计算模式是业务模式,本质是数据处理技术v 前端云是计算资源的调度,后端大数据是存储和分析资源的调度v 数据是资产,云为数据资产提供存储、访问和计算v 盘活数据资产,使其为国家和企业决策、个人生活服务,是大数据核心议题,也是云计算的最终方向v 三分虚拟化、七分分布式、十二分大数

25、据三分虚拟化、七分分布式、十二分大数据目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构37一、大数据的研究现状三、大数据的热点应用三、大数据的热点应用38Google 案例前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费地送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告价值就越高这是正向的

26、循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了卖软件拷贝赚钱的模式。成为互联网的巨擘互联网越来越智能互联网越来越智能Google精确掌握用户行为、获取需求精确掌握用户行为、获取需求三、大数据的热点应用三、大数据的热点应用39Google 案例2008年前,Google推出了一个单独的小产品-流感疫情地图,里面将从世界各国卫生组织收集到的流感信息用可视化的方式呈现出来,这样你在出差的时候,就知道是否应该带药品了2010年后,当H1N1病毒肆虐的时候,Google已经能将患病高发区整合进自己的地图应用三、大数据的热点应用三、大数据的热点应用40美国超过25

27、个州的交通部使用大数据技术据Inrix官方网站介绍,这是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台,截至2012年底已经为全球32个国家的企业提供了服务Inrix利用安装在公路上的数十万个接受器每小时能收集数百万条数据,这些数据综合起来后能为当前甚至未来的交通状况提供一个完整的模式图,可以帮助政府建立综合性立体的交通信息体系,更好地管理其辖区范围内路网的交通拥堵状况,目前,这些卖给GPS生产商和各国的交通规划部门的产品已经成为了Inrix主要盈利的来源Inrix Drive Time依靠的是Inrix交通智能平台提供的实时交通信息,它能给购房顾客最精准的购房数据:实时

28、交通信息每1分钟更新一次,每90天就能分析和编译成一个历史数据库在大风暴袭击后的三小时之内,交通部门必须清理国道路面,而INRIX交通速度数据技术和云分析可决定重建路面与交通状况恢复的所需时间分析驾驶模式和道路对交通事故的相关性影响,与保险公司进行数据合作三、大数据的热点应用三、大数据的热点应用41百度案例百度:依托搜索数据实现精准营销 百度的数据以搜索数据为主。其对于数据的分析主要在于根据历史搜索和浏览行为的周期和频次,历史点击及访问过的链接和页面,以及当下的搜索关键词和浏览行为来推断用户的需求。其数据的特点在于数量庞大,类型较为单一,以及与网民当下的需求较为贴近,比较前端。基于网民历史搜索

29、的周期和频次 兴趣定向兴趣定向基于网民历史浏览行为的周期和频次基于搜索过指定关键词的人群 关键词定向关键词定向基于网民当下的浏览行为基于点击过企业搜索推广链接 到访定向到访定向基于访问过企业网站特定页面地域定向地域定向基于网民的地域特征4.24.2亿亿月度覆盖人数月度覆盖人数517517亿亿月度浏览页面月度浏览页面183183亿亿月度搜索请求量月度搜索请求量2013.42013.4数据来源:iUserTracker.家庭办公版 2013,6。基于对40万名家庭及办公(不含公共上网地点)样本网络行为的长期监测数据获得。三、大数据的热点应用三、大数据的热点应用42百度案例数据解读,2014年1月2

30、6日上午十点,在过去八小时内最热的迁入城市前三名是北京重庆和赣州,无论重庆和赣州,都是劳务输出的重点地区,排名前三理所应当。北京为什么位居迁入城市第一?点开北京的路线详情就能看到,迁入北京的大部分是廊坊、天津、葫芦岛等地的人,只是把北京当做一个交通中转站而已。这也就是北京能在迁出城市和迁入城市都能名列第一的原因了铁道部看完这个图,希望他们知道下一步的高铁线路应该怎么铺设三、大数据的热点应用三、大数据的热点应用43阿里巴巴:多角度挖掘大数据价值,构筑数据交易平台阿里巴巴拥有的数据主要是交易数据以及信用数据,其特点在于数据覆盖了从浏览到购物到支付的整个行为链,对于电商营销具有较强的针对性和指导性。

31、阿里对于大数据的应用在金融方面取得了良好的效果,在营销方面也陆续推出数据魔方、淘宝指数、聚石塔等数据产品,从不同维度对数据进行挖掘和分析,其最终目的在于建立起数据交易平台 Data Exchange,使阿里成为数据集散中心。聚石塔是由阿里旗下天猫与万 网、阿里云联合推出的商业数 据云平台,为天猫、淘宝平台 上的电商及电商服务商提供IT 基础设施和数据云服务。当前,聚石塔主要提供弹性托管服务、数据存储服务、数据同步服务、数据集成服务,以及云监控服 务等数据云服务。但阿里的野 心在于通过聚石塔整合阿里旗 下各个平台的数据资源,汇集 整个电商生态链所有环节的数 据信息,最终将其打造成为数 据交换平台

32、,实现阿里生态系 统内各个服务商的数据互通和 交换。淘宝指数是淘宝推出的免费消 费者数据研究平台。其数据来 源为用户在淘宝网、天猫上的 搜索行为以及淘宝网、天猫的 后台成交明细数据。淘宝指数 提供市场趋势分析(包括搜索 词的搜索、成交趋势,及其人 群特征)、市场细分分析(包 括搜索词的类目分布,近一个 月成交人群的特征,以及特定 人群的购物偏好),以及类目、子类目及品牌排行榜。淘宝指 数从消费者角度分析数据,协 助卖家了解淘宝搜索热点,查 询成交走势,定位消费人群,研究细分市场。数据魔方是淘宝面向卖家开放 的交易数据分析产品。数据魔 方为卖家提供每分钟更新一次 的实时数据,并提供行业分析、品牌

33、分析(包括热销排行及品 牌详情)、产品分析(包括产 品热销排行及产品详情)、属 性分析(包括属性组合排行、属性热销排行及属性详情)、淘词分析(包括行业热词榜、全网热销词查询以及宝贝标题 诊断)、流失顾客分析以及自 有店铺分析。数据魔方产品使 淘宝交易数据以标准化、定制 化的方式呈现,为卖家制定营 销策略提供支持。2010.32010.32012.42012.42012.72012.7数据来源:iUserTracker.家庭办公版 2013,6。基于对40万名家庭及办公(不含公共上网地点)样本网络行为的长期监测数据获得。EcommercePlus,家庭 办公版2013.6,基于对40万名家庭及办

34、公(不含公共上网地点)样本网络行为的长期监测数据获得。三、大数据的热点应用三、大数据的热点应用44淘宝案例10亿商品、交易额过万亿万亿每天30亿浏览、数千万交易集群规模30万台,每年扩大50%100PB数据数据:系统:我要买关键词搜索语音搜索语音理解关键词匹配挑选物品索引数据评论/交易商家信誉用户行为数据商户行为数据购买推荐其他你历史数据买家服务行业分析店铺基础经营分析商品优化分析买家分析营销效果分析售后/运营支撑分析需求挖掘订单分析供应链分析信用评估卖什么怎么卖卖给谁我要进货我要贷款卖家服务衍生服务:金融、保险搜索、电商、广告、SNS等数据驱动的互联网服务取得巨大成功,激发了大数据应用的想象

35、力!三、大数据的热点应用三、大数据的热点应用45阿里巴巴:整合新浪微博获取前瞻价值数据与新浪微博的合作不仅使阿里获得了一个重量级的广告平台,新浪微博所拥有的社交关系数据也弥补了阿里数据链中的短板。此前,阿里对于大数据的挖掘主要是针对浏览和购物信息的历史数据进行总结性分析,其重点是针对已产生的需求进行营销。而新浪微博带来的社交数据使得阿里对于兴趣信息、关系信息等具有前瞻性价值数据的挖掘成为可能,从而将有可能实现针对未产生的需求的营销2.82.8亿亿月度覆盖人数月度覆盖人数6060亿亿月度访问次数月度访问次数4.44.4亿亿月度下单笔数月度下单笔数1.91.9亿亿月度覆盖人数月度覆盖人数9393亿

36、亿月度浏览页面月度浏览页面183183亿亿微博发送数量微博发送数量 20122012年年1111月月基于历史数据的基于历史数据的 总结性分析总结性分析兴趣分析兴趣分析 人人际关系分析际关系分析 行为分析行为分析基于兴趣偏好的基于兴趣偏好的 预测性分析预测性分析针对已产生的针对已产生的 需求进行营销需求进行营销针对可能会产针对可能会产 生的需求营销生的需求营销2013.42013.42013.42013.4来源:iUserTracker.家庭办公版 2013,6。基于对40万名家庭及办公(不含公共上网地点)样本网络行为的长期监测数据获得。EcommercePlus,家庭 办公版2013.6,基于

37、对40万名家庭及办公(不含公共上网地点)样本网络行为的长期监测数据获得。三、大数据的热点应用三、大数据的热点应用46国内几大网商数据来源对比百度搜索百度搜索搜索数据搜索数据以搜索为主,以搜索为主,数据较前端数据较前端数据从访问到支付,数据从访问到支付,形成深度的交易链条形成深度的交易链条用户数据较全面用户数据较全面 强弱关系链结合强弱关系链结合 实现个性化营销实现个性化营销交易数据交易数据 信用数据信用数据 社交数据社交数据用户关系数据用户关系数据 社交数据社交数据淘宝淘宝 天猫天猫新浪微新浪微博博QQQQ账号账号 QQQQ空间空间 腾讯微博腾讯微博主要数据主要数据来源来源数据转化数据转化特点

38、特点主要数据主要数据类型类型三、大数据的热点应用三、大数据的热点应用47大数据的“纸牌屋”大数据平台:Cinematch时下最火的一部美剧纸牌屋,让全世界的文化产业界都意识到了大数据的力量。纸牌屋的数据库包含了3000万用户的收视选择、400万条评论、300万次主题搜索。最终,拍什么、谁来拍、谁来演、怎么播,都由数千万观众的客观喜好统计决定。从受众洞察、受众定位、受众接触到受众转化,每一步都由精准细致、高效经济的数据引导,从而实现大众创造的电视剧三、大数据的热点应用三、大数据的热点应用48电影里的大数据三、大数据的热点应用三、大数据的热点应用49大数据能预测电影票房吗?2013年Google在

39、Quantifying Movie Magic with Google Search(5)的白皮书中公布了电影票房预测模型,宣布预测票房与真实票房的吻合程度达到了94%搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房,并在新浪微博上提前发布了2013年12月国内上映电影的首周票房预测结果。预测结果与真实数据非常接近,同时,模型还可以用于对影响票房的因素进行定量分析三、大数据的热点应用三、大数据的热点应用50大数据就是金矿,谁挖掘得好就可以成为竞争壁垒。而今天最好的大数据都在大公司。我的预测:互联网大公司大部分会学会驾驭大数据,越做越强;而大部分非互联网公司(电信、银行、保险

40、)虽拥有大数据,却不知其珍贵,或用之不当。李开复目录目录目录目录二、大数据的技术实现三、大数据的热点应用四、大数据应用架构和技术架构51一、大数据的研究现状52六、大数据的逻辑架构六、大数据的逻辑架构Hive交互式数据仓库大数据业务应用Zookeeper分布式协作服务 Pig数据流处理语言Mahout数据挖掘Map/Reduce分布式计算框架HBase实时、分布式、高维数据库HDFS分布式文件系统 R统计语言六、大数据的技术架构六、大数据的技术架构53企业的 Hadoop 应用策略Data WarehouseSensorsDevicesTAPERTDBERPCRMMESHSEConnector

41、s非结构化数据源非结构化数据源SSRS SSASBI PlatformFamiliar End User ToolsPowerViewExcel with PowerPivotEmbedded BIPredictive Analytics结构化数据源结构化数据源Hadoop54六、大数据的技术架构六、大数据的技术架构企业大数据应用模式-混合架构MPP-DBMPP-DB架构模式:架构模式:Hadoop+MPP RDB/SMP RDB;处理方式:处理方式:Hadoop处理非结构化,为辅;处理非结构化,为辅;RDB处理结构化,为主;处理结构化,为主;非结构化:非结构化:Hadoop方案,对服务器和存

42、储无特殊要求,廉价为主;方案,对服务器和存储无特殊要求,廉价为主;结构化:结构化:MPP RDB/SMP RDB+Hadoop(只负责存储计算需做重大修改)或用新分布式文件(只负责存储计算需做重大修改)或用新分布式文件系统来替代,对计算和存储有要求(可靠性,高性能,增值应用等)系统来替代,对计算和存储有要求(可靠性,高性能,增值应用等)55六、大数据的技术架构六、大数据的技术架构信息源MES设备工程ERP视频数据HSE电子商务实时数据库质量数据管理知 识 和 模 型库文档报表交互式分析灵活组态.交互可视化分析实时智能分析在线质量分析效益与成本分析投入产出预测能源结构分析设备预警维护工艺指标分析

43、移动智能帧视频主动式规则文本模型机理模型经验模型神经网络模型搜索线性判别分析.Hadoop 非结构化数据知识搜索文本挖掘趋势和模式检测上下文抽取.挖掘模型算法模型Text EnergyEntity Extraction生产质量设备销售HSE工程把大数据分析平台与关系数据库结合起来,各取所长,支持业务系统的各类分析应用。把大数据分析平台与关系数据库结合起来,各取所长,支持业务系统的各类分析应用。同时,采用云计算搭建环境,保证资源动态分配,软件部署弹性可扩展。同时,采用云计算搭建环境,保证资源动态分配,软件部署弹性可扩展。ODS供应链优化模型校正文本类数据多媒体图片文档数据库HTMLXML函数拟合

44、经验公式数字降噪算法库56六、大数据的服务器配置六、大数据的服务器配置类型类型数量数量名称名称配置配置IP安装内容安装内容备注备注分布式应用分布式应用3MR-Pig主频2.4G内存16G硬盘500G192.168.4.1MR系统、Pig系统两个系统共用一台机器Hive-Chukwa192.168.4.2Hive系统、Chukwa系统两个系统共用一台机器MySQL192.168.4.3MySQL数据库系统存放Hive系统和Chukwa系统的元数据信息HDFS集群集群主节点主节点2NameNode192.168.1.1HDFS系统 JobTrackerSecondNameNode192.168.1

45、.2同时作为 SecondNameNodeHDFS集群集群从节点从节点3DataNode1192.168.1.3 DataNode2192.168.1.4 DataNode3192.168.1.5 HBase集群集群主节点主节点1HMaster192.168.2.1HBase系统 HBase集群集群从节点从节点1HRegionServer192.168.2.2 ZooKeeper集群集群1ZooKeeper192.168.3.1Zookeeper系统 11台服务器构成的大数据分析平台台服务器构成的大数据分析平台序号序号类型类型软件软件名称名称版本版本1虚拟机Java JDK1.7 for Li

46、nux2分布式系统Hadoop0.20.03Hbase0.90.34Zookerper3.3.35分布式应用Pig0.9.06Hive0.7.17Chukwa0.4.08数据库系统MySQL for Linux5.1.631硬件安装2软件版本每一个优秀的人,都有一段沉默的时光。那一段时光,是付出了很多努力,忍受孤独和寂寞,不抱怨不诉苦,日后说起时,连自己都能被感动日子。22.8.222.8.2Tuesday,August 02,2022企业的出路在于产品更新换代。15:20:4115:20:4115:208/2/2022 3:20:41 PM在企业内部,只有成本。22.8.215:20:411

47、5:20Aug-222-Aug-22人人是人才,赛马不相马,给每一个愿意干事的人才以发挥才干的舞台。15:20:4115:20:4115:20Tuesday,August 02,2022旁观者的姓名永远爬不到比赛的计分板上。22.8.222.8.215:20:4115:20:41August 2,2022我不理解这句话的意思。2022年8月2日下午3时20分22.8.222.8.2渐进思想是创新的最大敌人。2022年8月2日星期二下午3时20分41秒15:20:4122.8.2无须匆忙,该来的总会来,在对的时间,和对的人,因为对的理由。2022年8月下午3时20分22.8.215:20Augu

48、st 2,2022人在得意时须沉得住傲气;失意时则要忍得住火气。2022年8月2日星期二15时20分41秒15:20:412 August 2022学而不厌,诲人不倦。论语。下午3时20分41秒下午3时20分15:20:4122.8.2管理就是把复杂的问题简单化,混乱的事情规划化。22.8.222.8.215:2015:20:4115:20:41Aug-22金钱损失了还能挽回,一旦失去信誉就很难挽回。2022年8月2日星期二15时20分41秒Tuesday,August 02,2022自知之明是最难得的知识。22.8.22022年8月2日星期二15时20分41秒22.8.2谢谢各位!谢谢各位!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据研究现状及热点应用介绍课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|