1、4.2.1大数据处理的基本思想与框架第 四 章第四章目录分 治 思 想批 处 理流 计 算图 计 算大数据具有数据量大、数据来源与类型多样、处理速度快等特点分-将问题分解为规模更小的子问题治-将规模更小的子问题逐个击破合-将已解决的子问题合并,最终得出原问题的解什么是分治思想?大数据类型及其计算方式静态数据:静态数据:在处理时已收集完成、在计算式不会发生改变的数据流数据:流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析的结果图数据:图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据,或者转化为图之后再进
2、行分析的批处理计算Hadoop进化史最早起源于Nutch项目Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页的抓取、索引、查询等功能随着抓取网页的数量增加、遇到了严重的拓展性问题如何解决数十亿网页的存储和索引问题Google2003年谷歌发表了两篇论文为该问题提供了解决方案GFS:Google File SystemMapReduce:并行式计算模型BigTable:数据库Doug Cutting用了两年时间,将论文实现了出来2008年Hadoop成为Apache的顶级项目批处理计算运用Hadoop企业一览数据仓库,商业智能 (facebook,twitter,淘宝,京东,暴风,新浪
3、,58同城.,移动大云)互联网广告计算(亿赞普,科捷,各类大互联网企业)大搜索引擎项目 (Yahoo,国产盘古,人民搜索)站内搜索引擎项目 (Ebay,支付宝)内容推荐引擎(人人,新浪微博,优酷)病毒分析,垃圾邮件识别(Yahoo,趋势科技,360)云计算服务项目(亚马逊云,阿里云)地图项目(月球表面探测地图)科研项目(欧洲量子对撞机)金融项目(股票分析,阿里金融)批处理计算Hadoop是一个可运行与大规模计算机集群上的分布式系统架构,适用于静态数据的批处理计算。Spark是一种与Hadoop相似的、应用较为广泛的开源分布式计算架构。Spark使用了内存存储中间结果,运行速度比Hadoop快很
4、多。批处理计算HDFS主要功能:将大规模海量数据以文件的形式、用多个副本保存在不同的存储结点上,并用分布式系统进行管理是GFS的开源实现特点:容错性高,可以部署在廉价的机器中应用:云盘、网盘HBase主要功能:基于列的存储方式,用来存储非结构化和半结构化的数据,有良好的横向扩展能力,可管理PB级的大数据,是BigTable的开源实现特点:高可靠、高性能、可伸缩、分布式批处理计算MapReduce核心思想:将任务分解并发布到多个节点上进行处理,最后汇总输出处理海量数据,(1TB)由Map(映射)和Reduce(归纳)组成自动实现分布式并行计算计算分配到大量机器上HeronHeron流计算近年来,
5、在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用流数据,即数据以大量、快速、时变的流形式持续到达流计算流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。主要流计算软件:IBM InfoSphere Streams(捕获和分析动态数据)Twitter Storm(推特风暴)Yahoo!S4(雅虎分布式流计算)淘宝Facebook PumaHeron图计算图计算:现实中的数据大多以图的形式呈现,或者转换为图以后再进行分析图计算社交网络数据转换成图结构实时处理于批处理的整合平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。练一练A 1
6、.下列关于流数据的描述不正确的是()A.数据在处理时已经采集完成 B.数据价值随着时间的流逝降低 C.实时分析流数据可以得到更有价值的结果 D.可以采用流计算进行实时分析 练一练2.下列关于Hadoop架构的描述正确的是()A.是一个对大数据进行聚合式处理的基础软件框架 B.不能运行于大规模计算机集群上 C.采用NTFS文件系统管理数据文件 D.采用MapReduce编程模型处理大规模数据集D练一练3.下列软件主要用于进行流计算的有()A.Hadoop B.StormC.PregelD.SparkB练一练4.实时处理与批处理整合的优势有()可以在同一个平台做批处理计算和流计算 缩短了批处理计算和流计算之间的切换延时 有利于降低使用成本 增加了系统开销 A.B.C.D.A谢谢观看第 四 章第 四 章