1、第四章 数据处理与应用 学习目标: 1、理解理解Hadoop的组成和功能的组成和功能 2、掌握大数据处理类型、掌握大数据处理类型 未来,已发生改变未来,已发生改变 大数据的关键技术大数据的关键技术 n大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在 合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。 n在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小 型数据集合合并后进行分析可得出许多额外的信息和数据关系性,可用来 察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况或判定研究 质量等。 大数据的魅力 大数据的魅力 顾客一次购买商品 1面包、黄油、
2、尿布、牛奶 2咖啡、糖、小甜饼、鲑鱼 3面包、黄油、咖啡、尿布、牛奶、鸡蛋 4面包、黄油、鲑鱼、鸡 5鸡蛋、面包、黄油 6鲑鱼、尿布、牛奶 7面包、茶叶、糖、鸡蛋 8咖啡、糖、鸡、鸡蛋 9面包、尿布、牛奶、盐 10茶叶、鸡蛋、小甜饼、尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布牛奶 什么是分治思想?什么是分治思想? 分-将问题分解为规模更小的子问题 治-将规模更小的子问题逐个击破 合-将已解决的子问题合并,最终得出原问题的解 正如“不同的锁需要不同的钥匙”企业中不同的应用场景数据不同的计算模式, 需要使用不同的大数据技术 不同的计算模式需要使用不同的产品 大数据处理类型?大数据处
3、理类型? 一一、批处理计算批处理计算 设想:硬盘读取速度永远满足要求! 你发现:目前的硬盘容量是1T,速度100MB/s 要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。 而Hadoop就是一个并行处理海量数据的工具。 Hadoop 诞生于大搜索应用 Doug Cutting MapReduce | GFS | BigTable Hadoop是什么? 是一个可运行于大规模计算机集群上的分布式系统基础架构, 适用于静态数据批处理计算。 方便用户便捷处理海量数据。 目前Yahoo!(雅虎)是最主要的贡献者。 批处理计算批处理计算 国内外那些企业用Hadoop? 数据仓库,商业智能 (facebo
4、ok,twitter,淘宝,京东,暴风,新浪,58同城., 移动大云) 互联网广告计算 (亿赞普,科捷,各类大互联网企业) 大搜索引擎项目 (Yahoo,国产盘古,人民搜索) 站内搜索引擎项目 (Ebay,支付宝) 内容推荐引擎 (人人,新浪微博,优酷) 病毒分析,垃圾邮件识别(Yahoo,趋势科技,360) 云计算服务项目 (亚马逊云,阿里云) 地图项目 (月球表面探测地图) 科研项目 (欧洲量子对撞机) 金融项目 (股票分析,阿里金融) 分布式文件系统分布式文件系统HDFSHDFS 分布式数据库分布式数据库HBaseHBase 分布式分布式并行计算并行计算模型模型MapReduceMapR
5、educe 批处理计算批处理计算 分布式文件系统分布式文件系统HDFSHDFS 以流式数据访问模式存储超大文件而设计的文件 系统。 思想:一次写入,多次读取最高效 HDFS不需要运行在昂贵并且高可靠的硬件上。 比如:云盘、网盘云盘、网盘 分布式数据库分布式数据库HBaseHBase 高可靠,高性能,可伸缩,分布式的列式 数据库是谷歌BigTable数据库的开源实现。 分布式分布式并行计算并行计算模型模型 MapReduce MapReduce 处理海量数据,(1TB) 由Map(映射)和Reduce(归纳)组成 自动实现分布式并行计算 计算分配到大量机器上 二、流计算二、流计算 流计算可以简单
6、、高效、可靠地实现实时数据的获取、传输和 存储。 主要流计算软件: IBM InfoSphere Streams(捕获和分析动态数据) Twitter Storm(推特风暴) Yahoo!S4(雅虎分布式流计算) 淘宝 Facebook Puma Heron 18 流计算 三三、图图计算计算 现实中的数据大多以图的形式呈现,或者转换为图以 后再进行分析 图计算图计算 社交网络数据 转换成图结构 四四、实时处理、实时处理于批处理的整合于批处理的整合 平台的整合缩短了批处理与流处理之间的切换延时时 间,有利于减少系统的开销,降低使用成本。 1.下列关于流数据的描述不正确的是( ) A.数据在处理时
7、已经采集完成 B.数据价值随着时间的流逝降低 C.实时分析流数据可以得到更有价值的结果 D.可以采用流计算进行实时分析 A 练一练练一练 2.下列关于Hadoop架构的描述正确的是( ) A.是一个对大数据进行聚合式处理的基础软件框架 B.不能运行于大规模计算机集群上 C.采用NTFS文件系统管理数据文件 D.采用MapReduce编程模型处理大规模数据集 D 练一练练一练 3.下列软件主要用于进行流计算的有( ) A.Hadoop B.Storm C.Pregel D.Spark B 练一练练一练 4.实时处理与批处理整合的优势有( ) 可以在同一个平台做批处理计算和流计算 缩短了批处理计算
8、和流计算之间的切换延时 有利于降低使用成本 增加了系统开销 A. B. C. D. A 5.(开放题)试述应用“分治”思想,从日志数据文件(大数 据集)中提取出某日访问百度次数最多的IP的基本思路。 把整个日志大数据文件映射为若干个(如1000个)小文件,再对每个小 文中出现的IP进行频率统计,找出频率大的部分及其频率。然后再汇总 1000个小文件的处理结果,从中找出频率最大的IP。 想一想想一想 6.(开放题)上网查找Hadoop 处理大数据 的应用实例,制作演示文稿并向同学介绍。 建议:学生分组,明确分工,然后使用搜索引擎查找Hadoop 处理大数据的应用实例,甄选后制作成演示文稿,展示交流。 展示交流可以采用面对面方式、微视频方式等。 想一想想一想 Thanks