1、of35云 计 算(第三版)CLOUD COMPUTING Third Edition第 5 章Hadoop 2.0 主流开源云架构(二)5.1 引例5.2 Hadoop 2.0简述5.3 Hadoop 2.0部署5.4 Hadoop 2.0体系架构5.5 Hadoop 2.0访问接口5.6 Hadoop 2.0编程接口of35云计算第三版配套PPT课件5.2 Hadoop 2.0简述5.2.1 Hadoop 2.0由来5.2.2 Hadoop 2.0相关项目5.2.3 Hadoop应用of35云计算第三版配套PPT课件45.2 Hadoop 2.0简述Hadoop 2.0由来开源组织Apac
2、he成立开源搜索引擎项目NutchApache实现了Nutch版的NDFS和MapReduceNDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0,称Hadoop 2.X及其以后版本为Hadoop 2.02002年2004年2006年of35云计算第三版配套PPT课件5l 将Hadoop 2.0部署至集群后,通过调用Hadoop 2.0程序库,能够用简单的编程模型来处理分布在不同机器上的大规模数据集。l 由于采用客户-服务器模式,Hadoop 2.0很容易从一台机器扩展至成千上万台机器,
3、并且每台机器都能提供本地计算存储和本地计算。l 考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop 2.0本身从设计上就在程序层规避了这些问题。5.2 Hadoop 2.0简述Hadoop 2.0由来Hadoop 2.0分布式存储(HDFS)分布式操作系统(Yarn)of35云计算第三版配套PPT课件65.2 Hadoop 2.0简述Hadoop 2.0由来Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0项目模块。HadoopCommon联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一些公用jar包,另一方面也是程序员访问其他两模
4、块的接口。HDFSHadoop的分布式文件系统。主要提供分布式存储服务。HadoopMapReduce分布式计算框架。主要负责资源管理、任务调度和MapReduce算法实现。of35云计算第三版配套PPT课件5.2 Hadoop 2.0简述5.2.1 Hadoop 2.0由来5.2.2 Hadoop 2.0相关项目5.2.3 Hadoop应用of35云计算第三版配套PPT课件8Hadoop云计算系统Google云计算系统Hadoop HDFSGoogle GFSHadoop MapReduceGoogle MapReduceHBaseGoogle BigTableZooKeeperGoogle
5、 ChubbyPigGoogle Sawzall5.2 Hadoop 2.0简述Google云计算组件和Hadoop及其相关项目之间的对应关系:Hadoop 2.0相关项目of35云计算第三版配套PPT课件9Cloudera Manager/AmbariHueBigTopAvroMahoutRHadoopHivePigImaplaSerachOozieHcataLogCassandraSqoopFlumeChukwaWeb HDFSZookeeperMapReduceHbaseYarnHDFS5.2 Hadoop 2.0简述Hadoop 2.0相关项目近几年工业界围绕Hadoop进行了大量的外
6、围产品开发,下图描述了各个产品项目之间的层次关系。of35云计算第三版配套PPT课件5.2 Hadoop 2.0简述5.2.1 Hadoop 2.0由来5.2.2 Hadoop 2.0相关项目5.2.3 Hadoop应用of35云计算第三版配套PPT课件115.2 Hadoop 2.0简述Hadoop应用构建大型分布式集群数据仓库数据挖掘5.1 引例5.2 Hadoop 2.0简述5.3 Hadoop 2.0部署5.4 Hadoop 2.0体系架构5.5 Hadoop 2.0访问接口5.6 Hadoop 2.0编程接口of35云计算第三版配套PPT课件5.3 Hadoop 2.0部署5.3.1
7、 部署综述5.3.2 传统解压包部署of35云计算第三版配套PPT课件145.3 Hadoop 2.0部署部署综述安装方式简单易用烦琐易错隐藏了太多细节有助于读者深入理解Hadoop传统解压包方式Linux标准方式部署环境不需要与其他节点交互,不需要使用HDFS,直接读写本地的文件系统单机模式伪分布模式分布式模式在一台单机上运行,用不同的进程模仿分布式运行中的各类节点在不同的机器上部署系统of35云计算第三版配套PPT课件155.3 Hadoop 2.0部署部署步骤制定部署规划准备机器准备机器软件环境下载Hadoop解压Hadoop配置Hadoop启动Hadoop测试Hadoop部署前工作部署
8、Hadoopof35云计算第三版配套PPT课件1)硬件环境由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须根据“部署规划”确定。实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点),此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。5.3 Hadoop 2.0部署准备环境of35云计算第三版配套PPT课件175.3 Hadoop 2.0部署准备环境2)软件环境大量的实践证明,在Linux环境下使用Hadoop则更加稳定高效须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop修改机器名添加域名映射关闭防火墙安装JDK
9、of35云计算第三版配套PPT课件185.3 Hadoop 2.0部署关于Hadoop依赖软件l SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用l Hadoop本身是一堆Java代码,而Java代码并不依赖SSHl 本节使用的Hadoop版本为稳定版Hadoop-2.2.0.tar.gzl CentOS版本为64位CentOS-6.5l JDK版本为jdk-7u40-linux-x64.rpmof35云计算第三版配套PPT课件5.3 Hadoop 2.0部署5.3.1 部署综述5.3.2 传统解压包部署of35云计算第三版配套PPT课件5
10、.3 Hadoop 2.0部署传统解压包部署现有三台机器,且它们都刚装好64位CentOS-6.5,安装系统时用户名为joe,请按要求完成:修改三台机器名为cMaster,cSlave0和cSlave1,并添加域名映射、关闭防火墙和安装JDK。以cMaster作为主节点,cSlave0和cSlave1作为从节点,部署Hadoop。【例5-5】20of35云计算第三版配套PPT课件5.3 Hadoop 2.0部署传统解压包部署1.制定部署规划此Hadoop集群需三台机器(cMaster,cSlave0和cSlave1),其中cMaster作为主节点,cSlave0和cSlave1作为从节点。2.
11、准备机器准备三台机器,它们可以是实体机也可以是虚拟机,若使用虚拟机。3.准备机器软件环境三台机器都要完成:修改机器名、添加域名映射、关闭防火墙和安装JDK。21of35云计算第三版配套PPT课件5.3 Hadoop 2.0部署传统解压包部署4.下载Hadoop谷歌搜索“Hadoop download”并下载,以joe用户身份,将Hadoop分别复制到三台机器上。5.解压Hadoop分别以joe用户登录三台机器,每台都执行如下命令解压Hadoop文件:6.配置Hadoop三台机器都要配置,且配置相同22of35云计算第三版配套PPT课件5.3 Hadoop 2.0部署传统解压包部署7.启动Had
12、oopl 首先,在主节点cMaster上格式化主节点命名空间l 其次,在主节点cMaster上启动存储主服务namenode和资源管理主服务resourcemanager。l 最后,在从节点上启动存储从服务datanode和资源管理从服务nodemanager8.测试Hadoop23Hadoop 2.0部署通过上述单机部署和集群部署,可以看出,Hadoop本身部署起来很简单,其大量工作其实都是前期的Linux环境配置,Hadoop安装只是解压、修改配置文件、格式化、启动和验证,关于Linux命令问题,请参考Linux专业书籍。总 结本章未完待续of35云 计 算(第三版)CLOUD COMPUTING Third Edition谢 谢 观 看第 5 章
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。