大数据实践课件：第2章-Hadoop基础.pptx_163文库

资源描述

1、大数据应用人才培养系列教材大数据实践第二章 Hadoop基础2.1Hadoop简介2.2Hadoop部署2.3Hadoop常用命令习题2.4HDFS常用命大数据应用人才培养系列教材2.1Hadoop简介简介第二章 Hadoop基础8 Aug 2018:Release 3.1.1 available31 May 2018:Release 2.7.7 available解决海量数据存储（HDFS）海量数据分析（MapReduce）资源管理调度问题（YARN）本教材：2.7.32.1Hadoop简介简介第二章 Hadoop基础2.1Hadoop简介简介第二章 Hadoop基础2.1Hadoop简介简

2、介第二章 Hadoop基础MapReduce1.0原理图分布式计算框架，基于它写出来的应用程序能够运行在Hadoop集群上。MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是“任务的分解与结果的汇总”。2.1Hadoop简介简介第二章 Hadoop基础HDFS结构图HDFS是主从结构的，有主节点（NameNode）和从节点（DataNode）。一个主节点可关联多个从节点，一个从节点也可关联多个主节点。从节点又称数据节点。每一个block会在多个DataNod

3、e上存储多份副本2.1Hadoop简介简介第二章 Hadoop基础YARN结构组件组件功能功能ResourceManagerResourceManager(RM)(RM)负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。NodeManagerNodeManager(NM)(NM)NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；同时会接收并处理来自AM的Container 启动/停止等请求。ApplicationMasterApp

4、licationMaster(AM)(AM)应用框架，它负责向ResourceManager协调资源，并且与NodeManager协同工作完成Task的执行和监控ContainerContainerContainer是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container 表示的。2.1Hadoop简介简介第二章 Hadoop基础其它其它HadoopHadoop生态圈组件生态圈组件功能功能HBase一个建立在HDFS之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据

5、库。HiveHive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行，通常用于离线分析。Spark一种与 Hadoop 相似的开源集群计算环境，它基于内存计算，数据分析速度更快。Mahout创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Pig提供一种基于MapReduce的数据分析工具。Zookeeper解决分布式环境下的数据管理问题Sqoop主要用于传统数据库和Hadoop之间传输数据。第二章 Hadoop基础2.1Hadoop简介2.2Hadoop部署2.3Hadoop常用命令习题2.4HDFS

6、常用命大数据应用人才培养系列教材2.2Hadoop部署部署第二章 Hadoop基础单节点部署单节点部署基础知识：熟悉虚拟机（virtualbox/vmware）熟悉Linux基本命令（下载文件，使用vi/vim编辑文件，创建文件和创建目录）准备工作：在虚拟机中安装好Linux(centos7)使用桥接模式配好网络2.2Hadoop部署部署第二章 Hadoop基础1.单单节点部署节点部署安装步骤：在虚拟机中安装Centos7安装ssh安装rsync。安装openJDK确认jdk版本下载Hadoop的安装包解压Hadoop在Hadoop的配置文件（etc/hadoop/hadoop-env.sh）

7、中增加环境变量JAVA_HOME验证配置运行MapReduce任务2.2Hadoop部署部署第二章 Hadoop基础2.伪伪分布式部署分布式部署安装步骤：SSH免密码登录安装ssha)产生公钥和私钥b)将公钥放到目标机器的/.ssh/authorized_keys中c)验证修改配置文件core-site.xml、hdfs-site.xml格式化NameNode启动NameNode和DataNode的守护进程通过web检查dfs状态验证dfs是否正常工作配置YARN2.2Hadoop部署部署第二章 Hadoop基础3.集群集群部署部署集群部署架构编号编号常见集群部署架构常见集群部署架构特点特点H

8、adoop版版本本1传统方式NameNode加SecondaryNameNod1.x和2.x2HAActive Namenode加Standby Namenode2.x3HA+Federation两组Active Namenode和Standby Namenode2.x2.2Hadoop部署部署第二章 Hadoop基础3.集群集群部署部署集群规划编号编号机器名机器名IP进程进程1m110.17.147.101NameNode2m210.17.147.102SecondaryNamenode3m310.17.147.103ResourceManager,JobHistory4m410.17.14

9、7.104DataNode，DataNodeManager5m510.17.147.105DataNode，DataNodeManager6m610.17.147.106DataNode，DataNodeManager2.2Hadoop部署部署第二章 Hadoop基础3.集群集群部署部署准备工作准备6台Linux服务器分别配置6台机器的名字为m1m6，并指定静态IP地址所有机器配置本地机器名解析所有机器之间配置ssh免密码登录关闭防火墙下载Hadoop安装包，并解压到适当的位置所有机器上使用相同版本的jdk和Hadoop版本，并且保证Hadoop的目录在相同的位置2.2Hadoo

10、p部署部署第二章 Hadoop基础3.集群集群部署部署准备工作的验证验证本地机器名解析正常验证ssh免密码配置成功在每台机器上运行java-version检查jdk版本在每台机器上检查防火墙状态2.2Hadoop部署部署第二章 Hadoop基础3.集群集群部署部署配置Hadoop参数配置etc/hadoop/hadoop-env.sh 配置core-site.xml 配置etc/hadoop/hdfs-site.xml 配置etc/hadoop/mapred-site.xml 配置etc/hadoop/yarn-site.xml 配置etc/hadoop/slaves 分发配置文件。

11、2.2Hadoop部署部署第二章 Hadoop基础3.集群集群部署部署启动集群格式化NameNode 启动NameNode 启动DataNode 启动全部dfs进程启动ResourceManager 启动NodeManager 启动JobHistory Server 用浏览器检查web接口工作是否正常关闭集群第二章 Hadoop基础2.1Hadoop简介2.2Hadoop部署2.3Hadoop常用命令习题2.4HDFS常用命大数据应用人才培养系列教材2.3Hadoop常用命令常用命令第二章 Hadoop基础1.用户用户命令命令命令命令功能功能$bin/hadoop显示帮助$bin/had

12、oop fs 文件操作$bin/hadoop jar运行MapReduce程序$bin/hadoop version查看Hadoop版本$bin/hadoop checknative检查Hadoop的本地库2.3Hadoop常用命令常用命令第二章 Hadoop基础1.用户用户命令命令bin/hadoop fs可用的常用参数列表编号编号命令命令功能功能1-cat path/file输出文本文件的内容2-appendToFile 本地文件集群文件将本地文件的内容追加到集群文件结尾3-copyFromLocal 本地文件集群文件将本地文件复制到集群4-copyToLocal集群文件本地文件将集

13、群文件复制到本地5-cp 集群原文件集群目标文件复制集群文件6-mv集群原文件集群目标文件移动或重命名文个7-ls 路径列出集群文件或者目录8-mkdir 路径在集群中创建目录9-setrep 参数副本数路径设置文件副本数2.3Hadoop常用命令常用命令第二章 Hadoop基础2.管理命令管理命令$bin/hadoop daemonlog-getlevel$bin/hadoop daemonlog-setlevel 功能：动态调整日志级别。DEBUG INFO WARN ERROR FATALhttp:/:50070/logLevel2.3Hadoop常用命令常用命令第二章 Hado

14、op基础2.管理命令管理命令$bin/hadoop daemonlog-getlevel$bin/hadoop daemonlog-setlevel 功能：动态调整日志级别。DEBUG INFO WARN ERROR FATALhttp:/:50070/logLevel2.3Hadoop常用命令常用命令第二章 Hadoop基础3.启动关闭命令启动关闭命令命令命令功能功能$sbin/start-all.sh$sbin/stop-all.sh启动集群所有服务/关闭集群所有服务$sbin/start-dfs.sh$sbin/stop-dfs.sh启动dfs;关闭dfs$sbin/start-yarn

15、.sh$sbin/stop-yarn.sh启动YARN;关闭YARN$sbin/hadoop-daemon.sh start|stop 服务名单个Hadoop服务启动或者关闭$sbin/hadoop-daemons.sh start|stop 服务名全部slaves上的Hadoop服务启动或者关闭$sbin/yarn-daemon.sh start|stop 服务名单个yarn服务的启动或者关闭$sbin/yarn-daemons.sh start|stop 服务名全部slaves上的yarn服务启动或者关闭$bin/hdfs secondarynamenode以控制台的方式启动Seconda

16、ryNameNode$bin/hdfs namenode以控制台的方式启动NameNode$bin/hdfs datanode以控制台的方式启动DataNode第二章 Hadoop基础2.1Hadoop简介2.2Hadoop部署2.3Hadoop常用命令习题2.4HDFS常用命大数据应用人才培养系列教材2.4HDFS常用命令常用命令第二章 Hadoop基础1.用户命令命令命令功能功能$bin/hdfs显示帮助$bin/hdfs dfs 参数文件操作，与$bin/hadoop fs的参数完全一样$bin/hdfs namenode-format格式化NameNode$bin/hdfs getco

17、nf从配置文件中获取配置信息$bin/hdfs fsck 路径参数处理损坏的文件2.4HDFS常用命令常用命令第二章 Hadoop基础1.用户命令fsck参数编号编号参数参数功能功能1-list-corruptfileblocks输出损坏的文件及丢失的块2-move将文件移动到/lost+found目录3-delete删除损坏的文件4-openforwrite输出以写方式打开的文件5-files输出该目录及子目录下所有文件的状态6-files-blocks输出该目录及子目录下所有文件的块信息7-files blocks-locations输出该目录及子目录下所有文件在DataNode的存储信

18、息8-files-blocks-racks输出该目录及子目录下所有文件机架感知信息2.4HDFS常用命令常用命令第二章 Hadoop基础2.管理命令命令命令功能功能$bin/hdfs dfsadmin-report查看HDFS的基本统计信息$bin/hdfs dfsadmin-safemode 配置安全模式$bin/hdfs dfsadmin-saveNamespace将内存信息保存到磁盘，并重置edits文件$bin/hdfs dfsadmin-refreshNodes刷新节点和排除文件$bin/hdfs dfsadmin setBalancerBandwidth byte per seco

19、nd设置负载均衡带宽$bin/hdfs secondarynamenode 参数操作SecondaryNameNode$bin/hdfs balancer平衡集群中DataNode的数据第二章 Hadoop基础2.1Hadoop简介2.2Hadoop部署2.3Hadoop常用命令习题2.4HDFS常用命大数据应用人才培养系列教材习题：习题：AIRack人工智能实验平台人工智能实验平台一站式的人工智能实验平台DeepRack深度学习一体深度学习一体机机开箱即用的AI科研平台BDRack大数据实验平台大数据实验平台一站式的大数据实训平台云计算头条微信号：chinacloudnj中国大数据微信号：cstorbigdata刘鹏看未来微信号：lpoutlook云创大数据订阅号微信号：cStor_cn云云创公众创公众号推荐号推荐深度学习世界微信号：dl-world云创大数据服务号微信号：cstorfw高校大数据与人工智能微信号：data_AI手机APP推荐我的我的PM2.5随时随地准确查看身边的PM2.5值同声译同声译支持26种语言互译的实时翻译软件科技头条科技头条汇聚前沿资讯的科技情报站我的南京我的南京云创大数据为路况大数据应用提供技术支持万物云智能硬件大数据免费托管平台环境云环境大数据开放共享平台网站推荐网站推荐感谢聆听

展开阅读全文