1、第3章分布式文件系统HDFSHadoop大数据原理与应用西安电子科技大学出版社【知识与能力要求】第3章 分布式文件系统HDFS 3.1 HDFS简介 3.2 HDFS体系架构 3.3 HDFS文件存储机制 3.4 HDFS数据读写过程 3.5 实战HDFS 3.6 HDFS高可靠机制3.1 HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统,是Hadoop三大核心之一,是针对谷歌文件系统GFS(Google File System)的开源实现(The Google File System,2003)。HDFS是一个具有高容错性的文
2、件系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。大数据处理框架如MapReduce、Spark等要处理的数据源大部分都存储在HDFS上,Hive、HBase等框架的数据通常也存储在HDFS上。简而言之,HDFS为大数据的存储提供了保障。经过多年的发展,HDFS自身已经十分成熟和稳定,且用户群愈加广泛,HDFS逐渐成为分布式存储的事实标准。3.1 HDFS简介 HDFS文件系统的基本特征包括以下几个方面。(1)高容错性:把硬件出错看做一种常态,HDFS设计了相应机制能够快速自动进行错误检测和恢复。例如,一个节点出现故障,它上面的数据在其它节点存在备
3、份,并且会被自动补充。(2)数据容量大:HDFS每个集群可以支持数百个节点,以支持应用程序的大数据需求。(3)可扩展性:水平扩展性强,数据节点可以根据需要进行增删。(4)高吞吐量:数据传输速率高,支持高并发大数据应用程序。(5)就近计算:客户请求尽可能在数据节点上直接完成计算任务,这样在大数据的业务中可以降低网络负担,增加吞吐量。3.2 HDFS体系架构 HDFS采用Master/Slave架构模型,一个HDFS集群包括一个NameNode和多个DataNode。名称节点NameNode为主节点,数据节点DataNode为从节点,文件被划分为一系列的数据块(Block)存储在从节点DataNo
4、de上,NameNode是中心服务器,不存储数据,负责管理文件系统的命名空间(Namespace)以及客户端对文件的访问。3.2 HDFS体系架构 1.NameNode NameNode运行在日常硬件上,通常只有一个,是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,包括文件/目录的元数据和每个文件对应的数据块列表,它负责接收用户的操作请求。作为HDFS主服务节点的核心,它主要完成下面任务:(1)管理命名空间(Namespace)。(2)控制客户端对文件的读写。(3)执行常见文件系统操作,比如文件的重命名、复制、移动、打开、关闭以及目录操作。3.2 HDFS体系架构 1.NameNo
5、de HDFS命名空间(NameSpace)支持传统的层次型文件组织结构,与大多数现有文件系统类似,用户可以创建、删除、移动或重命名文件。在HDFS中,NameNode负责管理分布式文件系统的命名空间,保存了两个核心数据结构:FsImage和EditLog。其中,FsImage用于维护文件系统树以及文件树中所有文件和目录的元数据;操作日志文件EditLog记录了所有针对文件的创建、删除、重命名等操作。NameNode记录了每个文件中各个块所在的数据节点的位置信息,但是并不持久化存储这些信息,而是在系统每次启动时扫描所有数据节点重构得到这些信息。3.2 HDFS体系架构 2.DataNode D
6、ataNode也运行在日常硬件上,通常有多个,它为HDFS提供真实文件数据的存储服务。HDFS数据存储在DataNode上,数据块的创建、复制和删除都在DataNode上执行。DataNode将HDFS数据以文件的形式存储在本地的文件系统中,但并不知道有关HDFS文件的信息。DataNode把每个HDFS数据块存储在本地文件系统的一个单独的文件中,并不在同一个目录创建所有的文件,实际上,它用试探的方法来确定每个目录的最佳文件数目,并且在适当的时候创建子目录。在同一个目录中创建所有的本地文件并不是最优的选择,这是因为本地文件系统可能无法高效地在单个目录中支持大量的文件。当一个DataNode启动
7、时,它会扫描本地文件系统,产生一个这些本地文件对应的所有HDFS数据块的列表,然后作为报告发送到NameNode,这个报告就是块状态报告。3.2 HDFS体系架构 严格地说,客户端并不算是HDFS的一部分。客户端可以支持打开、读取、写入等常见操作,并且提供了类似Shell的命令行方式来访问HDFS中的数据,也提供了API作为应用程序访问文件系统的客户端编程接口。3.3 HDFS文件存储机制 1.Block HDFS中的数据以文件块Block的形式存储,Block是最基本的存储单位,每次读写的最小单元是一个Block。对于文件内容而言,一个文件的长度大小是N,那么从文件的0偏移开始,按照固定的大
8、小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。Hadoop 2.0中默认Block大小是128MB。不同于普通文件系统,HDFS中如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。Block的大小可以根据实际需求进行配置,可以通过HDFS配置文件hdfs-site.xml中的参数dfs.blocksize来定义块大小,但要注意,数字必须是2K,文件的大小可以不是Block大小的整数倍,这时最后一个块可能存在剩余。3.3 HDFS文件存储机制 1.Block 为什么HDFS数据块设置的这么大呢?原因是和普通的本地磁盘文件系统不同,HDFS存储的是大数据文件,通常会有
9、TB甚至PB的数据文件需要管理,所以数据的基本单元必须足够大才能提高管理效率。而如果还使用像Linux本地文件系统EXT3的4KB单元来管理数据,则会非常低效,同时会浪费大量的元数据空间。3.3 HDFS文件存储机制 2.Block副本管理策略 HDFS采用多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的DataNode上。HDFS提供可靠的算法实现在分布式环境中存储大量数据。简单来说,每个数据块Block都存在副本以提高容错性。默认情况下每个块存在3个副本。数据块的信息会定期由DataNode报送给NameNode,任何时候,当NameNode发现一个块的副本个数少于3
10、个或者多于3个时都会进行补充或者删除。副本放置的基本原则是保证并非所有的副本都在同一个机架(Rack)上。这样放置的好处在于提供高容错性的同时降低延时,注意一个Rack可能包含多个DataNode,而数据分布在不同DataNode可以提高数据读写并发。对于多于3个副本的情况,其它副本将会随机分布在不同DataNode,同时保证同一个机架中最多存在两个副本。可以通过配置文件hdfs-site.xml中的参数dfs.replication来定义Block副本数。3.3 HDFS文件存储机制 2.Block副本管理策略 Block副本在机架中的放置策略Block:123机架1121机架2232机架3
11、3313.3 HDFS文件存储机制 2.Block副本管理策略 Hadoop集群中机架逻辑结构Hadoop集群核心交换机 1核心交换机 k机架 1机架 2单层交换机单层交换机计算机1计算机2计算机1计算机2机架 N单层交换机计算机1计算机23.4 HDFS数据读写过程 3.4.1 数据读取过程客户端JVM1352数据节点DataNode235 5312客户端DistributedFileSytemFSDataInputStreamDFSInputStream名称节点NameNode2:获取数据块信息4:读 取 请求7:关闭文件3:生成对象实例5:读取数据6:读取数据元数据(名称,块个数,地址,
12、)1:打开文件6:读取数据数据节点DataNode数据节点DataNode3.4 HDFS数据读写过程 3.4.1 数据读取过程客户端读取HDFS上的文件时,需要调用HDFS Java API一些类的方法,从编程角度来看,主要经过以下几个步骤。(1)客户端生成一个FileSystem实例(DistributedFileSystem对象),并使用此实例的open()方法打开HDFS上的一个文件。(2)DistributedFileSystem通过RPC调用向NameNode发出请求,得到文件的位置信息,即数据块编号和所在DataNode地址,对于每一个数据块,元数据节点返回保存数据块的数据节点的
13、地址,通常按照DataNode地址与客户端的距离从近到远排序。(3)FileSystem实例获得地址信息后,生成一个FSDataInputStream对象实例返回给客户端,此实例封装了一个DFSInputStream对象,负责存储数据块信息和DataNode地址信息,并负责后续的文件内容读取工作。(4)客户端向FSDataInputStream发出读取数据的read()调用。(5)FSDataInputStream收到read()调用请求后,FSDataInputStream封装的DFSInputStream选择与第一个数据块最近的DataNode,并读取相应的数据信息返回给客户端,在数据块读
14、取完成后,DFSInputStream负责关闭到相应DataNode的链接。(6)DFSInputStream依次选择后续数据块的最近DataNode节点,并读取数据返回给客户端,直到最后一个数据块读取完毕。DFSInputStream从DataNode读取数据时,可能会碰上某个DataNode失效的情况,则会自动选择下一个包含此数据块的最近的DataNode去读取。(7)客户端读取完所有数据块,然后调用FSDataInputStream的close()方法关闭文件。3.4 HDFS数据读写过程 3.4.2 数据写入过程 HDFS的设计遵循“一次写入,多次读取”的原则,所有数据只能添加不能更新
15、。数据会被划分为等尺寸的块写入不同的DataNode中。每个块通常保存指定数量的副本(默认3个)。HDFS数据写入基本过程为:客户端向NameNode发送文件写请求,NameNode给客户分配写权限,并随机分配块的写入地址DataNode的IP,兼顾副本数量和块Rack自适应算法,例如副本因子是3,则每个块会分配到三个不同的DataNode,为了提高传输效率,客户端只会向其中一个DataNode复制一个副本,另外两个副本则由DataNode传输到相邻DataNode。3.4 HDFS数据读写过程 3.4.2 数据写入过程客户端JVM1352数据节点DataNode235 5312客户端Dist
16、ributedFileSytemFSDataOutputStreamDFSOutputStream2:创建文件元数据3:写 入 数据6:关闭文件4:写入数据包1:创建文件请求5:接收确认包44557:写操作完成元数据(名称,块个数,地址,)名称节点NameNode数据节点DataNode数据节点DataNode3.4 HDFS数据读写过程 3.4.2 数据写入过程 从编程角度来说,将数据写入HDFS主要经过以下几个步骤。(1)创建和初始化FileSystem,客户端调用create()来创建文件(2)FileSystem用RPC调用元数据节点,在文件系统的命名空间中创建一个新的文件,元数据节点
17、首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。(3)FileSystem返回DFSOutputStream,客户端开始写入数据。(4)DFSOutputStream将数据分成块,写入data queue。data queue由Data Streamer读取,并通知名称节点分配数据节点,用来存储数据块(每块默认复制3块)。分配的数据节点放在一个数据流管道(pipeline)里。Data Streamer将数据块写入pipeline中的第一个数据节点,一个数据节点将数据块发送给第二个数据节点,第二个数据节点将数据发送给第三个数据节点。(5)DFSOutputStream为发出
18、去的数据块保存了ack queue,等待pipeline中的数据节点告知数据已经写入成功。(6)当客户端结束写入数据,则调用stream的close函数。此操作将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功。(7)通知名称节点写入完毕。3.4 HDFS数据读写过程 3.4.2 数据写入过程 数据写入可以看作是一个流水线pipeline过程,具体来说,客户端收到NameNode发送的块存储位置DataNode列表后,将做如下工作。(1)选择DataNode列表中的第一个DataNode1,通过IP地址建立TCP连接。(2)客户端通知DataNode1准备接收块数
19、据,同时发送后续DataNode的IP地址给DataNode1,副本随后会拷贝到这些DataNode。(3)DataNode1连接DataNode2,并通知DataNode2连接DataNode3,前一个DataNode发送副本数据给后一个DataNode,依次类推。(4)ack确认消息遵从相反的顺序,即DataNode3收到完整块副本后返回确认给DataNode2,DataNode2收到完整块副本后返回确认给DataNode1。而DataNode1最后通知客户端所有数据块已经成功复制。对于3个副本,DataNode1会发送3个ack给客户端表示3个DataNode都成功接收。随后,客户端通知
20、NameNode,完整文件写入成功,NameNode更新元数据。(5)当客户端接到通知流水线已经建立完成后,将会准备发送数据块到流水线中,然后逐个数据块按序在流水线中传输。这样以来,客户端只需要发送一次,所有备份将在不同DataNode之间自动完成,提高了传输效率。3.5 实战HDFS 为了方便用户使用HDFS,HDFS提供三种类型接口:HDFS Web UI HDFS Shell HDFS API3.5.1 HDFS Web UI HDFS Web UI主要面向管理员,提供服务器基础统计信息和文件系统运行状态的查看功能,不支持配置更改操作。从该页面上,管理员可以查看当前文件系统中各个节点的分
21、布信息,浏览名称节点上的存储、登录等日志,以及下载某个数据节点上某个文件的内容。HDFS Web UI地址为http:/NameNodeIP:50070,进入后可以看到当前HDFS文件系统的Overview、Summary、NameNode Journal Status、NameNode Storage等信息。3.5.1 HDFS Web UI 可以通过首页顶端菜单项UtilitiesBrowse the file system查看HDFS文件。3.5.2 HDFS Shell在Linux命令行终端,使用Shell命令对HDFS进行操作,可以完成HDFS中文件的上传、下载、复制、查看、格式化名
22、称节点等操作。Usage:hadoop-config confdir COMMAND|CLASSNAME CLASSNAME run the class named CLASSNAME or where COMMAND is one of:fs run a generic filesystem user client version print the version jar run a jar file,note:please use yarn jar to launch YARN applications,not this command.checknative-a|-h check na
23、tive hadoop and compression libraries availability distcp copy file or directories recursively archive-archiveName NAME-p *create a hadoop archive classpath prints the class path needed to get the Hadoop jar and the required libraries credential interact with credential providers daemonlog get/set t
24、he log level for each daemon trace view and modify Hadoop tracing settings3.5.2 HDFS Shell 1.文件系统命令hadoop fs generic options 使用面最广,可以操作任何文件系统,比如本地文件、HDFS文件、HFTP文件、S3文件系统等。hdfs dfs generic options 则是专门针对HDFS文件系统的操作。hadoop fsUsage:hadoop fs generic options-appendToFile .-cat-ignoreCrc .-checksum .-chg
25、rp-R GROUP PATH.-chmod-R PATH.-chown-R OWNER:GROUP PATH.-copyFromLocal-f-p-l-d .-copyToLocal-f-p-ignoreCrc-crc .-count-q-h-v-t -u-x .-cp-f-p|-ptopax-d .-createSnapshot -deleteSnapshot -df-h .-du-s-h-x .-expunge-find .-get-f-p-ignoreCrc-crc .-getfacl-R-getfattr-R-n name|-d-e en-getmerge-nl-skip-empty
26、-file -help cmd.-ls-C-d-h-q-R-t-S-r-u .-mkdir-p .-moveFromLocal .-moveToLocal -mv .-put-f-p-l-d .-renameSnapshot -rm-f-r|-R-skipTrash-safely .-rmdir-ignore-fail-on-non-empty .-setfacl-R-b|-k-m|-x|-set -setfattr-n name-v value|-x name-setrep-R-w .-stat format .-tail-f-test-defsz-text-ignoreCrc .-touc
27、hz .-truncate-w .-usage cmd.hadoop fs 1)ls 功能:显示文件的元数据信息或者目录包含的文件列表信息。其中目录信息包括修改日期,权限,用户ID,组ID等,文件信息包括文件大小,修改日期,权限,所属用户ID和组ID。格式:hadoop fs-ls 示例:显示文件/log/text1.txt的基本信息。hadoop fs-ls/log/text1.txt 示例:显示目录/log/hbase包含的文件列表信息。hadoop fs-ls/log/hbasehadoop fs 2)ls-R 功能:ls命令的递归版本,类似Unix中的ls-R。格式:hadoop fs
28、-ls-R 示例:显示根目录/下的所有文件夹和文件。hadoop fs-lsr/3)du 功能:显示文件的大小或者目录中包含的所有文件的大小。格式:hadoop fs-du 示例:显示目录/test/data1中每个文件的大小。hadoop fs-du/test/data1/hadoop fs 4)dus 功能:显示目录下所有文件大小之和,单位是字节。格式:hadoop fs-dus 示例:显示test目录下所有文件大小之和。hadoop fs-dus/test 5)count 功能:统计文件(夹)数量和文件总大小信息。格式:hadoop fs-count 示例:显示test目录下包含的文件数
29、量。hadoop fs-count/testhadoop fs 6)mv 功能:移动hdfs的文件到指定位置,第一个参数表示被移动文件位置,第二个参数表示移动的目标位置(通常为目录)。格式:hadoop fs-mv 示例:将/test目录下文件text1.txt移动到/txt目录。hadoop fs-mv/test/text1.txt/txt 7)cp 功能:将文件从源路径复制到目标路径。源路径可以是多个文件,此时目标路径必须是文件夹。格式:hadoop fs-cp 示例:将文件/test/file1复制到/test/file2目录下。hadoop fs-cp/test/file1/test/
30、file2hadoop fs 8)rm 功能:删除文件或者空文件夹,注意如果文件夹非空,则删除失败。格式:hadoop fs-rm 示例:删除文件/test/file1.txt。hadoop fs-rm/test/file1.txt 9)rm-r 功能:递归删除文件或者文件夹,文件夹可以包含子目录。格式:hadoop fs-rm-r 示例:递归删除test目录下所有文件和文件夹。hadoop fs-rm-r/testhadoop fs 10)put 功能:从本地文件系统复制单个或多个源路径到目标文件系统。同时支持从标准输入读取源文件内容后写入目标位置。格式:hadoop fs-put 示例:将
31、Linux本地文件/home/xuluhui/text1.txt复制到HDFS目录/user/xuluhui下面,并重命名为text2.txt。hadoop fs-put/home/xuluhui/text1.txt/user/xuluhui/text2.txt 11)copyFromLocal 功能:和put一致。hadoop fs 12)moveFromLocal 功能:将文件或目录从本地文件系统移动到HDFS。格式:hadoop fs-moveFromLocal 示例:将本地文件系统当前路径的test.txt移动到HDFS目录/user/xuluhui下。hadoop fs-moveFr
32、omLocal test.txt/user/xuluhui 13)getmerge 功能:接受一个源目录和一个目标文件,将HDFS源目录中所有文件连接成本地Linux目标文件,可以在每个文件结束添加换行,参数-nl表示是否在文件结束添加换行。格式:hadoop fs-getmerge-nl 示例:将HDFS目录/user/xuluhui下的文件合并,输出到本地文件系统,保存为/home/xuluhui/test.txt。hadoop fs-getmerge/user/xuluhui/home/xuluhui/test.txthadoop fs 14)cat 功能:将指定文件内容输出到标准输出s
33、tdout。格式:hadoop fs-cat 示例:输出HDFS目录/user/xuluhui下文件test.txt到标准输出。hadoop fs-cat/user/xuluhui/test.txt 15)text 功能:输出源文件文本到标准输出。格式可以是zip和TextRecordInputStream,类似Linux中的cat命令。格式:hadoop fs-text 示例:输出HDFS目录/user/xuluhui下文件test.txt到标准输出。hadoop fs-text/user/xuluhui/test.txthadoop fs 16)mkdir 功能:创建指定的一个或多个目录,
34、-p选项用于递归创建子目录。类似于Linux的mkdir-p。格式:hadoop fs-mkdir-p 示例:在HDFS目录/user下创建目录data1和data2。hadoop fs-mkdir/user/data1/user/data2 17)touchz 功能:在HDFS中创建零字节的空白文件。格式:hadoop fs-touchz 示例:创建空白文件empty。hadoop fs-touchz/user/data1/emptyhadoop fs 18)stat 功能:以指定格式返回指定文件的相关信息。当不指定format时,返回文件的创建日期。命令选项后面可以有格式format,使用
35、引号表示,格式“%b%n%o%r%Y”依次表示文件大小、文件名称、块大小、副本数、访问时间。格式:hadoop fs-stat format 示例:显示目录/user/data1的统计信息。hadoop fs-stat/user/data1 19)tail 功能:显示文件最后1K字节的内容到stdout,一般用于查看日志。如果带有选项-f,那么当文件内容变化时,也会自动显示。其用法与Linux一致。格式:hadoop fs-tail-f 示例:显示文件input.txt尾部内容。hadoop fs-tail/user/input.txthadoop fs 20)chmod 功能:修改文件权限。
36、使用选项-R可以在目录结构下递归更改,命令的使用者必须是文件的所有者或者超级用户。格式:hadoop fs-chmod-R 示例:更改/user/data1的权限为766。hadoop fs-chmod 766/user/data1 HDFS文件拥有和Linux文件类似的权限:读(r)、写(w)和执行(x)。这里执行仅表示目录的访问控制。所有文件和目录都有所属用户、所属用户组权限属性,权限值由文件和目录所属用户、所属用户组和其他用户的权限构成的一个9位二进制数字。hadoop fs 21)chown 功能:更改文件的所有者。选项R表示递归更改所有子目录,命令的使用者必须是超级用户。格式:had
37、oop fs-chown-R OWNER:GROUP 示例:更改/user/data1的所有者为user1。hadoop fs-chown user1/user/data1 22)chgrp 功能:更改文件所属的组。选项R表示递归处理子目录,命令使用者必须是文件所有者或者超级用户。格式:hadoop fs-chgrp-R GROUP 示例:更改/user/data1的组为group1。hadoop fs-chgrp group1/user/data1hadoop fs 23)setrep 功能:改变文件的副本系数。选项R用于递归改变目录下所有文件的副本系数。此后,HDFS会根据系数自动进行复制
38、或清除工作。参数w表示等待副本操作结束才退出命令。格式:hadoop fs-setrep-R-w 示例:设置目录/user/data1下所有文件的副本系数为3。hadoop fs-setrep-w 3-R/user/data1/24)expunge命令 功能:清空回收站。注意,清空后数据将不可恢复。格式:hadoop fs-expunge3.5.2 HDFS Shell2.系统管理命令Usage:hdfs dfsadminNote:Administrative commands can only be run as the HDFS superuser.-report-live-dead-de
39、commissioning-enteringmaintenance-inmaintenance-safemode-saveNamespace-rollEdits-restoreFailedStorage true|false|check-refreshNodes-setQuota .-clrQuota.-setSpaceQuota -storageType .-clrSpaceQuota-storageType .-finalizeUpgrade-rollingUpgrade-refreshServiceAcl-refreshUserToGroupsMappings-refreshSuperU
40、serGroupsConfiguration-refreshCallQueue-refresh arg1.argn-reconfig -printTopology-refreshNamenodes datanode_host:ipc_port-getVolumeReport datanode_host:ipc_port-deleteBlockPool datanode_host:ipc_port blockpoolId force-setBalancerBandwidth-getBalancerBandwidth-fetchImage-allowSnapshot-disallowSnapsho
41、t-shutdownDatanode upgrade-evictWriters-getDatanodeInfo-metasave filename-triggerBlockReport-incremental-listOpenFiles-help cmd3.5.3 HDFS Java API编程 HDFS使用Java语言编写,所以提供了丰富了Java编程接口供开发人员调用,当然HDFS同时支持其它语言如C+、Python等编程接口,但它们都没有Java接口方便。凡是使用Shell命令可以完成的功能,都可以使用相应Java API来实现,甚至使用API可以完成Shell命令不支持的功能。HDFS
42、 Java API常用类类名类名说明说明org.apache.hadoop.fs.FileSystem通用文件系统基类,用于与HDFS文件系统交互,编写的HDFS程序都需要重写FileSystem类,通过该类,可以方便地像操作本地文件系统一样操作HDFS集群文件org.apache.hadoop.fs.FSDataInputStream文件输入流,用于读取HDFS文件org.apache.hadoop.fs.FSDataOutputStream文件输出流,向HDFS顺序写入数据流org.apache.hadoop.fs.Path文件与目录定位类,用于定义HDFS集群中指定的目录与文件绝对或相对
43、路径org.apache.hadoop.fs.FileStatus文件状态显示类,可以获取文件与目录的元数据、长度、块大小、所属用户、编辑时间等信息;同时可以设置文件用户、权限等内容3.5.3 HDFS Java API编程 1.URL类 .URL类可以很方便地打开HDFS文件系统中文件,数据以流的形式从远程服务器传输到本地。使用URL类的静态方法setURLStreamHandlerFactory设置Hadoop文件系统的URLStreamHandlerFactory实现类FsUrlStreamHandlerFactory,此方法只在程序启动时调用一次,所以放在静态语句块中。所以,如果其他程
44、序已经设置了URLStreamHandlerFactory,则不能再使用上述方法从Hadoop读取数据。【实例3-1】【实例3-1】使用URL读取HDFS文件。package com.xijing.hdfs;import java.io.IOException;import java.io.InputStream;import .URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apche.hadoop.io.IOUtils;/从URL读取HDFS文件public class HDFSURLReader s
45、tatic /此行设置文件系统配置为URL流,仅执行一次 URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory();public static void main(String args)InputStream stream=null;String hdfsurl=“hdfs:/192.168.18.130:9000/data/input.txt”);try /打开远程HDFS文件系统的文件 stream=new URL(hdfsurl).openStream();/输出文件内容到标准输出(默认为屏幕)IOUtils.copy
46、Bytes(stream,System.out,1024,false);catch(IOException e)IOUtils.closeStream(stream);/关闭文件 以上程序执行后,会在标准输出设备(屏幕)上打印远程HDFS文件input.txt的内容。方法copyBytes()将流stream复制到System.out。注意,程序结束前需要调用IOUtils关闭打开的文件流。3.5.3 HDFS Java API编程2.FileSystem类HDFS Java API中最常用的类是org.apache.hadoop.fs.FileSystem,作为抽象类,它定义了存取和管理HD
47、FS文件和目录的基本方法。FileSystem类的常见方法如下:public static FileSystem get(Configuration conf)throws IOException:根据配置信息返回文件系统的实例。public static FileSystem get(URI uri,Configuration conf)throws IOException:根据URI的scheme和authority信息返回文件系统实例。public static FileSystem get(URI uri,Configuration conf,String user)throws IO
48、Exception,InterruptedException:根据URI,配置信息和用户返回文件系统实例。public FSDataOutputStream create(Path f,boolean overwrite)throws IOException:创建文件,path指定完整文件路径,overwirte指定是否覆盖现有文件,注意此方法有多个重载版本,具体可以查看Hadoop的API文件。public abstract FSDataInputStream open(Path f,int bufferSize)throws IOException:打开文件,返回FSDataInputSt
49、ream类的实例,bufferSize指定缓冲区大小。public abstract boolean delete(Path f,boolean recursive)throws IOException:删除文件或目录,如果要同时删除子目录(非空目录),则需要设置参数recursive为true。如果删除失败(比如文件不存在)则会抛出I/O异常。public boolean mkdirs(Path f)throws IOException:创建目录和子目录。创建成功时返回true,否则返回false。public abstract FileStatus listStatus(Path f)th
50、rows FileNotFoundException,IOException:列出指定文件或目录的状态信息,参数Path可以是目录或文件,返回一个数组。public abstract FileStatus getFileStatus(Path f)throws IOException:显示文件系统的目录和文件的元数据信息。3.5.3 HDFS Java API编程 2.FileSystem类 FileSystem类通过NameNode获取文件块的地址信息,然后逐块进行访问。FileSystem类使用FSDataOutputStream进行写文件,使用FSDataInputStream进行读文件
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。