1、1ppt课件2ppt课件3ppt课件4ppt课件Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架,程序员可以借助Hadoop 编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop 还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)5ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。1、Hadoop HDFS是Google G
2、FS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的 Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是 一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。6ppt课件Hadoop主要由HDFS、MapRe
3、duce、Hive和HBase等组成。2、Hadoop MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由 Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储 在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。7ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等
4、组成。3、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。8ppt课件Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。4、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数
5、据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键划分为多个Hregion。9ppt课件10ppt课件11ppt课件HOSTNAME133.128.88.200PORT22USERNAMEhadoop或者通过其他机器跳转到133.128.88.200下ssh hadoophadoop-m01或ssh hadoop133.128.88.200键入回车,输入密码。12ppt课件通过hive命令登陆数据库show
6、 databases;显示当前的所有数据库(同oracle数据库的用户);use dw;切换数据库;show functions;显示所有的函数;show tables;查看当前数据库下所有的表;show tables*tg*;模糊匹配当前数据库下所有的表;13ppt课件CREATE EXTERNAL TABLE tg_cdr_noinfo_fix_d(call_duration int,otherfee double,source_type string,cycle_tag string)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED
7、FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.mapred.TextInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatLOCATION hdfs:/beh/data/stage2/tg_cdr_noinfo_fix_dTBLPROPERTIES(last_modified_by=hadoop,last_modified_time=1464585329,transient_lastDdlTime=14645
8、85329)创建外部表字段类型表名表分区14ppt课件CREATE TABLE dwa_v_d_cus_cb_sing_use_add(day_id string COMMENT 日期,area_id string COMMENT 地市,city_id string COMMENT 区县,user_id string COMMENT 订购实例标识,toll_nums double COMMENT 本地长途次数,use_status string COMMENT 用户使用类型 dim.dim_4G_use_status)COMMENT cBSS业务单用户累计使用衍生信息(日)(从入网开始)PAR
9、TITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileOutputFormatLOCATION hdfs:/beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_addTBLPROPERTIES(transient_lastD
10、dlTime=1461115949);创建表字段类型及注释表名表注释表分区15ppt课件表的相关命令show create table dw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;show partitions dw.dw_v_u_k_cdr_gprs_cb;查看表分区select*from dw.dw_v_u_k_cdr_gprs_cb where day_part=20160101 limit 1;查询数据insert overwrite table dim.dim_cbss_deposit 清表插入数据insert into table 插入数据inser
11、t overwrite table dw.dw_v_deposit_info_cb partition(day_part=$v_day);插入分区16ppt课件导出方法一:insert overwrite local DIRECTORY$check_log_dir ROW FORMAT DELIMITED FIELDS TERMINATED BY$v_split select$v_column_list from$v_table t where$v_part=$v_date;$v_hqlsh$v_hql 2&1|tee$v_export_log/dev/null导出方法二:hive-S-ese
12、lect 1;$directory17ppt课件Hadoop查看目录空间使用情况 命令:hadoop fs-count-q 统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.带上-q选项后的输出列为:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.18ppt课件Hdfs相关命令hadoop fs ls/列出当前目录有哪些子目录,有哪些文件。hadoop fs-count/hadoop fs mkidr/test 在Hadoop文件系统当中,创建一个test目录hadoop fs rmr/test 在Hadoop文件系统当中,创建一个test目录hadoop fs get/filename 从Hadoop文件系统当中,获取一个文件到本地的文件系统。hadoop fs put srcfile/desfile 从本地的文件系统上传一个文件到Hadoop文件系统中。19ppt课件20ppt课件