1、大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2016年版林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail:主页:主页:http:/ 基于基于Hadoop的数据仓库的数据仓库Hive(PPT版本号:版本号:2016年年4月月6日版本)日版本)大数据技术原理与应用大数据技术原理与应用http:/ 厦门大学计算机科学系 林子雨 课堂内容与教材对应关系说明厦门大学林子雨编著大数据技术原理与应用2015年8月1日人民邮电出版社出版发行第第1版版教材共包含13章内容第一章 大数据概述第二章 大数据处理架构Hadoop第三章 分布式文件系统HDFS第四章 分布式
2、数据库HBase第五章 NoSQL数据库第六章 云数据库第七章 MapReduce第八章 流计算第九章 图计算第十章 数据可视化第十一章 大数据在互联网领域的应用第十二章 大数据在生物医学领域的应用(自学)第十三章 大数据的其他应用(自学)2016年新增章节(将加入到第年新增章节(将加入到第2版教材中)版教材中)第第14章基于章基于Hadoop的数据仓库的数据仓库Hive第第15章章Hadoop架构再探讨架构再探讨第第16章章Spark大数据技术原理与应用 厦门大学计算机科学系 林子雨 课堂内容与教材对应关系说明课堂章节课堂章节对应的对应的大数据技术原理与应用大数据技术原理与应用(第(第1版)
3、教材版)教材章节章节第1讲-大数据概述第1章-大数据概述第2讲-大数据处理架构Hadoop第2章-大数据处理架构Hadoop第3讲-分布式文件系统HDFS第3章-分布式文件系统HDFS第4讲-分布式数据库HBase第4章-分布式数据库HBase第5讲-NoSQL数据库第5章-NoSQL数据库第6讲-云数据库第6章-云数据库第7讲-MapReduce第7章-MapReduce第第8讲讲-基于基于Hadoop的数据仓库的数据仓库Hive 新增第新增第14章,不在当前第章,不在当前第1版教材版教材中,将放中,将放入第入第2版版教材教材第第9讲讲-Hadoop架构再探讨架构再探讨新增第新增第15章,不
4、在当前第章,不在当前第1版教材中,将放入第版教材中,将放入第2版教材版教材第10讲-流计算第8章-流计算第第11讲讲-Spark新增第新增第16章,不在当前第章,不在当前第1版教材中,将放入第版教材中,将放入第2版教材版教材第12讲-图计算第9章-图计算第13讲-数据可视化第10章-数据可视化第14讲-大数据在互联网领域的应用第11章-大数据在互联网领域的应用备注:教材的第12章大数据在生物医学领域的应用和第13章大数据在其他领域的应用,为自学章节,不录制视频大数据技术原理与应用 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2016年版林子雨林子雨厦门大学计算机科学系厦门大学计算机科学
5、系E-mail:主页:主页:http:/ 基于基于Hadoop的数据仓库的数据仓库Hive(第(第1版教材出版后的版教材出版后的2016年新增章节)年新增章节)大数据技术原理与应用大数据技术原理与应用http:/ 厦门大学计算机科学系 林子雨 中国高校大数据课程公共服务平台http:/ 厦门大学计算机科学系 林子雨 提纲14.1 概述概述14.2 Hive系统架构系统架构14.3 Hive工作原理工作原理14.4 Hive HA基本原理基本原理14.5 Impala14.6 Hive编程实践编程实践欢迎访问大数据技术原理与应用教材官方网站:http:/ 林子雨 编著,人民邮电出版社ISBN:9
6、78-7-115-39287-9大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1 概述 14.1.1 数据仓库概念 14.1.2 传统数据仓库面临的挑战 14.1.3Hive简介 14.1.4Hive与Hadoop生态系统中其他组件的关系 14.1.5Hive与传统数据库的对比分析 14.1.6Hive在企业中的部署和应用大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.1数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time
7、 Variant)的数据集合,用于支持管理决策。图14-1 数据仓库的体系结构大数据技术原理与应用 厦门大学计算机科学系 林子雨 (1)无法满足快速增长的海量数据存储需求(2)无法有效处理不同类型的数据(3)计算和处理能力不足14.1.2 传统数据仓库面临的挑战大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.3 Hive简介Hive是一个构建于Hadoop顶层的数据仓库工具支持大规模数据存储、分析,具有良好的可扩展性某种程度上可以看作是用户编程接口,本身不存储和处理数据依赖分布式文件系统HDFS存储数据依赖分布式并行计算模型MapReduce处理数据定义了简单的类似SQL 的查询
8、语言HiveQL用户可以通过编写的HiveQL语句运行MapReduce任务可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上是一个可以提供有效、合理、直观组织和使用数据的分析工具大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.3 Hive简介Hive具有的特点非常适用于数据仓库采用批处理方式处理海量数据采用批处理方式处理海量数据Hive需要把HiveQL语句转换成MapReduce任务进行运行数据仓库存储的是静态数据,对静态数据的分析适合采用批处理方式,不需要快速响应给出结果,而且数据本身也不会频繁变化提供适合数据仓库操作的工具提供适合数据仓库操作的工
9、具Hive本身提供了一系列对数据进行提取、转换、加载(ETL)的工具,可以存储、查询和分析存储在Hadoop中的大规模数据这些工具能够很好地满足数据仓库各种应用场景大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.4 Hive与Hadoop生态系统中其他组件的关系Hive依赖于依赖于HDFS 存储数据存储数据Hive依赖于依赖于MapReduce 处理数据处理数据在某些场景下在某些场景下Pig可以作为可以作为Hive的替代工具的替代工具HBase 提供数据的实时访问提供数据的实时访问大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.5 Hive与传统数据库的对比分析与传
10、统数据库的对比分析Hive在很多方面和传统的关系数据库类似,但是它的底层依赖的是HDFS和MapReduce,所以在很多方面又有别于传统数据库对比项目对比项目HiveHive传统数据库传统数据库数据插入支持批量导入支持单条和批量导入数据更新不支持支持索引支持支持分区支持支持执行延迟高低扩展性好有限大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.6 Hive在企业中的部署和应用在企业中的部署和应用图 企业中一种常见的大数据分析平台部署框架1.Hive在企业大数据分析平台中的应用在企业大数据分析平台中的应用大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.1.6 Hive在企
11、业中的部署和应用在企业中的部署和应用图 Facebook的数据仓库架构基于Oracle的数据仓库系统已经无法满足激增的业务需求Facebook公司开发了数据仓库工具Hive,并在企业内部进行了大量部署2.Hive在在Facebook公司中的应用公司中的应用大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.2 Hive系统架构图 Hive系统架构用户接口模块包括CLI、HWI、JDBC、ODBC、Thrift Server驱动模块(Driver)包括编译器、优化器、执行器等,负责把HiveSQL语句转换成一系列MapReduce作业元数据存储模块(Metastore)是一个独立的关系型数
12、据库(自带derby数据库,或MySQL数据库)大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3 Hive工作原理14.3.1 SQL语句转换成MapReduce作业的基本原理14.3.2 Hive中SQL查询转换成MapReduce作业的过程大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3.1 SQL语句转换成MapReduce的基本原理1.join的实现原理的实现原理1是表User的标记位2是表Order的标记位1和2是uid的值大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3.1 SQL语句转换成MapReduce的基本原理2.group by的实现原
13、理的实现原理存在一个分组(Group By)操作,其功能是把表Score的不同片段按照rank和level的组合值进行合并,计算不同rank和level的组合值分别有几条记录:select rank,level,count(*)as value from score group by rank,level大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3.2 Hive中SQL查询转换成MapReduce作业的过程当用户向Hive输入一段命令或查询时,Hive需要与Hadoop交互工作来完成该操作:驱动模块接收该命令或查询编译器对该命令或查询进行解析编译由优化器对该命令或查询进行优化计
14、算该命令或查询通过执行器进行执行大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3.2 Hive中SQL查询转换成MapReduce作业的过程第1步:由Hive驱动模块中的编译器对用户输入的SQL语言进行词法和语法解析,将SQL语句转化为抽象语法树的形式第2步:抽象语法树的结构仍很复杂,不方便直接翻译为MapReduce算法程序,因此,把抽象语法书转化为查询块第3步:把查询块转换成逻辑查询计划,里面包含了许多逻辑操作符第4步:重写逻辑查询计划,进行优化,合并多余操作,减少MapReduce任务数量第5步:将逻辑操作符转换成需要执行的具体MapReduce任务第6步:对生成的MapRe
15、duce任务进行优化,生成最终的MapReduce任务执行计划第7步:由Hive驱动模块中的执行器,对最终的MapReduce任务进行执行输出大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.3.2 Hive中SQL查询转换成MapReduce作业的过程当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上,会有专门的网关
16、机来部署Hive工具。网关机的作用主要是远程操作和管理节点上的JobTracker通信来执行任务数据文件通常存储在HDFS上,HDFS由名称节点管理几点说明:几点说明:大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.4 Hive HA基本原理基本原理图 Hive HA基本原理问题:在实际应用中,Hive也暴露出不稳定的问题解决方案:Hive HA(High Availability)由多个Hive实例进行管理的,这些Hive实例被纳入到一个资源池中,并由HAProxy提供一个统一的对外接口对于程序开发人员来说,可以把它认为是一台超强“Hive大数据技术原理与应用 厦门大学计算机科学系
17、 林子雨 14.5 Impala 14.5.1Impala简介 14.5.2Impala系统架构 14.5.3 Impala查询执行过程 14.5.4Impala与Hive的比较大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.1 Impala简介Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出330倍Impala的运行需要依赖于Hive的元数据Impala是参照 Dremel系统进行设计的Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和H
18、Base进行交互查询Impala和Hive采用相同的SQL语法、ODBC驱动程序和用户接口图 Impala与其他组件关系大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.2 Impala系统架构图 Impala系统架构Impala和Hive、HDFS、HBase等工具是统一部署在一个Hadoop平台上的Impala主要由Impalad,State Store和CLI三部分组成大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.2 Impala系统架构Impala主要由Impalad,State Store和CLI三部分组成1.Impalad负责协调客户端提交的查询的执行包
19、含Query Planner、Query Coordinator和Query Exec Engine三个模块与HDFS的数据节点(HDFS DN)运行在同一节点上给其他Impalad分配任务以及收集其他Impalad的执行结果进行汇总Impalad也会执行其他Impalad给其分配的任务,主要就是对本地HDFS和HBase里的部分数据进行操作2.State Store会创建一个statestored进程负责收集分布在集群中各个Impalad进程的资源信息,用于查询调度3.CLI给用户提供查询使用的命令行工具还提供了Hue、JDBC及ODBC的使用接口说明说明:Impala中的元数据直接存储在H
20、ive中。Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口,从而使得在一个Hadoop平台上,可以统一部署Hive和Impala等分析工具,同时支持批处理和实时查询大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.3 Impala查询执行过程图 Impala查询过程图大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.3 Impala查询执行过程Impala执行查询的具体过程:第0步,当用户提交查询前,Impala先创建一个负责协调客户端提交的查询的Impalad进程,该进程会向Impala State Store提交注册订阅信息,State
21、 Store会创建一个statestored进程,statestored进程通过创建多个线程来处理Impalad的注册订阅信息。第1步,用户通过CLI客户端提交一个查询到impalad进程,Impalad的Query Planner对SQL语句进行解析,生成解析树;然后,Planner把这个查询的解析树变成若干PlanFragment,发送到Query Coordinator大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.3 Impala查询执行过程Impala执行查询的具体过程:第2步,Coordinator通过从MySQL元数据库中获取元数据,从HDFS的名称节点中获取数据地
22、址,以得到存储这个查询相关数据的所有数据节点。第3步,Coordinator初始化相应impalad上的任务执行,即把查询任务分配给所有存储这个查询相关数据的数据节点。第4步,Query Executor通过流式交换中间输出,并由Query Coordinator汇聚来自各个impalad的结果。第5步,Coordinator把汇总后的结果返回给CLI客户端。大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.4 Impala与Hive的比较图 Impala与Hive的对比Hive与Impala的不同点不同点总结如下:1.Hive适合于长时间的批处理查询分析,而Impala适合于实时
23、交互式SQL查询2.Hive依赖于MapReduce计算框架,Impala把执行计划表现为一棵完整的执行计划树,直接分发执行计划到各个Impalad执行查询3.Hive在执行过程中,如果内存放不下所有数据,则会使用外存,以保证查询能顺序执行完成,而Impala在遇到内存放不下数据时,不会利用外存,所以Impala目前处理查询时会受到一定的限制大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.4 Impala与Hive的比较Hive与Impala的相同点相同点总结如下:1.Hive与Impala使用相同的存储数据池,都支持把数据存储于HDFS和HBase中2.Hive与Impala使
24、用相同的元数据3.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划图 Impala与Hive的对比大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.5.4 Impala与Hive的比较总结Impala的目的不在于替换现有的MapReduce工具把Hive与Impala配合使用效果最佳可以先使用Hive进行数据转换处理,之后再使用Impala在Hive处理后的结果数据集上进行快速的数据分析大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6 Hive编程实践14.6.1 Hive的安装与配置14.6.2 Hive的数据类型14.6.3 Hive基本
25、操作14.6.4 Hive应用实例:WordCount14.6.5 Hive编程的优势Hive上机实践详细过程,请参考厦门大学数据库实验室建设的“中国高校大数据课程公共服务平台”中的“大数据课程学生服务站大数据课程学生服务站”中的“学习指南学习指南”栏目:学生服务站地址:http:/ 实践教程http:/ 厦门大学计算机科学系 林子雨 14.6.1 Hive的安装与配置1.Hive安装安装下载安装包apache-hive-1.2.1-bin.tar.gz 下载地址:http:/www.apache.org/dyn/closer.cgi/hive/解压安装包apache-hive-1.2.1-b
26、in.tar.gz至路径/usr/local配置系统环境,将hive下的bin目录添加到系统的path中2.Hive配置配置Hive有三种运行模式,单机模式、伪分布式模式、分布式模式。均是通过修改hive-site.xml文件实现,如果 hive-site.xml文件不存在,我们可以参考$HIVE_HOME/conf目录下的hive-default.xml.template文件新建。安装Hive之前需要安装jdk1.6以上版本以及启动Hadoop大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.2 Hive的数据类型表 Hive的基本数据类型类型类型描述描述示例示例TINYINT1
27、个字节(8位)有符号整数1SMALLINT2个字节(16位)有符号整数1INT4个字节(32位)有符号整数1BIGINT8个字节(64位)有符号整数1FLOAT4个字节(32位)单精度浮点数1.0DOUBLE8个字节(64位)双精度浮点数1.0BOOLEAN布尔类型,true/falsetrueSTRING字符串,可以指定字符集“xmu”TIMESTAMP整数、浮点数或者字符串1327882394(Unix新纪元秒)BINARY字节数组0,1,0,1,0,1,0,1大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.2 Hive的数据类型表 Hive的集合数据类型类型类型描述描述示例
28、示例ARRAY一组有序字段,字段的类型必须相同Array(1,2)MAP一组无序的键/值对,键的类型必须是原子的,值可以是任何数据类型,同一个映射的键和值的类型必须相同Map(a,1,b,2)STRUCT一组命名的字段,字段类型可以不同Struct(a,1,1,0)大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作 1.create:创建数据库、表、视图创建数据库、表、视图 创建数据库创建数据库hivehive create database hive;创建数据库hive。因为hive已经存在,所以会抛出异常,加上if not exists关键字,则不会抛出异常
29、hive create database if not exists hive;大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作 创建表在hive数据库中,创建表usr,含三个属性id,name,age hive use hive;hivecreate table if not exists usr(id bigint,name string,age int);在hive数据库中,创建表usr,含三个属性id,name,age,存储路径为“/usr/local/hive/warehouse/hive/usr”hivecreate table if not ex
30、ists hive.usr(id bigint,name string,age int)location/usr/local/hive/warehouse/hive/usr;大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作 创建视图创建视图little_usr,只包含usr表中id,age属性hivecreate view little_usr as select id,age from usr;大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作 2.show:查看数据库、表、视图查看数据库 查看Hive中包含的所有数据库 hi
31、ve show databases;查看Hive中以h开头的所有数据库 hiveshow databases like h.*;查看表和视图 查看数据库hive中所有表和视图 hive use hive;hive show tables;查看数据库hive中以u开头的所有表和视图 hive show tables in hive like u.*;大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作3.load:向表中装载数据 把目录/usr/local/data下的数据文件中的数据装载进usr表并覆盖原有数据 hive load data local inpat
32、h/usr/local/data overwrite into table usr;把目录/usr/local/data下的数据文件中的数据装载进usr表不覆盖原有数据 hive load data local inpath/usr/local/data into table usr;把分布式文件系统目录hdfs:/master_server/usr/local/data下的数据文件数据装载进usr表并覆盖原有数据 hive load data inpath hdfs:/master_server/usr/local/data overwrite into table usr;大数据技术原理与
33、应用 厦门大学计算机科学系 林子雨 14.6.3 Hive基本操作4.insert:向表中插入数据或从表中导出数据向表usr1中插入来自usr表的数据并覆盖原有数据 hive insert overwrite table usr1 select*from usr where age=10;向表usr1中插入来自usr表的数据并追加在原有数据后 hive insert into table usr1 select*from usr where age=10;大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.4 Hive应用实例:WordCount词频统计任务要求:首先,需要创建一个需
34、要分析的输入数据文件然后,编写HiveQL语句实现WordCount算法具体步骤如下:(1)创建input目录,其中input为输入目录。命令如下:$cd/usr/local/hadoop$mkdir input(2)在input文件夹中创建两个测试文件file1.txt和file2.txt,命令如下:$cd /usr/local/hadoop/input$echo hello world file1.txt$echo hello hadoop file2.txt大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.4 Hive应用实例:WordCount(3)进入hive命令行界面,
35、编写HiveQL语句实现WordCount算法,命令如下:$hive hive create table docs(line string);hive load data inpath input overwrite into table docs;hivecreate table word_count as select word,count(1)as count from (select explode(split(line,)as word from docs)w group by word order by word;执行完成后,用select语句查看运行结果如下:wordhellow
36、orldhellohadoopWhello worldhello hadoopdocs大数据技术原理与应用 厦门大学计算机科学系 林子雨 14.6.5 Hive的编程优势WordCount算法在MapReduce中的编程实现和Hive中编程实现的主要不同点:1.采用Hive实现WordCount算法需要编写较少的代码量在MapReduce中,WordCount类由63行Java代码编写而成在Hive中只需要编写7行代码2.在MapReduce的实现中,需要进行编译生成jar文件来执行算法,而在Hive中不需要HiveQL语句的最终实现需要转换为MapReduce任务来执行,这都是由Hive框架
37、自动完成的,用户不需要了解具体实现细节大数据技术原理与应用 厦门大学计算机科学系 林子雨 本章小结本章详细介绍了Hive的基本知识。Hive是一个构建于Hadoop顶层的数据仓库工具,主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口,本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据。Hive支持使用自身提供的命令行CLI、简单网页HWI访问方式,及通过Karmasphere、Hue、Qubole等工具的外部访问。Hive在数据仓库中的具体应用中,主要用于报表中心的报表分析统计上。在Hadoop集
38、群上构建的数据仓库由多个Hive进行管理,具体实现采用Hive HA原理的方式,实现一台超强“hive。Impala作为新一代开源大数据分析引擎,支持实时计算,并在性能上比Hive高出330倍,甚至在将来的某一天可能会超过Hive的使用率而成为Hadoop上最流行的实时计算平台。本章最后以单词统计为例,详细介绍了如何使用Hive进行简单编程。大数据技术原理与应用 厦门大学计算机科学系 林子雨 附录:主讲教师单位:厦门大学计算机科学系E-mail:个人网页:http:/ 厦门大学计算机科学系 林子雨 附录:大数据学习教材推荐欢迎访问大数据技术原理与应用概念、存储、处理、分析与应用教材官方网站:h
39、ttp:/ 库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让读者更好地学习和掌握大数据关键技术。本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。大数据技术原理与应用 厦门大学计算机科学系 林子雨 附录:中国高校大数据课程公共服务平台扫一扫访问平台主页http:/ 厦门大学计算机科学系 林子雨 Department of Computer Science,Xiamen University,2016