1、Hadoop大数据平台构建与应用项目1 认识大数据,实现学情分析系统设计与环境搭建AB。项目描述项目描述大数据正在实现人类工作、生活与思维的大变革,其“威力”也强烈地冲击着整个教育系统,正在成为推动教育系统创新与变革的颠覆性力量。目前大数据在教育领域的应用还存在诸多挑战,诸多因素制约了大数据在教育领域的应用,通过收集学生就业趋向、学习兴趣、专业技能、岗位需求的数据,结合“因材施教”教育理论,帮助学生认识自己,结合学生实际,为其推荐学习资源、就业信息等,如图1-1所示。图1-1 就业关系影响图任务1.1 设计学情分析系统任务描述1.借助学习论坛、网络视频等网络资源和各种图书资源,学习大数据导论等
2、相关知识内容。2.明确学情分析系统的设计目标和实现途径。3.完成学情分析系统的设计。任务目标1.熟悉大数据的概念和特征。2.熟悉大数据处理与分析流程和工具使用。3.熟悉学情分析系统的架构设计方法。大数据背景知识技术技术是大数据价值体现的手段和前进的基石。理论理论是认知的必经途径,也是被广泛认同和传播的基线。实践实践是大数据的最终价值体现。123(1)理论层面认知大数据大数据的特征定义数据类型繁多(Variety)处理速度快(Velocity)数据体量巨大(Volume)价值密度低,商业价值高(Value)大数据的现在和未来从大数据的价值链条来分析,存在3种模式:手握大数据,但是没有利用好。没有
3、数据,但是知道如何帮助有数据的人利用它。既有数据,又有大数据思维。未来在大数据领域最具有价值的是2种事物:拥有大数据思维的人,可以将大数据的潜在价值转化为实际利益。还未有被大数据触及过的业务领域。大数据带来的隐私问题如何有效保护大数据背景下隐私权的建议:010203040506(2)技术层面认知大数据感知技术存储技术分布式处理技术云技术 云计算和大数据之间的关系如图所示。(3)实践层面认知大数据企业的大数据 政府的大数据个人的大数据互联网的大数据互联网中大数据的典型代表包括:用户行为数据。用户消费数据。用户地理位置数据。互联网金融数据。用户社交数据。图1-5 惠普的HAVEn大数据平台如图1-
4、5所示。图1-4 IBM大数据平台和应用程序框架哪些传统企业最需要大数据服务呢?哪些传统企业最需要大数据服务呢?对大量消费者提供产品或服务的企业(精准营销)。做小而美模式的中长尾企业(服务转型)。面临互联网压力之下必须转型的传统企业(生死存亡)。“数据供应链数据供应链”。这里尤其有两个明显。这里尤其有两个明显的现象:的现象:外部数据的重要性日益超过内部数据。在互联互通的网络时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟。能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。2.大数据处理流程(1)采集(2)导入和预处理(3)统计与分析(4)挖掘3.
5、大数据分析工具(1)Apache Hadoop图1-6 Hadoop开源项目它主要有以下几个优点它主要有以下几个优点:1.高可靠性2.高扩展性3.高效性4.高容错性5.平台与语言的选择灵活(2)Apache Spark图1-7 Apache Spark 开源项目性能特点如下性能特点如下:高性能,易用性,通用性Spark组成如下组成如下:Spark Core,Spark SQL,Spark Streaming,MLlib,GraphX(3)Apache Storm(4)Apache Drill图1-8 Apache Storm开源项目图1-9 Apache Drill 开源项目(5)RapidM
6、iner其功能和特点在于:1.免费提供数据挖掘技术和库,100%用Java代码(可运行在操作系统)、Java API(应用编程接口),数据挖掘过程简单,强大和直观。2.内部XML保证了标准化的格式来表示交换数据的挖掘过程。3.可以用简单脚本语言自动进行大规模进程,命令行(批处理模式)自动大规模应用。4.多层次的数据视图,确保有效和透明的数据。5.图形用户界面的互动原型,强大的可视化引擎,许多尖端的高维数据的可视化建模。6.简单的插件和推广机制。7.400多个数据挖掘运营商的支持。(6)Pentaho BI图1-10 Pentaho BI功能图图1-11 学情分析系统的目标实现图1.案例构思案例
7、构思任务实施任务实施任务实施思路实现ABCDEFG050607010203043.系统整体架构学情分析系统架构图如图1-12所示.图1-12 学情分析系统架构图任务1.2构建学情分析系统开发环境任务描述1.学习JDK、JRE等相关API,了解二者的差别。2.学习Java开发工具Eclipse集成开发工具的使用,以及相关配置。3.学习JAVA WEB服务器Tomcat的安装和配置。4.学习MySQL服务器以及客户端的安装及配置。5.完成Hadoop大数据开发环境的配置。任务目标1.学会Java EE开发工具的配置与使用。2.学会MySQL数据库和Tomcat的安装与配置3.学会Hadoop大数据
8、开发环境的配置。知识准备2314具体步骤如下:具体步骤如下:(1)安装配置JDK 1.单击JDK安装程序,安装向导界面,如图1-13所示。任务实施图1-13 开始安装Java JDK2.设置安装路径,如图1-14所示。单击“更改”按钮,可以修改安装路径。完成后单击“下一步”按钮。任务实施图1-14设置安装路径3.安装JRE。在安装完JDK后,会弹出安装JRE窗口的界面(在这里要注意修改安装路径必须和JDK在同一目录下,而不是安装在JDK目录下),如图1-15所示。任务实施图1-15安装JRE4.验证安装是否成功。安装完成后需要验证Java环境是否安装成功。验证方式有多种,可以编写一个最简单的J
9、ava程序文件后编译执行它,也可以通过显示Java版本的命令方式进行验证。本书采用通过输入java version命令,验证安装是否成功。读者也可以通过这个命令检查本机所安装的Java环境的版本。具体命令如图1-16所示。任务实施图1-16 验证Java环境安装(2)安装)安装Tomcat。1.从Apache网站(http:/tomcat.apache.org/)下载Tomcat,本书采用Tomcat 7.0版本开发。2.将下载好的Tomcat压缩包解压至本地磁盘,如图1-17所示。任务实施图1-17 Tomcat目录结构运行测试运行测试Tomcat。1.在Tomcat文件夹下进入bin子文件
10、夹,双击startup.bat文件,启动Tomcat服务器,如图1-18所示。任务实施图1-18 启动Tomcat服务器2.在浏览器的地址栏内输入http:/localhost:8080,如果Tomcat服务器部署成功,则显示如图1-19所示的界面。3.测试成功以后,关闭Tomcat。任务实施图1-19 Tomcat运行界面(3)安装配置)安装配置Eclipse下载安装Eclipse。将下载好的Eclipse压缩包解压至电脑的本地磁盘,解压好的文件如图1-20所示。任务实施图1-20 Eclipse目录结构运行配置运行配置Eclipse1.双击eclipse.exe文件启动Eclipse,单击
11、“Browse”按钮,在弹出的对话框中选择工作目录,注意该目录不要有中文字符,完成后单击“OK”按钮,如图1-21所示。任务实施图1-21 Eclipse选择工作目录2.配置Eclipse的JDK环境。在主菜单栏中选择“WindowPreferencesJavaInstalled JREs”命令,打开Preferences窗口,如图1-22所示。任务实施运行配置运行配置Eclipse单击“Add”按钮,在弹出的窗口中选中Standard VM选项。然后在跳转的窗口中配置JRE home为JDK的安装主目录,“JRE name”文本框中输入“jdk1.7.0_55”,设置Java虚拟机大小Def
12、ault VM arguments为-Xms2048m-Xmx4096m,最后单击“Finish”按钮,如图1-23所示。任务实施图1-21 Eclipse选择工作目录这时就可以看到已经添加了JDK,勾选该JDK复选按钮,完成后单击“OK”按钮。如图1-24所示。任务实施图1-24 选择JDK 3.配置Eclipse的Web服务器。在主菜单栏中选择“WindowPreferencesServerRuntime Environments”命令,如图1-25所示。任务实施图1-25 配置服务运行环境单击“Add”按钮,添加Tomcat服务器。在弹出的窗口中选中“ApacheApache Tomca
13、t v7.0”,单击“Next”按钮,如图1-26所示。任务实施图1-25 配置服务运行环境设置Tomcat安装路径(Tomcat installation directory)和JRE,完成后单击“Finish”按钮完成配置,如图1-27所示。任务实施图1-25 配置服务运行环境在主菜单栏中选择“WindowShow ViewServers”命令,可以打开Servers窗口,添加刚才创建的Tomcat服务器,在此窗口中可以直接停止或者启动调试Tomcat服务器,如图1-28所示。任务实施图1-28 添加Tomcat服务器6.设置Eclipse编码方式。在主菜单栏中选择“WindowPrefe
14、rencesGeneralWorkspace”命令,在Text file encoding下设置工作空间的代码编码方式为UTF-8,完成后单击“OK”按钮,如图1-29所示。至此Eclipse IDE安装完成。任务实施图1-29 设置程序编码方式(4)安装配置)安装配置MySQL Server1.双击打开MySQL 5.0安装程序MySQLSetup.exe,单击“Next”按钮,如图1-30所示。任务实施图1-30 MySQL安装向导2.在出现选择安装类型的窗口中,有Typical(默认)、Complete(完全)、Custom(用户自定义)3个选项,选中“Custom”单选按钮,单击“Ne
15、xt”按钮,如图1-31所示。任务实施图1-31 选择安装的类型3.在出现自定义安装界面中选择MySQL数据库的安装路径,本书设置的路径是D:Program FileMySQL。单击Developer Components(开发者部分)前的倒三角按钮,在弹出的下拉菜单中选择“This feature,and all subfeatures,will be installed on local hard drive.”菜单命令,完成上述操作后单击“Next”按钮,如图1-32所示。任务实施图1-32 安装设置4.接下来进入到准备安装的界面,首先确认一下刚才的设置是否正确,如果有误,单击“Back
16、”按钮返回,可以重新设置。如果之前的配置没有错误,单击“Install”按钮继续安装,如图1-33所示。任务实施图1-33 准备安装 5.此时出现正在安装的界面,如图1-34所示。任务实施图1-34 安装向导6.安装完成后出现注册界面,选中“Skip Sign-Up”单选按钮,单击“Next”按钮,如图1-35所示。任务实施图1-35注册界面 7.单击“Finish”按钮,完成MySQL安装,如图1-36所示。任务实施图1-36 MySQL安装完成8.MySQL数据库安装完成之后,出现如图1-37所示的配置界面向导,单击“Next”按钮。任务实施图1-37 MySQL 配置参数向导9.选中配置
17、的方式为“Detailed Configuration(详细配置)”单选按钮,单击“Next”按钮,如图1-38所示。任务实施图1-38 服务器类型10.设置MySQL数据库的用途,选中“Multifunctional Database(通用多功能型)”单选按钮,单击“Next”按钮,如图1-39所示。任务实施图1-39 数据库用途11.对InnoDB Tablespace进行配置,选择InnoDB数据库文件存储位置。单击Installation Path(应用程序安装路径)旁倒三角按钮,选择默认安装目录,单击“Next”按钮,如图1-40所示。任务实施图1-40 存储位置12.配置MySQL
18、服务器的参数,选择“Manual Setting(手动设置)”,单击“Next”按钮,如图1-41所示。任务实施图1-41 MySQL并发参数的设置13.设置TCP/IP参数,勾选“Enable TCP/IP Networking”单选按钮,默认的端口为3306,勾选“Enable Strict Mode”复选按钮,最后单击“Next”按钮,如图1-42所示。任务实施图1-42 MySQL TCP参数设置14.配置字符集配置,选中“Manual Selected Default Character Set/Collation”单选按钮,在Character Set下拉菜单中选择“utf-8”菜
19、单命令,单击“Next”按钮,如图1-43所示。任务实施图1-43 MySQL的编码设置15.将MySQL安装为Windows服务,勾选“Install As Windows Service”和“Include Bin Direction In Windows PATH”复选按钮,单击“Next”按钮,如图1-44所示。任务实施图1-44 安装Windows服务16.设置管理员密码,管理员账号为root。勾选“Modify Security Settings”和“Enable root access from remote machines”复选按钮,在“New root password”文
20、本框中输入密码,并在“Confirm”文本框中再次输入该密码,最后单击“Next”按钮,如图1-45所示。任务实施图1-45 登录密码参数设置17.经过以上操作,MySQL安装的所有配置都已设置完成,单击“Execute”按钮执行配置,如图1-46所示。任务实施图1-46 执行配置18.安装成功后,单击“Finish”按钮,如图1-47所示。任务实施图1-47 安装成功(5)安装)安装MySQL客户端客户端1.使用Navicat作为MySQL的客户端管理工具,运行Navicat 8.0.exe安装程序,设置安装目录后,单击“安装”按钮,如图1-48所示。任务实施图1-48 安装MySQL可视化
21、工具 2.打开Navicat,测试与本地MySQL数据库连接,填入主机名、埠(端口号)、用户名与密码参数,单击“确定”按钮,如图1-49所示。任务实施图1-49 输入数据库连接参数3.单击“连接测试”按钮,提示连接成功,如图1-50所示。任务实施图1-50 测试连接是否成功4.进入到Navicat主界面,用户可以对指定的数据库进行操作和管理,如图1-51所示。任务实施图1-51 Navicat主界面(6)构建构建Hadoop开发平台。开发平台。首先在用于开发的PC机上安装Hadoop 2.7.0,软件包为hadoop-2.7.0.zip,解压到某个路径中,这里是解压到D:Program Fil
22、es(x86)路径中。下面将hadoop-2.7.0/bin目录下的hadoop.dll文件拷贝到系统路径C:WindowsSystem32下。替换拷贝完成后,将Hadoop安装目录添加到系统环境变量中,在用户变量中添加名为HADOOP_HOME变量(变量值为hadoop-2.7.0的解压路径)。如图1-52所示。任务实施图1-52 Hadoop配置环境变量之后在系统变量的Path中添加Hadoop的bin目录路径,如图1-53所示。任务实施图1-53 Hadoop配置环境变量 Path添加完成后,将关于Hadoop的Eclipse插件hadoop-eclipse-kepler-plugin-
23、2.2.0.jar文件拷贝到Eclipse运行目录下的Plugin中。如图1-54所示。任务实施图1-54 配置Hadoop的Eclipse插件插件拷贝完成后,重新启动Eclipse,配置Hadoop插件。在主菜单栏中选择“WindowPreferencesHadoop Map/Reduce”命令,在“Hadoop installation diretory”的文本框中输入hadoop-2.7.0的目录路径,最后单击“OK”按钮。如图1-55所示。任务实施图1-55 在Eclipse中配置Hadoop主目录插件拷贝完成后,重新启动Eclipse,配置Hadoop插件。在主菜单栏中选择“Wind
24、owPreferencesHadoop Map/Reduce”命令,在“Hadoop installation diretory”的文本框中输入hadoop-2.7.0的目录路径,最后单击“OK”按钮。如图1-55所示。任务实施图1-55 在Eclipse中配置Hadoop主目录项目小结本项目全面阐释了大数据的概念、相关的技术和应用的现状,使读者对大数据的相关技术、应用、产业链以及大数据分析流程、工具等建立了清晰的认识,了解使用大数据的意义,为建立大数据思维奠定了良好的基础。同时也介绍了本书的核心案例-学情分析系统的架构设计,学习了Java EE的环境配置与安装,完成了Hadoop大数据开发环
25、境的配置,为后续项目的学习搭建了基础环境和平台。Hadoop大数据平台构建与应用项目2 Hadoop大数据平台的构建AB项目描述通过分析学生专业课程技能考核、学生就业、学生学习兴趣、企业岗位需求、互联网招聘等数据信息,建立岗位模型、知识模型和学情模型,指导公司进行就业和学情分析系统的研发。在综合分析相关技术和应用实践的前提下,选择了主流的Hadoop大数据平台,并采用Apache Ambari管理平台构建Hadoop开发环境。任务2.1 搭建Ambari Hadoop系统任务描述1.借助学习论坛、网络视频等网络资源和各种图书资源,学习Cloudera Manager、Ambari和MapR等大
26、数据平台管理工具。2.借助学习论坛、网络视频等网络资源和各种图书资源,学习Hadoop生态系统的相关技术,了解各项技术的功能。3.完成Ambari的安装与配置。任务目标1.了解Hadoop背景知识,熟悉Hadoop的生态系统。2.学会Hadoop分布式集群的组建方法。3.学会Ambari Server和Ambari Agent的配置方法。知识准备1.认识Hadoop平台产品相比于SQL数据库,Hadoop在某些方面仍然显得不够完善。Cloudera、Hortonworks、MapR是最具有代表性的公司,他们带来众多的创新并提供强大的集群工具。这些管理工具分别是Cloudera Manager、
27、Ambari和MapR,它们均能对集群进行自动化安装、管理、监控、诊断和集成。如图2-1所示为3大Hadoop平台的供应商。下面向读者扩展一下这些公司的产品服务。图2-1 三大Hadoop平台的供应商图1-7 Apache Spark 开源项目(1)Cloudera图2-3 HDP资源栈(2)Hortonworks(3)MapR2.熟悉Hadoop生态系统MindmapMindmapSuitable for all categories business and personal presentation(14(1 1)AmbariAmbari(6 6)PigPig(4 4)OozieOozi
28、e(5 5)HiveHive(1313)SqoopSqoop(1111)YARNYARN(1212)HDFSHDFS(7 7)SharkShark(8 8)MapReduceMapReduce(3 3)HBaseHBase(2 2)ZooKeeperZooKeeper(9 9)TezTez(1010)SparkSpark(14)Flume任务实施Ambari管理平台通过安装向导来进行集群的搭建,简化了集群供应。Ambari支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。Ambari是一个分布式架构的软件,主要由Ambari Server和 Ambari Agent两部分组成,如图2
29、-5所示。图2-5 Ambari Server架构(1)基本环境配置本任务以两台节点为例来组建 Hadoop分布式集群,这里采用的系统版本为CentOS 7,具体要求见表2-1。根据表中的资源配置来组建大数据基础平台。图1-8 Apache Storm开源项目主机名内存硬盘IP地址角色master8 GB100 GB192.168.200.131Ambari-Server、Ambari-Agent、MySQLslave14 GB100 GB192.168.200.133Ambari-Agent首先需要配置主机名。首先需要配置主机名。配置主机名。#master#hostnamectl set-h
30、ostname master#hostnamemaster#slave1#hostnamectl set-hostname slave1#hostnameslave11 修改 hosts 映射文件。#master#vi/etc/hosts192.168.200.131 master.hadoop master192.168.200.133 slave1.hadoop#slave1#vi/etc/hosts192.168.200.131 master.hadoop192.168.200.133 slave1.hadoop slave12 配置Yum源。#master将BigData-v2.0-B
31、ASE.iso复制到/mnt目录下,将其中的ambari 解压到/opt目录下,并在master节点配置ftp服务。注意:因为安装大数据相关软件包时,可能会用到相关依赖软件包,所以需要配置CentOS 7 Yum 源,可以配置CentOS 7的本地Yum源文件,如果有网络的话也可以配置公网的Yum源。这里可以采用本地 CentOS 7 Yum 源。#master&slave1#cd/etc/yum.repos.d/#rm-vf*注意:如果配置公网Yum源,则不需要删除原来的repo文件。3编写REPO文件,指定Ambari安装包路径和CentOS 7安装包路径。#vi ambari.repo
32、centos7baseurl=ftp:/192.168.2.10/centos7/(注:具体的Yum 源根据真实环境配置,本次为实验室测试环境。)gpgcheck=0 enabled=1 name=centos ambari name=ambaribaseurl=ftp:/10.0.3.61/ambari(注:具体的Yum 源根据真实环境配置,本次为实验室测试环境。)enabled=1 gpgcheck=0#master#yum-y install httpd将/mnt/目录下的HDP-2.4-BASE和HDP-UTILS-1.1.0.20两个文件夹拷贝到/var/www/html/目录下。启
33、动httpd服务。#systemctl enable httpd.service#systemctl status httpd.service 配置ntp。#master#yum-y install ntp#vi/etc/ntp.conf注释或者删除以下4行server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburstserver 3.centos.pool.ntp.org iburst添加以下两行server 127.127.1.0fudge
34、 127.127.1.0 stratum 10#systemctl enable ntpd#systemctl start ntpd4#slave1#yum-y install ntpdate#ntpdate master.hadoop#systemctl enable ntpdate 配置SSH。#master&slave1检查 2个节点是否可以通过无密钥相互访问,如果未配置,则进行SSH无密码公钥认证配置。如下:#yum install openssh-clients#ssh-keygen#ssh-copy-id master.hadoop#ssh-copy-id slave1.hadoo
35、pssh登录远程主机查看是否成功。#ssh master.hadoop#exit#ssh slave1.hadoop#exit5 禁用 Transparent Huge Pages。操作系统后台有一个khugepaged 的进程,它会一直扫描所有进程占用的内存,在可能的情况下会把4k page交换为Huge Pages,在这个过程中,对于操作的内存的各种分配活动都需要各种内存锁,直接影响程序的内存访问性能,并且这个过程对于应用是透明的,在应用层面不可控制,对于专门为4k page优化的程序来说,可能会造成随机的性能下降现象。#master&slave1#cat/sys/kernel/mm/tr
36、ansparent_hugepage/enabledalways madvise never#echo never /sys/kernel/mm/transparent_hugepage/enabled#echo never /sys/kernel/mm/transparent_hugepage/defrag#cat/sys/kernel/mm/transparent_hugepage/enabledalways madvise never重启后失效,需要再次执行。6 安装配置 JDK。#master#mkdir/usr/jdk64/#mount-o loop XianDian-BigData
37、-v2.0.5-BASE.iso/mnt/#cd/mnt/#tar-zxvf jdk-8u77-linux-x64.tar.gz-C/usr/jdk64/#vi/etc/profileexport JAVA_HOME=/usr/jdk64/jdk1.8.0_77 export PATH=$JAVA_HOME/bin:$PATH#source/etc/profile#Java versionJava version 1.8.0_77Java(TM)SE Runtime Environment(build 1.8.0_77-b03)Java HotSpot(TM)64-Bit Server VM(
38、build 25.77-b03,mixed mode)7#slave1#mkdir/usr/jdk64/#scp 172.24.14.106:/mnt/jdk-8u77-linux-x64.tar.gz.#tar-zxvf jdk-8u77-linux-x64.tar.gz-C/usr/jdk64/#vi/etc/profileexport JAVA_HOME=/usr/jdk64/jdk1.8.0_77 export PATH=$JAVA_HOME/bin:$PATH#source/etc/profile#Java versionJava version 1.8.0_77Java(TM)SE
39、 Runtime Environment(build 1.8.0_77-b03)Java HotSpot(TM)64-Bit Server VM(build 25.77-b03,mixed mode)(2)配置Ambari Server#master#yum-y installambari-server配置MariaDB数据库。#master安装MariaDB数据库。#yum install mariadb mariadb-server mysql-connector-java启动MariaDB数据库。#systemctl enable mariadb#systemctl start mari
40、adb配置MariaDB数据库。#mysql_secure_installation按Enter 键确认后设置数据库 root 密码,这里设置为“bigdata”Remove anonymous users?Y/n yDisallow root login remotely?Y/n nRemove test database and access to it?Y/n yReload privilege tables now?Y/n y创建Ambari数据库。#mysql-uroot-pbigdataMariaDB(none)create database ambari;MariaDB(none
41、)grant all privileges on ambari.*to ambarilocalhost identified by bigdata;MariaDB(none)grant all privileges on ambari.*to ambari%identified by bigdata;MariaDB(none)use ambari;MariaDB ambari source/var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlMariaDB ambari Bye安装配置Ambari Server。#master#
42、ambari-server setupWARNING:SELinux is set to permissive mode and temporarily disabled.OK to continue y/n(y)?Customize user account for ambari-server daemon y/n(n)?nChecking JDK.1 Oracle JDK 1.8+Java Cryptography Extension(JCE)Policy Files 8 2 Oracle JDK 1.7+Java Cryptography Extension(JCE)Policy Fil
43、es 7 3 Custom JDK=Enter choice(1):3Path to JAVA_HOME:/usr/jdk64/jdk1.8.0_77Validating JDK on Ambari Server.done.Completing setup.Configuring database.Enter advanced database configuration y/n(n)?yConfiguring database.=Choose one of the following options:1-PostgreSQL(Embedded)2-Oracle3-MySQL4-Postgre
44、SQL5-Microsoft SQL Server(Tech Preview)6-SQL Anywhere=Enter choice(1):3Hostname(localhost):Port(3306):Database name(ambari):Username(ambari):Enter Database Password(bigdata):Proceed with configuring remote database connection properties y/n(y)?Ambari Server setup completed successfully.启动Ambari Serv
45、er服务。#ambari-server start打开浏览器,登录页面 http:/192.168.200.131:8080/,在“用户名”的文本框中输入“admin”,在“密码”的文本框中输入“admin”,如图2-6所示。图2-6 Ambari登录页面(3)配置Ambari Agent#master&slave1安装Ambari Agent并修改ambari-agent.ini文件指定Ambari Server的地址或者主机名。#yum-y install ambari-agent#vi/etc/ambari-agent/conf/ambari-agent.iniserverhostnam
46、e=master#ambari-agent restart打开Ambari Agent的log日志文件/var/log/ambari-agent/ambari-agent.log,查看是否存在“Building Heartbeat:responseId=”等字样,如果有则表示Ambari Server和Ambari Agent之间已经成功传递了心跳连接信号。#tail-f/var/log/ambari-agent/ambari-agent.logINFO 2017-01-12 09:44:20,919 Controller.py:265-Heartbeat response received(
47、id=1340)INFO 2017-01-12 09:44:30,820 Heartbeat.py:78 -Building Heartbeat:responseId =1340,timestamp=1484214270820,commandsInProgress=False,componentsMapped=True(4)部署管理 Hadoop集群登录页面http:/IPAddress:8080/,在“用户名”的文本框中输入“admin”,在“密码”的文本框中输入“admin”。接下来就可以启动安装向导、创建集群和安装服务。如图2-7和图2-8所示。图2-7 Ambari管理页面图2-8 A
48、mbari安装向导在“选择安装栈”时指定安装源HDP-2.4和HDP-UTILS-1.1.0.20的位置。指定相应的目标主机并选择手动注册主机,选择所需要安装的服务,本任务需安装HDFS、YARN+MapReduce2、Zookeeper、Ambari Metrics、Hive、HBase、Mahout、Sqoop、Spark等服务。在整个过程需要设置Grafana Admin和Hive的密码。部署完成页面,如图2-9所示。图2-9 部署完成页面单击页面导航栏的“主界面”按钮,在主界面中可以查看集群状态和监控信息,如图2-10所示。单击页面导航栏的“主界面”按钮,在主界面中可以查看集群状态和监
49、控信息,如图2-10所示。至此,大数据基础平台已经部署完毕了。图2-10 平台主界面任务2.2使用Apache Ambari管理Hadoop集群任务目标1.学会使用Ambari Web管理界面对Hadoop服务进行管理的方法。2.学会使用Ambari Web管理界面对集群主机进行管理的方法。3.学会使用Ambari Web管理界面对Hadoop服务进程进行管理的方法。4.学会使用Ambari Web管理界面对服务配置文件进行管理的方法。(1)服务管理在页面左侧的服务列表中,可以选中任何一个想要操作的服务。以 HDFS为例,单击左侧服务列表中的“HDFS”按钮后,就会在服务列表右侧看到该服务的相
50、关信息,如图2-11所示。图2-11 HDFS概要展示页面Hadoop的集群部署完成后,并不知道这个集群是否可用。这时候就可以借助“运行服务检查”命令来确保集群服务可以正常运行。选择这个命令后,就会在弹出的对话框中出现如图2-12所示的HDFS服务操作进度显示。当进度条执行完毕后,全绿代表服务当进度条执行完毕后,全绿代表服务运行正常,全红代表服务运行失败,黄色代表出现告警信息。运行正常,全红代表服务运行失败,黄色代表出现告警信息。图2-12 HDFS服务操作进度显示“服务操作”下拉菜单中的“启动”、“停止”、“重启所有”3个命令的含义分别是指:启动、停止、重启集群中所有该服务的进程。当执行进度