1、Hadoop集群监控与集群监控与Hive高可用高可用-向磊向磊Page 2Hadoop集群监控Cactin 默认Cacti模板太少n 增加模板n 我们的模板磁盘IO内存详情单个内核使用CPU总和及IOWaitJMX支持监控HadoopPage 3Hadoop集群监控Cactin 优点监控每台服务器的详细数据SNMP采集数据可以自己定义相比zabbix:无需客户端 安装配置简单spine采集速度快模板众多 支持IPMIn 缺点SNMPD为UDP协议,不够稳定无法获知集群整体运行状况Page 4Hadoop集群汇总监控GangliaPage 5Hadoop集群汇总监控Ganglian 优点集群总体
2、状况和负载汇总采用多播地址降低带宽占用TCP采集 数据稳定hadoop原生支持ganglia数据采集n 缺点配置稍复杂,需安装客户端单台数据不如cacti详细Page 6Hive高可用集群n Hive存在的问题单一节点Hive Thrift Server故障导致任务失败n 高可用方案多个Hive Thrift Server节点HAProxy+Hiven HAProxy在实际应用中出现过的问题和优化Hive日志问题轮询方式优化仍存在不稳定因素,其他方式解决HAProxy+Hive 网络拓扑QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopPage 8HAPro
3、xy+Hive高可用集群n HAProxy是什么及优势 OSI 4-7层代理转发 健康检查和多种轮询方式 配置简单 单点故障自动摘除HAProxy+Hive高可用集群Page 10HAProxy问题解决及优化n TCP Session超时问题:查询时间长导致TCP Session进入CLOSE_WAIT解决:HAProxy中增大几种TCP连接模式的timeout时间n Hive日志问题问题:健康检查创造出太多Hive日志解决:增大健康检查时间n 轮询优化常用几种轮询算法leastconn,round-robin,static-rr,source推荐使用leastconn和static-rrn
4、仍然存在的不稳定因素Job提交给Hadoop后Hive宕机,Hive代理层无解。调度系统解决Page 11phpHiveAdmin测试版0.06 beta4 Molten Coren 界面好看了一点改变了一些CSS和页面色彩n 功能增加了一点Partition功能,表操作的各种增强,配置文件更加简单n 查询增强了一点复杂查询直接可实时监控map/reduce的全过程,记录操作日志Page 12phpHiveAdmin 工作流程图Page 13新的phpHiveAdmin测试版NoImage表操作表操作创建表创建表NoImagePage 14新的phpHiveAdmin测试版NoImageNoImageMap/Reduce实时监控Page 15新的phpHiveAdmin测试版n 相比Beeswax,HWI优点界面清晰,安装简单,运行方便节省Hive操作时间,提高工作效率改变公司内部工作流程n 新增功能历史记录查询Meta数据查看Page 16近期开发计划n MVC框架化n Index,view功能n EasyHadoop将开发更易于使用和配置的界面版请关注更新:http:/http:/谢谢大家