《大数据系统运维:高可用性管理》课件.pptx

上传人(卖家):晟晟文业 文档编号:4766424 上传时间:2023-01-08 格式:PPTX 页数:17 大小:1.75MB
下载 相关 举报
《大数据系统运维:高可用性管理》课件.pptx_第1页
第1页 / 共17页
《大数据系统运维:高可用性管理》课件.pptx_第2页
第2页 / 共17页
《大数据系统运维:高可用性管理》课件.pptx_第3页
第3页 / 共17页
《大数据系统运维:高可用性管理》课件.pptx_第4页
第4页 / 共17页
《大数据系统运维:高可用性管理》课件.pptx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、第四章高可用性管理6.1高可用性概述6.2高可用性技术6.3业务连续性管理习题6.1 高可用性概述第六章 高可用性管理u 衡量系统运行稳定性的关键指标是系统的可用性,可用性(availability)指的是系统的无故障运行时间的百分比,计算公式为:无故障运行时间/计划对外服务时间*100%。u 为了保证系统有较高的可用性,会采取一些高可用(High Availability,简称HA)技术来减少故障中断时间。高可用技术的核心思想是冗余,即关键部件要不止一个,在原部件故障或者维修的的时候,备用的零部件要能顶替原有部件的作用。u 当发生大规模故障时,如机房整体电力故障,对外网络被物理切断,在一定区

2、域内的部件冗余也失效,此时就需要考虑容灾相关的方案。通过在其他物理区域的数据中心建立备份系统,第四章性能管理6.1高可用性概述6.2高可用性技术6.3业务连续性管理习题大数据应用人才培养系列教材6.2 高可用性技术第六章 高可用性管理系统架构机房环境机房环境的高可用主要考虑的是电力和机柜分配的方面。网络、主机、存储网络是数据中心的核心,主机是高可用方案的主要部分,主机层面的高可用技术分为主从模式、双机模式和集群模式。数据库在数据库领域,有一些经典的高可用技术,不同产品的原理和实现上都略有区别。应用在实现某个特定功能点时,应用程序可以通过多个实例完成该功能的服务。6.2 高可用性技术第六章 高可

3、用性管理容灾一般情况下,谈到高可用技术时,讨论的范围都是在数据中心内部的各种保障技术,但当数据中心整体发生故障,或者称之为灾难时,就需要依靠容灾技术,在6.3的业务连续性管理中,会有详细阐述。6.2 高可用性技术第六章 高可用性管理监控指标项u 应用自身状态:服务进程状况、服务状态、业务开关或可使用标志状态。u 数据服务:数据及时、数据关键路径、数据完整性和正确性关键表记录变化情况、关键业务数据、关键数据按预期清空。u 性能容量:用户数量(终端/API),内存加载量、消息并发量、事务响应时间。u 批量作业:批量处理情况、批量开始时间、批量结束时间、批量加载时间、批处理状态。u 应用占用系统资源

4、:文件句柄数、应用分区空间、应用文件增长情况、网络连接、单个用户或请求进程占用的系统资源。u 应用中间件(Weblogic、Tomcat):Weblogic Server、线程池、JVM、数据源、连接池、APP状态。u MQ:队列管理器、通道、队列、事件、(Event)。u WEB服务器(例如Apache):Apache吞吐率、Apache并发连接数、httpd 进程数、httpd线程数目、提供网站服务的字节数、处理连接的耗时时间。6.2 高可用性技术第六章 高可用性管理故障转移u 主机/存储/网络/数据库一般都是心跳包机制来进行健康状态的监控。由管理模块向各个模块之间按照一定时间间隔发送心跳

5、包,或者两个模块之间互相发送心跳包,如果超过设定时间周期,某个模块没有响应,则判断该模块出现故障,备份模块接管该模块的服务,这个过程被称为故障转移(Failover)。u 在主备机的高可用系统中,在特殊情况下会发生脑裂(split-brain)的故障。发生这种故障的原因是心跳线或者网络出现问题,造成主备机互相探测不到对方的心跳,都以为对方发生了故障,于是便主动获取存储或者服务IP等资源,双方都启动服务,造成服务异常。u 为了解决脑裂问题,一般会在主备机之外,引入一个第三方模块,作为仲裁者,由它来判断到底是谁应该接管资源,对外提供服务。第四章性能管理6.1高可用性概述6.2高可用性技术6.3业务

6、连续性管理习题大数据应用人才培养系列教材6.3 业务连续性管理第六章 高可用性管理灾备系统等级类别主要要求第一级每周一次的数据备份,场外存放备份介质。第二级每周一次的数据备份,有备用的基础设施场地。第三级每天一次的数据备份,利用通信网络将关键数据定时批量传送至备用场地。第四级每天一次的数据备份,利用通信网络将关键数据定时批量传送至备用场地,配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。第五级采用远程数据复制技术,并利用通信网络将关键数据实时复制到备用场地,配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。第六集远程实时备份,实现数据零丢失,具备远程集群系统的实时监控

7、和自动切换能力。6.3 业务连续性管理第六章 高可用性管理灾备恢复能力要求要素要求数据备份系统完全数据备份至少每天一次;备份介质场外存放;远程实时备份,实现数据零丢失。备用数据处理系统备用数据处理系统具备与生产数据处理系统一致的处理能力并完全兼容;、应用软件是“集群的”,可实时无缝切换;具备远程集群系统的实时监控和自动切换能力。备用网络系统配备与主系统相同等级的通信线路和网络设备;备用网络处于运行状态;最终用户可通过网络同时接入主、备中心。备用基础设施有符合介质存放条件的场地;有符合备用数据处理系统和备用网络设备运行要求的场地;有满足关键业务功能恢复运作要求的场地;以上场地应保持7x24小时运

8、作。专业技术支持能力在灾难备份中心7x24小时有专职的:计算机机房管理人员;专职数据备份技术支持人员;专职硬件、网络技术支持人员;专职操作系统、数据库和应用软件技术支持人员。运行维护管理能力有介质存取、验证和转储管理制度;按介质特性对备份数据进行定期的有效性验证;有备用计算机机房运行管理制度;有硬件和网络运行管理制度;有实时数据备份系统运行管理制度;有操作系统、数据库和应用软件运行管理制度。灾难恢复预案有相应的经过完整测试和演练的灾难恢复预案。6.3 业务连续性管理第六章 高可用性管理数据复制基于数据库的复制基于应用的复制基于存储的数据复制6.3 业务连续性管理第六章 高可用性管理灾备切换灾备

9、切换是一系列操作的组合,不是单一的技术动作,服务的启动顺序也有严格的要求。比如数据库必须先启动,之后才能启动应用程序;应用服务器接管完成,才能进行网络的切换。如果应用程序先于数据库启动,会出现报错。最好通过操作手册和切换脚本对切换的步骤进行固化,并安排一定频率的灾备演练。6.3 业务连续性管理第六章 高可用性管理应急预案需要对系统可能出现的故障做出预案,以便发生故障时能够快速处理以恢复服务。应急预案中需要明确适用的故障场景,启动预案的触发条件,相关人员的职责,以及应急的操作步骤。其中,应急的操作步骤包括可能的技术操作步骤如重启进程,业务操作步骤如发出通知。6.3 业务连续性管理第六章 高可用性管理日常演练01沙盘推演0203模拟演练真实切换第四章性能管理6.1高可用性概述6.2高可用性技术6.3业务连续性管理习题大数据应用人才培养系列教材1.一个系统24*365小时对外服务,2017年度中断服务20小时,该系统的可用性为多少?2.简述脑裂现象是如何产生的,怎么避免?3.请列出三种数据复制技术。4.请列出三种常见的监控指标项。习题:感谢聆听

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《大数据系统运维:高可用性管理》课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|