1、 2008 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice 灾难恢复:从理论到实践牛林海业务连续管理服务经理2009/10/2922022-11-18业务连续管理业务策略Business Strategy业务流程Business Process信息Information应用服务Application Services应用基础架构Application Infrastructure核心基础架构Core Infrastructur
2、e管理和控制Management&Control基础架构Infrastructure生命周期业务与办公环业务与办公环境连续管理境连续管理IT IT 连续管理连续管理业务连续规划业务连续规划32022-11-18灾难恢复建设过程业务架构业务关键性分析IT现状分析容灾技术分析IT应用恢复策略恢复数据点RPO恢复时间RTO培训演练灾备组织结构响应和决策流程技术恢复步骤测试演练计划方案设计方案选择方案实施风险因素42022-11-18组织的业务所面临的风险组织的业务所面临的风险-RA低硬件故障高低频率影响高电源/网络故障病毒攻击安全破坏电脑黑客自然灾害火灾,水灾,恶劣天气人为灾害恐怖行动,恶意破坏计划
3、内停工内部安全/欺诈服务中断攻击软件故障应用程序故障52022-11-18风险分析(RA)某机房主要风险指标评级数据中心风险分析的计算方法 62022-11-18同城 regional与主站点处于同一地理区域。主站点和备用站点一般距离在数十公里以内,可实现同步数据复制,但面临同一区域性灾难风险异地 non-regional与主站点处于不同地理区域。主站点和备用站点一般距离在数百公里以上,不会同时遭受与生产中心同一区域性灾难风险区域性灾难 regional disaster造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。例如:地震、大型
4、公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等 机房/园区级灾难建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等,例如 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障数据中心风险因人为错误、技术故障等局限于数据中心内部的风险造成信息系统中断服务,通过加强本地的技术和管理提高高可用,降低风险高可用设计高可用设计冗余设计冗余设计完善管理完善管理制度制度异地灾备异地灾备同城灾备同城灾备-系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障、人为恶意破坏、软件逻辑错误、信息安全故障等-造成所在地区或有紧密
5、联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。-例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等-建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等-机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障n区域性灾难n机房/园区级灾难n机房内事件灾难风险管理策略术语来源:GB/T 20988-2007信息 安全技术信息系统灾难恢复规范灾难风险管理策略72022-11-18风险对业务的影响风险对业务的影响-BIA:量化分析影响:量化分析影响生产效率/雇员生产效率:雇员人数 x 受影响员工数 x
6、停工时间 x 需要补回的时间=?上百万美元连续增长指数级增长分钟天耗时影响(美元)几十亿美元直接财务损失/客户损失收入:直接损失、补偿金、损失的未来收入、款项损失和投资损失声誉损失:客户、竞争对手获得优势、供应商、金融市场、业务合作伙伴声誉损失财务业绩:收入确认、现金流、信用等级、股票价格、违规罚款财务业绩宕机造成的间接影响更加严重,无法预测82022-11-18业务影响分析(BIA)n识别系统功能,业务流程同IT的关系,用户数量、分布、关键时段n了解业务应急处理方案是否明确,可支持业务多久,以及方案的局限性综合分析评定综合分析评定RTORTO、RPORPO、恢复资源需求、恢复资源需求n多方调
7、研分析技术部门、业务部门、管理部门的恢复需求n参考系统之间依赖关系n参考信息整合和发展需求识别业务、技术、管理、用户的灾难恢复需求访谈IT人员(项目经理、IT主管访谈业务人员、关键用户、业务管理部门n识别系统架构,系统特点n了解同其他系统依赖关系n了解系统中断时的IT应急手段等等n识别数据丢失对业务的影响确定RPOn 识别系统中断对业务的影响以确定RTO n定量经济损失n定性业务影响n监管法律法规BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响92022-11-18业务等级区分原则业务等级区分原则从该业务中断对客户
8、和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务对企业的间接影响对公司造成的非财务影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。对企业的直接影响对公司造成的财务影响,包括对收入造成的损失,为解决问题增加的成本等方面的影响。对客户的影响对客户感知造成的影响,包括客户服务质量、客户满意度、客户忠诚度的下降。业务影响级别定性描述1级严重影响2级较严重影响3级一般影响4级较小影响5级可以忽略关键业务是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。非关键业务是指由于该业务中断,将会
9、对企业运营(包括直接和间接的影响)和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理等业务。102022-11-18业务影响分析(Business Impact Analysis)重要性核心业务营业系统联机指令系统业务中断投诉计费采集系统用户透支帐务系统不能即时回收资金结算系统统计系统管理水平下降系统管理样 例112022-11-18RTO/RPORTO/RPO的定义的定义灾难发生点事件发现和通知紧急状态运作和决策恢复操作系统灾备中心恢复运行RTORPO备份点备份周期最近的一次备份点临时运行状态系统回切时间线回切完成回切动作不可用或性能降低不可用或性能降低通常不轻易启动
10、灾难恢复计划。宣布灾难发生就意味着不再是正常的业务模式。启动灾难恢复计划意味着承担额外的费用,不便的操作,降级的服务。决策时间有时就会长达2-4小时122022-11-18等级标准依据等级标准依据GB/T 20988-2007GB/T 20988-2007信息信息 安全技术安全技术 信息系统灾难恢复规范信息系统灾难恢复规范信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,2007 2007 需求分析需求分析策略分析策略分析等级划分等级划分灾难恢复策略/计划的制定132022-11-18灾备中心规划策略活站点活
11、站点(Active site)是支持系统需求的规模适当的办公场所,具有完整和实时信息的完全的冗余恢复站点,其与主站点在所有的技术层面上基本是一致的,系统平时处于7X24活动状态。由于在主站点和恢复站点同时处理和存储数据所以这些站点提供了最高的可用性最高的可用性。热站点热站点(Hot site)是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、软件、提供支持的基础设施和支持人员。热站点通常24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切换和接管。温站点温站点(Warm site)装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温站点被维持于随时准备
12、接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的系统临时占用了正常运行系统的设施。冷站点冷站点(Cold site)通常具有充足的机房基础设施(电源、电信连接和环境控制)和支持IT系统基础设施。空间可能配有活动地板和其它适合IT运行的属性。站点不包含IT设备并且通常也不包含办公自动化设备如电话、传真机或复印机。使用冷站点是为了用于提供安装所需的设备和电信能力。142022-11-18122007年3月20日星期二60%60%的计划无法使业务恢复到正常运行的状态的计划无法使业务恢复到正
13、常运行的状态50%的计划无法解决通讯中断和网络中断的问题67%67%的公司未的公司未支付任何款项用于灾难恢复测试支付任何款项用于灾难恢复测试34%的公司不具备数据备份系统35%35%的公司的公司没没有制定有制定应对应对媒体的相媒体的相关关策略策略34%的公司无法确定数据恢复的优先顺序75%的恢复配置无法与生产配置保持同步65%65%的的参与调查者表示参与调查者表示,实际的计划制订活动实际的计划制订活动缺少缺少高高层层管理人管理人员员的的参与参与75%的公司未制定重要员工的培训策略90%90%的公司的公司没没有有针对针对全体雇全体雇员员的的 “业务连续业务连续性性计划计划”“我们有一项计划”计划
14、与现实之间的差距(META GROUP-美国)没有行动的计划是做梦没有行动的计划是做梦没有计划的行动是没有计划的行动是噩梦噩梦!152022-11-18演练计划和测试演练计划和测试为测试演练而模拟的故障或灾难的设计在系统整体测试演练之前,选择一个小系统(如某个业务量比较小的系统)作为独立的测试模块,检验恢复流程的正确性开发系统整体演练的测试计划召开演练前的沟通会议建立测试小组,观察测试过程及提出建议演练后的总结,汇报演示及修正提高工作162022-11-18灾难恢复流程演示灾难发生灾难发生 应急响应与决策应急响应与决策宣布启动灾宣布启动灾难恢复计划难恢复计划业务检查业务检查 交付使用交付使用数
15、据备份数据备份状况监测状况监测切换操作切换操作启动灾难恢复操作启动灾难恢复操作切换有代价通常不轻易启动灾难恢复计划。宣布灾难发生就意味着不再是正常的业务模式。启动灾难恢复计划意味着承担额外的费用,不便的操作,降级的服务,以及切换和回切后的数据准备.172022-11-18452007年3月20日星期二惠普业务连续管理服务资历惠普全球服务惠普全球服务 一流的硬件容错和数据复制技术 在全球拥有5000名能够随时提供支持的专家 在38个国家设有54个恢复中心 提供全天候高可用性支持服务和设施监控 成功进行了500多次调配和2000次测试演练基于广泛的客户体验和行业最佳实践制订的高效方法停机时间不到行
16、业平均停机时间的1/8,平均每年节约260万美元最庞大的认证顾问队伍-CSSIP、DRII、BCI 灵活的协作合同东京首尔中国香港新加坡墨尔本市蒙特利尔布宜诺斯 艾里斯圣 保罗州卡拉卡斯墨西哥 市Mt.View达拉斯亚特兰大约翰内斯堡迪拜特拉维夫伊斯坦布尔斯德哥尔摩市Winnersh马德里维也纳雅典莫斯科布拉格华沙布达佩斯布里斯托尔米兰多赛尔多夫东京首尔中国香港新加坡墨尔本市蒙特利尔布宜诺斯 艾里斯圣 保罗州卡拉卡斯墨西哥 市Mt.View达拉斯亚特兰大约翰内斯堡迪拜特拉维夫伊斯坦布尔斯德哥尔摩市Winnersh马德里维也纳雅典莫斯科布拉格华沙布达佩斯布里斯托尔米兰多赛尔多夫马来西亚印度尼西亚中国台湾悉尼奥克兰中国印度532007年3月20日星期二总结 没有计划的唯一一点好处就是灾难会突然降临,但在此之前,您不必为此费心劳神!Technology for better business outcomes