1、业务持续性及灾难恢复业务持续性及灾难恢复计划计划BUSINESS CONTINUITY & DISASTER RECOVERY PLANNING。1概述业务持续性及灾难恢复计划论述当业务运行陷入重大混乱时,如何保持正常的业务活动。BCP 和DRP 包含对具体措施的准备、测试与更新,以此保护关键业务流程不受重大系统与网络故障的影响。业务持续性计划(BCP)有助于识别机构承受的内部与外部的威胁;协调硬资产与软资产以向机构提供有效的预防和恢复途径,并保持其竞争优势与价值系统完整性。BCP抵御商务活动受到的干扰,应用于保护关键业务流程不受重大故障与灾难的影响。BCP应对自然与人为事件,并处理未能及时有
2、效地应对所带来的后果。业务影响分析(BIA)断定在计算服务或通信服务严重中断后,各个业务单位所承受的影响程度。这些影响可能是财政方面的,体现为金钱损失;或是运行方面的,体现为无法履行业务。灾难恢复计划(DRP)在电脑设备遭受部分或全部电脑资源与物理设施损失时,提供应急响应、延长备份运行以及灾后恢复的程序。DRP的首要目标是让必需任务程序得以在降级模式下运行,并在合理时间内恢复回正常的运行模式。2概述 考生应了解业务持续性计划与灾难恢复计划之间的区别;了解业务持续性计划的项目范围与规划、业务影响分析、恢复策略、恢复计划发展与实施。此外,考生还应掌握灾难恢复计划的开发、实施与修复。3关键知识领域A
3、. 理解业务持续性要求 A.1 起草并记录项目范围与规划B. 进行业务影响分析 B.1 识别关键业务功能并进行优先排序 B.2 判断可接受的最长停工时间以及其他标准 B.3 评估运行中断的威胁(如本地范围、区域范围、全球范围) B.4 定义恢复目标C. 制定恢复策略 C.1 实施备份存储策略(如异地存储、电子仓储、磁带轮换) C.2 站点恢复策略D. 理解灾难恢复过程 D.1 应对 D.2 人员 D.3 通讯 D.4 评估 D.5 修复 D.6 提供培训E. 执行、评估与维护计划(如版本控制、发行)。4主要内容 项目起始步骤 恢复与连续性规划要求 业务影响分析 选择、开发和实现灾难和连续性计划
4、 备份与离线设备 演习和测试类型。5u 灾难(Disaster)是突发的、导致重大损失的不幸事件,包括: 自然的(Natural),如地震(Earthquakes)、洪水(Floods)、强对流天气(Storms)、火山爆发(Volcanic Eruptions)、自然火灾(National Fires); 系统/技术的(System/Technical),如硬件、软件中断(Outages)、系统/编程错误(Errors); 供应系统(Supply Systems),通讯中断、配电系统(Power Distribution)中断、管道破裂(Burst Pipes); 人为的(Man-Made
5、),爆炸(Explosions)、火灾(Fires)、故意破坏(Purposeful Destruction)、航空器坠毁(Aircraft Crashes)、有害物质泄漏(Hazardous Spills)、化学污染(Chemical Contamination)、有害代码(Malicious Code) 政治的(Political),如恐怖袭击(Terrorist Attacks)、骚乱(Riots)、罢工(Strikes)。灾难的定义。6u 对于机构来说,任何导致机构关键业务功能在一定时间内无法进行的事件都被视为灾难,其特点表现为: 计划之外的服务中断; 长时间的服务中断; 中断无法通过
6、正常的问题管理规程得到解决; 中断造成重大损失。u 中断事件是否被机构视为灾难,与中断所影响的业务功能对机构的关键程度,以及中断的时间长短有关。机构的灾难。7u 业务连续性计划(Business Continuity Plan,BCP) 关注在中断期间和之后维持机构的业务功能,提供重大中断恢复期间维持重要业务运行的规程,和IT相关的仅限于其对业务处理的支持,灾难恢复计划、业务恢复/复原计划和场所紧急计划可以附加在BCP之后。 业务恢复/复原计划(Business Recovery/Resumption Plan,BRP) 涉及到在紧急事件后对业务处理的恢复,提供灾难后立即恢复业务运行的规程,但
7、和BCP不同,它在整个紧急事件或中断过程中缺乏确保关键处理连续性的规程。BRP的制定应该与灾难恢复计划和BCP进行协调。BRP应该附加在BCP之后。BCP相关计划之间的关系。8u 操作连续性计划(Continuity of Operations Plan,COOP) 关注位于机构(通常是总部单位)备用站点的关键功能,以及这些功能在回到正常操作状态之前最多30天的运行。由于COOP涉及到总部级的问题,它和BCP是互相独立制定和执行的。COOP强调机构在备用站点恢复运行能力,所以计划不一定需要包括IT运行。另外,它不涉及到无需重新配置到备用站点的小型危害。COOP可以将BCP、BRP和灾难恢复计划
8、做为附录。 支持连续性计划IT应急计划 (Continuity of Support Plan/IT Contingency Plan) 支持连续性计划和IT应急计划是同义词,每一个重要的应用和通用支持系统都要制定IT应急计划,在机构的BCP中可能会维护多个应急计划。BCP相关计划之间的关系(续)。9u 危机通信计划(Crisis Communications Plan) 机构应该在灾难之前做好其内部和外部通信规程的准备工作。危机通信计划通常由负责公共联络的机构制定。危机通信计划规程应该和所有其它计划协调以确保只有受到批准的内容公之于众。计划规程应该做为附录包含在BCP中。通信计划通常指定特定
9、人员做为在灾难反应中回答公众问题的唯一发言人。它还可以包括向个人和公众散发状态报告的规程。计划中包括记者招待会的模板。 计算机事件响应计划(Cyber Incident Response Plan) 建立处理针对机构IT系统攻击的规程。这些规程被设计用来协助安全人员对有害的计算机事件进行识别、消减并进行恢复,这些事件的例子包括对系统或数据的非法访问、拒绝服务攻击、或对硬件、软件、数据的非法更改(如有害逻辑:病毒、蠕虫或木马等)。本计划可以包含在BCP的附录中。BCP相关计划之间的关系(续)。10u 灾难恢复计划 (Disaster Recovery Plan,DRP) 应用于重大的、通常是灾难
10、性的、造成长时间无法访问正常设施的事件。通常,DRP指用于紧急事件后在备用站点恢复目标系统、应用或计算机设施运行的IT计划。DRP的范围可能和IT应急计划重叠,但是DRP的范围比较狭窄,它不涉及到无需重新配置的小型危害。根据机构的需要,可能会有多个DRP附加在BCP之后。 场所紧急计划(Occupant Emergency Plan,OEP) 在发生有可能对人员的安全健康、环境或财产构成威胁的事件时,为设施中的人员提供反应规程。 OEP在设施级制定,与特定的地理位置和建筑结构有关。根据美国总务管理局(GSA)的OEP模板维护GSA所属设施的OEP计划。设施OEP可以附加在BCP之后,但是独立执
11、行。BCP相关计划之间的关系(续)。11BCP步骤。12u BCP项目规划阶段的活动包括: 确定BCP需求,可以包括有针对性的风险分析以识别关键系统可能的中断; 向管理层推销BCP理念,获得管理层的支持; 了解相关法律、法规、行业规范以及机构的业务和技术规划的要求,以确保BCP与其相一致; 任命BCP项目负责人,建立BCP团队,包括业务和技术部门的代表; 制定项目管理计划书(Work Plan),其中应明确项目范围、目标、方法、责任、任务及其进度; 确定收集数据所需的自动化工具; 向管理层提交项目规划和状态报告; 确定项目进度。BCP项目规划。13u 业务连续性协调人做为BCP项目负责人全面负
12、责项目的规划、准备、培训等各项工作: 计划的开发团队与管理层的沟通和联络; 有权与计划相关的所有人员进行直接接触和沟通; 充分了解中断对机构业务的影响; 全面了解机构的需求和运作,有能力平衡机构中相关部门的不同需求; 比较容易接触到高级管理层; 了解机构的业务方向和高级管理层的意图; 有能力影响高级管理层的决策。BCP项目负责人。14u 对BCP项目的规划最终应该形成业务连续性策略条款,该条款记录BCP的: 目的、范围和需求; 基本原则和指导方针; 职责和责任; 关键环节的基本要求;u 策略条款应得到高级管理层的正式批准,并公布成为机构的政策,指导机构业务连续性相关工作。BCP策略条款。15业
13、务连续性规划要求。16关键的业务流程(1)薪金处理(2)时间和考勤报告(3)时间和考勤核对(4)时间和考勤批准业务流程(2):时间和考勤报告关键的资源lLAN服务器lWAN访问l电子邮件l大型机访问l电子邮件服务器资源 恢复优先顺序lLAN服务器 高lWAN访问 中l电子邮件 低l大型机访问 高l电子邮件服务器 高关键资源lLAN服务器lWAN访问l电子邮件l大型机访问l电子邮件服务器确认关键的IT资源来自用户、业务流程、所有者、应用程序所有者和其他相关组的输入确认中断的影响和允许的最长停工时间确定恢复优先次序允许的最长时间:8小时影响l考勤卡处理延迟l无法执行薪金操作l薪金处理延时BIA分析
14、。17u 协助机构管理者了解潜在中断对机构的影响;u 识别机构的关键功能以及支持这些功能的IT资源;u 协助管理人员识别机构功能支持方面的不足;u 排定IT资源的恢复顺序;u 分析中断的影响,包括损失的利润、增加的运行费用、收入的延期以及对竞争能力和公众信心的打击;u 确定每一项业务功能的恢复窗口(Recovery Windows),如确定机构可以使用手工作业或其它替代方式执行关键功能的时间长度。BIA的目的。18u 确定信息收集技术;u 选择受访者(Interviewees);u 定制收集经济和运作影响信息的问卷;u 分析信息;u 确定时间关键(Time-Critical)的业务功能;u 确
15、定最大允许中断时间(Maximum Tolerable Downtime,MTD);u 基于MTDs排定关键业务功能的恢复顺序;u 准备和提交BIA报告。BIA的过程。19支持资源的种类 支持关键功能的资源包括: 人力资源(Human resources),如操作员、专家、系统用户等。 处理能力(Processing capability),如数据中心、备用数据中心、网络、小型机、工作站、个人计算机等。 基于计算机的服务(Computer-based services),如语音和数据通信服务、数据库服务、公告服务等。 自动化应用和数据(Automated applications and da
16、ta),计算机设备上运行的各种程序和存储的数据。 物理基础设施(Physical infrastructure),如办公室、办公家具、环境控制系统、电力、上下水、邮件服务等。 文档和票据(Documents and papers),如合同、票据、计划、规程等文件、文档和资料。20u 预期各种可能出现的紧急情况时需要考虑类似下面这些问题: 人力资源,人们还能否工作?在罢工事件中关键人员能否工作?是否有人能够替代这些人员?人们能否便捷地抵达备用站点? 处理能力,计算机是否损坏?如果部分计算机无法使用应该怎么办? 基于计算机的服务,能否进行计算机通信?人们之间如何通信?信息服务是否中断?会中断多长时
17、间? 自动化应用和数据,数据的完整性是否遭到损坏?应用程序是否被破坏?应用程序能够在其它平台下运行? 物理基础设施,人们是否有地方办公?人们是否有完成工作所需的设备? 文档和票据,所需的文件能否找到?找到后还能否使用?预期潜在紧急情况。21确定防御性控制 BIA中确定的一些中断影响可以通过遏制、探测和或降低对系统影响的防御性措施予以消减或清除。一些常用措施如下所列: UPS和/或备用发电机 空调系统预留富余容量 火灾、烟感探测器和消防系统 水害探测器和防水措施 紧急断路器 备份和离站存储 最小特权。22u 紧急响应(Emergency response)阶段,事件发生初期为保护生命和减少损失所
18、采取的行动。u 恢复(Recovery)阶段,事件发生后为了继续关键功能所采取的行动。u 复原(Resumption)阶段,事件发生后为了恢复到正常运行状态所采取的行动。不同阶段的应急计划策略。23u 业务恢复(Business Recovery) 确定关键业务功能及其支持资源的恢复顺序;u 设施和供应恢复(Facility and Supply Recovery) 确定备用设施的恢复规程,包括确定建筑、场地、安防、环境供电等配套设施、办公设备、家具、用品等;u 用户恢复(User Recovery) 确定人工操作规程及其相关的关键记录的管理、人员的通知、交通、饮食、住宿等相关事宜;u 技术恢
19、复(Technical Recovery) 确定数据中心和网络的恢复方法;u 数据恢复(Data Recovery) 确定关键软件、数据的备份、存储和恢复方法。不同层次的恢复策略。24恢复场所完备场所(hot site) 优点租用设施,几小时即可投入运行高度可用性常用于短期解决方案而非长期解决方案可以进行年度检查 缺点价格昂贵硬件和软件的选择有限 基本完备场所(warm site)和基础场所(cold site) 租用设施,只有部分设施 优点便宜成本较低,因此可以使用较长时间如果使用所有权硬件或者软件,更为实用 缺点不能立即投入使用不能进行年度运作测试不能立即获得运作所需的资源。25u 恢复时
20、间目标(Recovery Time Objectives,RTO )在系统的不可用性严重影响到机构之前所允许消耗的最长时间。u 恢复点目标(Recovery Point Objectives,RPO )数据必须被恢复以便继续进行处理的点。也就是所允许的最大数据损失量BCP策略的技术指标。26不同类型的恢复计划计划类型计划类型说说 明明业务恢复计划着重于恢复必须重建的业务流程而非IT组件(即面向流程而非面向措施)操 作 连 续 性 计 划(Continuity Of Operations Plan,COOP)在灾难发生后建立高级管理层和总部。说明角色和权威、继任顺序以及不同角色的任务IT应急计划
21、在破坏发生之后,用于网络、系统和主要的应用程序恢复过程的计划。每个主要的系统和应用程序都应分别制定一个应急计划紧急通信计划包括内部和外部通信结构和角色。确定与外部实体进行通信的具体人员,并包括写好的即将发布的声明网络事故响应计划主要关注恶意软件、黑客、入侵、攻击和其他安全问题。概述了事故响应程序灾难恢复计划重点说明在发生灾难后如何恢复各种IT机制。应急计划通常针对非灾难事故,而灾难恢复计划则针对需要将IT数据处理转移到另一处设施的灾难事故场所应急计划建立人员安全和撤离程序。27u 廉价磁盘冗余阵列(Redundant Arrays of Inexpensive Disks, RAID)使用三种
22、技术: 镜像(Mirroring),系统同时将数据写到两个分离的硬盘驱动器或驱动器阵列。 优点是减少停机时间、简化数据恢复和提高从磁盘读取的性能。缺点是磁盘写入较慢。 较验(Parity),确定数据是否丢失或被覆盖的技术。 优点是无需存储数据拷贝就可以保护数据。条纹(Striping),通过将数据分布到所有的驱动器来提高硬件阵列控制器的性能。条纹可以在字节或数据块级别进行。 u RAID的技术可以通过硬件也可以通过软件实现。u 热交换(Hot-Swappable)驱动器,在磁盘驱动器故障时无需关闭系统就可以交换磁盘驱动器。廉价磁盘冗余阵列。28u 防故障磁盘系统(Failure Resista
23、nt disk Systems,FRDSs) 能够防止因磁盘故障丢失数据;u 容错磁盘系统(Failure Tolerant disk Systems,FTDSs) 磁盘系统单一部件故障情况下仍能提供数据访问;u 容灾磁盘系统(Disaster Tolerant disk Systems,FTDSs)包含多套位于不同区域的组件,任何组件都可独立提供存储数据访问;RAID的新分类。29u 电子跳跃(Electronic vaulting)是在主站点通过电子方式向远程站点进行备份或取回备份。u 使用宽带通信链路进行的电子跳跃可以使系统备份更加自动化、减少了人力消耗、节省了时间、提高了效率并降低了成
24、本。u 电子跳跃可以实现交易信息的实时备份,提高了系统的可用性。u 电子跳跃站点的位置可以是机构自己的备份站点,也可以是商业备份站点或互惠站点。电子跳跃。30u 远程日记(Remote Journal),将事务(特别是数据库)处理的明细记录通过电子的方式传输到远程设施的存储设备中。u 如果需要对服务器进行恢复,可以通过电子的方式从远程设施中取回所存储的明细记录来恢复交易、应用或数据库数据。u 远程日记可以通过批处理进行也可以使用缓存软件不间断地进行。 u 远程日记缩短了恢复时间并且减少了两次传统备份之间服务器遭到损害时的数据损。 远程日记。31u 同步复制也被称为镜像复制(Mirroring)
25、u 主服务器的变化被同时添加到复制服务器u RTO可减小到几个小时,RPO可被减少为未提交工作的损失。u 会降低主服务器的性能,带宽要求高u 适用于可用性要求很高的应用。磁盘复制-同步复制。32u 异步复制也被称为投影复制(Shadowing)u 不断地获取主服务器的日志变化并将此变化添加到复制服务器u RTO在数小时和一天之间。RPO是映像服务器接收的最后数据u 对主服务器的性能影响小,带宽要求低u 适用于小带宽长距离的网络磁盘复制-异步复制。33u通过负载均衡(Load Balance),流量可以被动态分配到一组运行相同应用程序的多个服务器上。 u负载均衡既可以提高整个系统的性能,又可以在
26、服务器出现故障时将该服务器承担的服务分配到运行中的服务器执行。u在不同站点的服务器之间进行的负载均衡还可以在某一站点无法提供服务时将该站点承担的服务分配到运行中的站点执行。负载均衡。34u 热站点(Hot Site)u 冷站点(Cold Site) u 温站点(Warm Site) u 移动站点(Mobile Site)u 冗余站点(Redundant site)u 互惠协议(Reciprocal/mutual agreement)u 多处理中心(Multiple Processing Centers)u 服务中心(Service Bureaus)备用设施的类型。35u 热站点,是满足系统需求
27、、规模适当的办公场所,其中配置了所需的基础设施、服务、系统硬件、软件、实时数据和支持人员,通常24小时有人值守。接到应急计划启动通知时只需要进行适当的路由转换和通知就可以提供主站点的关键应用服务。u 冷站点,通常具有充足空间和支持IT系统的基础设施和服务(电源、电信连接和环境控制),站点不包含IT设备并且通常也不包含办公自动化设备如电话、传真机或复印机。热站和冷站。36u 温站点,介于热站点和冷站点之间,依据恢复策略需求和投入限制配置部分IT资源,不包含实时数据,运行主站点应用之前需要进行部分设备或软件安装,数据上载工作。u 移动站点,是内部配置适当电信装备和IT设备的可移动拖车,可以被机动拖
28、放和安置在所需的备用场所,提供关键的应用服务,如电话交换功能等。温站和移动站。37u 冗余站点,也被称为镜像站点,是具有完整和实时信息镜像的完全的冗余设施。镜像站点与主站点在所有的技术层面上都是一致的。由于在主站点和备用站点同时处理和存储数据所以这些站点提供了最高的可用性。u 互惠协议,两个或多个在IT配置和备份技术上相似或相同的机构签订正式协议互相做为对方的备用站点,或者联合租用一个备用站点。因为在发生灾难事件期间,每一个站点必须能够在承担自己的工作负荷之外支持其它站点,所以达成互惠协议时必须谨慎从事。冗余站点和互惠协议。38u 多处理中心就是将处理任务分布到一个机构的多个不同的兼容数据处理
29、中心,由这些中心分担处理工作,当某个中心发生灾难时,其它中心可以接替该中心处理的工作。这种方式需要处理中心维护比正常需要高出较多的处理能力,并且要确保各处理中心软件版本和数据的同步;u 服务中心为多个机构提供数据处理服务,可以为客户提供灾难恢复期间的数据处理服务。服务中心如果为用户预留额外的处理能力,其成本也是很高的,所以提供灾难恢复服务的处理中心并不多。多处理中心和服务中心。39u 支持信息(SUPPORTING INFORMATION)u 通知启动阶段 (NOTIFICATION/ACTIVATION PHASE)u 恢复阶段 (RECOVERY PHASE)u 重建阶段 (RECONST
30、ITUTION PHASE)u 计划的附录 应急计划的内容。40u 目的(Purpose),阐述制定计划的原因和目标。 u 适用性(Applicability),作用范围以及与其它计划的关系。 u 范围(Scope),设定启用计划的条件。 u 参考需求(References/Requirements),描述制定计划的背景和法规需求。u 变化记录(Record of Changes),记录计划的变动情况。支持信息的介绍部分。41u 系统描述(System Description) ,对系统的体系结构和功能进行的一般性描述,包括运行环境、物理位置、用户位置以及外部关系如备份规程、安全控制、电信链接
31、等。u 继任序列(Line of Succession),定义负责人缺席的情况下的继任者,计划的最高负责人通常是机构的CIO。u 职责(Responsibilities),表述应急团队的整体结构以及每一个团队具体成员角色和职责。支持信息的运行概要部分。42u 应该描述在工作时间和非工作时间通知恢复人员的方法。 u 一种通用通知方法是呼叫树(Call Tree)。应该包括主要的和备用的联络方法,应该包括在某个人无法联系上时应该采取的规程。u 通知还应该发给会因为不知情而受到负面影响的外部机构或互联的伙伴系统。u 通知中所传递的信息类型应该在计划中载明。 通知/启动阶段的通知部分。43u 损害评估
32、(Damage Assessment)小组通常是第一个得到事件通知的小组。 u 应该在确保人员安全的前提下尽快完成。 u 在书面计划无法得到的情况下,具有损害评估职责的人员应该了解和能够执行这些规程。 u 损害评估应该涉及到紧急情况的原因、损失情况、影响范围、物理结构现状、IT设备的功能状态(可用、部分可用、完全丧失)、需更换的项目、预计恢复所需的时间等。u 一旦系统的影响被确定,就应该将最新信息和对此情况的响应计划通知给适当的团队。 通知/启动阶段的损害评估部分。44u 只有当损害评估的结果显示一个或多个系统启动条件被满足时,IT应急计划才应被启动(Activation)。 u 如果满足启动
33、条件,应急计划协调人或CIO(如果适用)应启动计划 。u 启动条件应该在应急计划策略条款中予以说明,可以根据人员安全、设施损失、 系统损失、受损系统的关键程度、预计的中断持续时间等确定。通知/启动阶段的计划启动部分。45u 恢复行动的顺序(Sequence of Recovery Activities) 行动的顺序应该反映出系统允许的中断时间,以避免对相关系统及其应用的重大影响。 u 恢复规程 (Recovery Procedures) 恢复规程应该按照直接和逐步的风格书写。 为了防止在紧急事件中产生困难或混乱,不能假定或忽略规程的步骤。 检查列表的形式有助于撰写顺序的恢复规程和在系统无法正常
34、恢复时解决问题。 恢复阶段。46u 恢复原站点 确保充足的基础设施支持,如电源、供水、电信、安全、环境控制、办公设备和用品 安装系统硬件、软件和固件。此行动应该包括与恢复阶段类似的详细恢复规程u 测试系统 测试系统运行以确保完全的功能性 备份应急系统中的运行数据并上载到被恢复系统中u 终止操作关闭应急系统、终止应急操作对应急站点的所有敏感材料加以保护、清除和或重新配置安排恢复人员回到原设施重建阶段。47u 应急计划团队成员的联络信息。u 供应商联络信息,包括离站存储和备用站点的POC(Point Of Contact)。u 系统恢复或处理的标准操作规程和检查列表。u 支持系统所需的硬件、软件、
35、固件和其它资源的设备和系统需求清单。每个条目应该包含详细内容,包括型号或版本号、规格说明和数量。u 供应商SLA、与其它机构的互惠协议和其它关键记录。u 备用站点的描述和说明。u BIA报告,包含系统各部分相互关系、风险、优先级别和影响的有价值的信息。BIA应该做为一个附录包含在计划中以便在启动计划时参考。计划的附录。48u 应该指定适当的团队来执行所选择的应急计划策略。除了计划的总协调人以外还可能包括: 高级管理人员 管理小组 损害评估小组 操作系统管理小组 系统软件小组 服务器恢复小组(如客户服务器、Web服务器) LAN/WAN恢复小组 数据库恢复小组 网络运行恢复小组 应用程序恢复小组
36、BCP团队组成。49 电信恢复小组 硬件拯救小组 备用站点恢复协调小组 原站点恢复拯救协调小组 测试小组 监管支持小组 运输布置小组 媒体公关小组 法律事务小组 物理人员安全小组 采购小组(设备和用品)BCP团队组成(续)。50u 应该根据其所具备的技能和知识将人员分配到这些团队中。 u 每一个团队都应该得到培训并时刻准备在中断事件发生需要启动计划时展开工作。u 小组应该具有充足的规模以便在某些成员缺席的情况下保持有效性,也可以指定预备小组成员。 u 继任序列计划 BCP团队组成(续)。51u 培训是应急团队有效执行应急计划的保证,培训内容应该包括: 计划的目的 团队之间的协调与沟通 汇报规程
37、 安全需求 团队特有的处理过程(通知启动、恢复和重建阶段) 个人职责(通知启动、恢复和重建阶段)u 培训应该至少一年进行一次,新员工上岗之前应该接受应急计划培训。u 培训最终应该使得他们能够无需实际文档的协助就能够执行相应的恢复规程。 BCP团队培训。52测试和审查计划对应急计划的测试有助于发现应急计划中存在的问题和缺陷,是对员工进行相关知识的培训和技能的演练的重要手段,测试的方式有: 检查列表(Checklist),将计划分发到各职能部门,每个部门对计划的要素进行逐一检查以确保计划涉及到了所有应该考虑的因素。 结构化检查(Structured Walk-Through),召集职能部门的代表检
38、查计划的细节,包括计划的每一个步骤和相关规程以确保其正确性。 模拟(Stimulation),在模拟中断场景下执行应急计划以检验所有运行和支持功能在各种中断情况下的响应能力。不涉及到备用站点的实际部署。 并行(Parallel),是对备用站点的实际运行测试,将关键系统部署到备用站点并且运行以检验其运行效果并与主站点的系统进行比较。 完全中断(Full Interruption),完全关闭正常运行的系统,使用离站存储的资源和应急团队在备用站点运行系统关键功能。53BCP计划测试(续) 其他类型的培训(Other Types of Training),除了灾难恢复培训之外,还应该就其他问题接受培训
39、 应急响应(Emergency Response),制定好的行动计划,用于帮助人们在危急情况下能够更好地应付遭到的破坏 应该制定测试计划,测试计划应设计为对所选择的测试要素有明确的测试目标和成功标准。 测试结果和学习到的经验应该记录到文档。在测试中和测试后检查中收集到的有助于提高计划效率的信息应该添加到应急计划中。 。54u 因为应急计划所涉及的各种因素如业务重心的转移、技术的发展、人员的变动都会影响到应急计划的效率和可行性,所以应急计划应该根据这些因素的变化进行更新。u 对应急计划的测试可以发现应急计划中的错误和缺陷以便对应急计划进行必要的修改。不同机构根据其特点可采取不同的更新频率,但是应
40、急计划一年至少应该进行一次测试和调整,在所涉及的因素发生重大变化时应随时更新。u 应急计划的更新和修改应该纳入更改管理(change management)系统中进行。BCP计划更新。55维护计划。56维护计划 原因 业务连续性过程没有整合入变更管理过程 基础架构和环境发生变化 公司进行重组、裁员或合并 硬件、软件和应用程序发生变化 制定计划后,人们认为没有必要再做其他的工作 人员发生更换 大型计划要进行许多维护工作 计划并不直接带来利润 方法 使业务连续性成为每个业务决策的一部分 将维护责任整合入职位描述 将维护工作表现包含在个人评估中 执行包括灾难恢复、连续性文档与措施的内部审计 进行应用
41、计划的常规演习 将BCP整合入当前的变更管理过程。57练习 To get managements support and approval of the plan, a business case must be made. Which of the following is least important to this business case? Regulatory and legal requirements Company vulnerabilities to disasters and disruptions How other companies are dealing wit
42、h these issues The impact the company can endure if a disaster hit 要获得管理层的支持和批准的计划,一个商业案例是必须的。下列哪一项是最重要的是这个业务案例吗? 监管和法律要求 公司的脆弱性灾害和中断 其他公司是如何处理这些问题 该公司的影响可以忍受,如果一个灾区。58练习 What should be done first when the original facility becomes operational again following a disaster? Inform the media and stockho
43、lders Inform all of the employees Move the most critical functions to the original facility Move the least critical functions to the original facility 当原有设施开始运作后再次灾难,应先进行? 通知媒体和股东 通知所有的员工 最关键的功能移动到原来的设施 将原有设施的关键功能。59练习 Software escrow involves _ parties Two Three Four Five 软件中介服务涉及_各方 二 三 四 五。60练习 R
44、ecovery strategies are pre-established and management _ steps that should be put into action in the event of a disaster Approved Directed Requested Documented 恢复策略是预先建立和管理_步骤应该付诸行动,在灾难发生时的 批准 指挥 要求 文件。61练习 Critical support areas are defined as Business units or functions that must be present to sust
45、ain continuity of business, maintain life safety, and avoid public embarrassment Business units or functions that may be replaced by others in a disaster situation Human resource and information technologies Business units or functions that require support against manmade disasters 关键支撑区域被定义为 业务单位或职能,它必须存在,以维持业务的连续性,保持生命安全,并避免公众的尴尬 在灾难情况下,可能会被别人取代的业务单位或职能 人力资源和信息技术 业务单位或需要支持的功能,对人为灾害。62