1、业务连续性管理业务连续性管理目录业务连续性管理体系(业务连续性管理体系(BCMS)标准介绍)标准介绍业务连续性管理体系对医疗信息化的重要性业务连续性管理体系对医疗信息化的重要性医院信息系统业务连续性应用实例医院信息系统业务连续性应用实例21 业务连续性管理的标准:GB/T 30146 / ISO22301:2012. BSI(英国标准协会)在2007年正式发布了业务连续性管理的标准BS25999,目的就是使业务连续性管理有章可循。作为一套整体的管理标准和管理流程,BS25999标准协助企业进行业务冲击分析及风险分析,并将其量化,继而开发制定各种相应应急及恢复计划、方法和流程,减轻灾难事件对企业
2、造成的不利影响。. 2012年9月ISO 22301“业务连续性管理体系”正式取代BS25999, ISO22301管理体系框架能够帮助企业制定一套一体化的管理流程计划,使企业对潜在的灾难加以辨别分析,帮助其确定可能发生的冲击对企业运作造成的威胁,并提供一个有效的管理机制来阻止或抵消这些威胁,减少灾难事件给企业带来损失。. ISO 22301拥有更高的国际认可度,它强调制定目标、监测表现和指标、对企业管理层提出了更加清晰的期望值,对业务连续性计划的制定提出了更高的要求. 2013年12月对ISO22301进行翻译,公共安全业务连续性管理体系要求(GB/T 30146)国家标准正式发布31.1
3、BS 25999-2 VS ISO2230141.2 ISO 22301的目标允许组织机构“保护、降低发生安全事件的可能性,并通过BCMS,准备、应对及恢复破坏性事件所造成的影响。1. ISO 22301描述的是“应遵守的条款”而不是“应该具体怎样去做”2. ISO 22301是一个指导标准,用来调整需求并提供建议(“应该”)及准许(“可以”),组织机构能够借鉴并有效地实施BCM51.3 业务连续性管理系统(BCMS)之戴明循环(PDCA)创建(计划)有利益关系有利益关系的各方的各方有利益关系有利益关系的各方的各方维护与改进(措施)实施与运行(实施)业务连续性管理系统业务连续性管理系统(BCM
4、S)的持续改进)的持续改进业务连续性业务连续性管理的需求管理的需求业务连续性业务连续性管理管理监控与审查(检测)61.4 业务连续性管理体系标准主要内容1、组织环境2、领导力3、策划4、支持5、实施6、绩效评估7、改进71.4.1 组织环境在建立、实施和保持组织的业务连续性体系时,应明确与其目标相关且影响业务连续性体系最终效果的内外部因素。包括以下方面:1. 组织机构的活动、职能、服务、产品、伙伴关系、供应链、与各方的关系及突发性事件潜在的因素2. 业务连续性策略与组织机构目标及其他策略之间的关系,包括所有风险管理策略3. 组织机构的风险的接受程度4. 利益相关方的需求和期待5. 涉及的律法、
5、法规及其他要求81.4.2 领导力最高管理者应在业务连续性方面体现领导力:1. 确认业务连续性目标与组织机构的目标方向一致,并确保其达成预期效果2. 为业务连续性管理提供必要的资源3. 建立并维系业务连续性的策略4. 制定业务连续性管理的目标和执行计划5. 将业务连续性的需求整合到业务系统中6. 指导并支持持续性改进7. 确保相关角色的授权,责任到位91.4.3 策划将业务连续性策略目标与指导原则整合在一起,形成业务连续性管理目标。该目标是组织机构意图的表达,主要反映风险威胁和组织机构需求。1. 考虑组织为实现目标所能接受的产品和服务的最低级别2. 可以量化和测量3. 考虑适用的要求4. 进行
6、监视和适当的更新101.4.4 支持. 对每个任务有效资源的合理应用 核心人员的相关培训、服务支持、认知和沟通. 内部和外部的交流在这一领域必须被认真考虑,包括格式、内容和时间. 对创建、更新、管控信息记录的要求也要在该条款中有明确的规定111.4.5 实施在BCMS的计划制定好后,组织机构必须付诸行动。主要包括:1. 业务所受影响的分析 (BIA): 允许组织机构认清那些为核心产品及服务提供支持的重要程序,该程序和资源上的需求必须最低限度的满足其使用要求。2. 风险评估: ISO 22301 建议参考ISO 31000中的标准来实施该程序。该要求的主要目标是创建、实施、维护一份正式被记录的风
7、险评估过程,可系统化的识别、分析及审核具有破坏性的事件。3. 业务连续性策略: 在BIA和风险评估创建完成后,应该制定相关的策略,根据组织机构的风险承受能力和规定的恢复时间点来保护及恢复关键的活动。过往的经验和正确的运用已经充分表明,一个早期全面的BCM策略能够保证BCM的活动不仅能为整个组织机构提供支持,还能与整个组织机构的运营策略相辅相成。业务连续性策略应该是整个企业策略的一个组成部分。121.4.5 实施4. 业务连续性的过程:组织机构应该详细记录下运行的过程,保证活动的连续性及对破坏性事件的管理。该过程必须: 建立一个适当的内外部通信协议 详细描述在中断期间采用的紧急步骤 灵活应对突发
8、的威胁及不断变化的内外部环境 关注可能对业务造成负面影响的事件 基于既定的假设和依赖关系的分析 通过实施减少步骤,有效降低负面影响5. 试运行及测试: 应保证业务的连续性流程是与业务连续性目标相一致的,组织机构必须定期对他们进行测试。试运行及测试是验证业务连续性计划和程序的必要过程,以此保证所选策略是能够在时限内及时的做出响应,并恢复结果。131.4.6 绩效评估只要BCMS被正式实施,就需要对系统进行永久的监控,甚至定期的审查,以此来提高业务质量:1. 监控是否能够满足组织机构业务连续性的相关政策、目标及指标2. 审核业务过程和功能中的表现,以对重要的活动提供保障3. 监控是否遵守了这一标准
9、和业务连续性的目标4. 按照计划规定的时间间隔对有问题的BCMS的表现给予监控,进而进行内部审查5. 按照计划规定的时间间隔在管理审查中评测所有的指标141.4.7 改进在所有步骤实施完成后,持续改进的计划必须到位,这有助于加强在控制处理过程中的安全性,进而使组织机构的利益最大化。一个组织机构可以不断的改进业务连续性的政策、目标、审核结果、事件监控分析、纠正与预防措施及审核管理。15目录业务连续性管理体系(业务连续性管理体系(BCMS)标准介绍)标准介绍业务连续性管理体系对医疗信息化的重要性业务连续性管理体系对医疗信息化的重要性医院信息系统业务连续性应用实例医院信息系统业务连续性应用实例162
10、.1 医院业务连续性管理的动力2015年ISO 22301实施动力的调查172.2 医院业务连续性管理后勤保障信息系统保障保障医疗活动的正供应保障设备保障常开展人员保障治安保障为患者提供不间断的服务,保障医疗活动有序进行182.3 医院信息系统业务连续性管理的重要性.医院信息系统已经成为支撑现代化医院运营的重要手段,一旦出现故障,会直接影响医院业务的正常开展,导致医院业务停滞,对社会秩序和公共利益造成严重损害。192.4 医院信息系统的组织环境外部环境 患者 医保、农合 等级保护标准 .内部环境 现代化医院运营 医护等工作人员 数据分析、应用 202.4.1 患者对就医流程连续性的要求.直接影
11、响患者就医感受,影响患者满意度.医院中以HIS、电子病历为代表的与患者直接关联的系统,普及率已超过90%,三级医院接近100%挂号系统重要性堪比金融缴费行业,“银行系统宕机,老百姓不能取钱;医院系统宕机,老百姓不能看病”发药预约患者处方、检查候诊自助设备移动端212.4.2 医保即时报销的连续性要求.医保实时结算的实现,大幅缩短了患者的报销时间,若系统连接中断,患者报销的周期平均将延长2-3天,窗口现金支付时需缴纳的金额提升1倍以上。.目前,我国城镇职工医保、城镇居民医保和新农合三项医保制度并存,城乡居民总参保率维持在95%,多数省市实现即时报销.目前多省试点异地结算222.4.3 信息安全等
12、级保护的要求等保三级的定级标准:会对社会秩序和公共利益造成严重损害等保三级的定级标准:会对社会秩序和公共利益造成严重损害备份与恢复策略业务中断处置办法信息安全等级保护标准提出的要求应急预案的管理数据的完整性232.4.4 现代化医院的正常运营已经离不开系统.信息系统已经覆盖了医院全部的业务,三级医院系统宕机20分钟就会出现大厅人满为患的情况.近3年,仅新闻报道的医院系统瘫痪事件近20次,医保系统瘫痪5次HIS系统电子病历系统LIS系统95.68%96.41%87.15%88.91%电子医嘱系统PACS系统80.75%2016年度,二级以上医院信息化基础调研(共310家,三级108家、二级202
13、)242.4.5 医护人员对信息系统的依赖程度越来越高.随着系统的高度集成,医护人员已经依赖系统完成患者信息的获取工作,一旦系统中断,将直接影响准确的医疗判断典型医院集成内容252.4.6 大数据业务应用的要求.大数据时代数据对数据的价值进行了重新定义,业务连续性直接影响了数据质量中的完整性、及时性,在分布式系统中还将影响一致性和准确性完整性数据质一致性准确性量及时性26目录业务连续性管理体系(业务连续性管理体系(BCMS)标准介绍)标准介绍业务连续性管理体系对医疗信息化的重要性业务连续性管理体系对医疗信息化的重要性医院信息系统业务连续性应用实例医院信息系统业务连续性应用实例273 医院信息系
14、统业务连续性应用实例组织高可用架构技术管理集中监控灾难恢复运维管理策略执行283.1.1 组织架构. 建立组织:成立由主管院长任组长,信息中心、门诊、急诊、医务处、收费处、药房、医保、党政办公室、保卫处等多部门组长的业务连续性管理小组。. 确定重点保护目标:HIS、电子病历. 确定重点保护区域:门急诊. 管理保障:策略制定、运维团队管理(ITIL)、第三方厂商支持. 技术保障:高可用性、灾难恢复、集中监控主管院长业务恢复医政管理患者服务解释口径治安管理信息中心门诊部收费处党政办公室保卫处急诊部医务处药房医保293.1.2 领导力的实现确定业务连续性管理目标 与业务相关者达成共识提供资源支持 人
15、、财、物明确职责与任务 明确在信息系统业务中断时各业务部门的职责与任务,最大程度保障医疗业务的有序开展考核实现效果 运维考核 应急演练考核303.1.3 信息系统业务连续性的支持1、组织信息中心技术人员进行培训,熟练掌握各种设备操作流程和技能2、通过ITIL等规范流程管理,保障所有发生的事件、事故进行记录3、建立内外沟通机制,引入外部保障力量4、储备必要的技术,应对各类突发事件313.2.1 策略制定-业务所受影响的分析医疗质量的下降医疗质量的下降 患者基本情况,既往诊疗情况缺失 临床决策、知识库等系统无法提供服务医院运营中断医院运营中断 窗口、自助信息系统中断,手工效率大幅下降,患者积压严重
16、影响患者感受严重影响患者感受 患者就诊时间变长,甚至无法完成就诊流程影响数据的完整性影响数据的完整性 部分数据丢失,影响临床数据分析,影响财务报表323.2.2 策略制定-风险评估资产识别资产价值安全事件造成的损失脆弱性识别脆弱性的严重程度风险安全事件的可能性威胁识别威胁出现的频率风险 分 析中要涉及资产、威胁、脆弱性三个基本要素。资产的属性是资产价值;威胁的属性可以是威胁主体、影响对象、出现频率、动机等;脆弱性的属性是资产弱点的严重程度根据系统的资产价值、脆弱性与威胁计算出风险等级333.2.3 策略制定-业务连续性策略流程业务连续性优先级管理明确策略业务影响分析总结报告流程规划需求分析信息
17、收集343.2.4 策略制定-业务连续性管理策略. 范围:HIS与电子病历系统. 资源:机房、网络设备、服务器、数据库系统. 服务:网络应急服务、安全应急服务、数据库应急服务. 目标:门急诊业务 RTO=15分钟 ,RPO=5分钟恢复点目标 (RPO) Recovery Point Objective:灾难发生后,系统和数据必须恢复到的时间点要求,代表了当灾难发生时允许丢失的数据量恢复时间目标 (RTO) Recovery Time Objective:恢复业务所需的最长时间353.3.1 运维管理-背景 遗漏 流程缺失 备份错误 /不安全操作 未测试程序 变更异常 系统过载运维应用程序错误4
18、0%操作错误40%其他20% 硬件/平台 网络故障 电力、灾难事故Gartner对宕机原因分析.80的IT意外故障时间由人员和流程造成的;.60多的时间用于解决重复的“琐事”上。363.3.2 运维管理-流程控制373.3.3 运维管理-人员管理 运维人员的管理 第三方厂商人员的管理 人员培训 授权管理 记录操作 行为审计堡垒主机人为误操作导致系统中断占比为40%383.3.4 运维管理-应急处置阜外医院信息安全应急处置阜外医院信息安全应急处置应急预案:值班值守: 建立专项应急处置预案 定期实施应急演练 门诊应急演练和整改 重大事件和节日间应急值守 突发上报 日常值班计划 信息安全建设规划 机
19、房安全制度保障 日常信息安全事件监控 建立突发事件上报机制应急资源: 建立应急工作专项资金 关键设备备件、备机备份恢复: 核心网络与系统备份 定期进行备份恢复演练应急队伍 领导小组 应急总指挥 各专业组分工合作 合作厂商单位 与应急合作单位签订保密 异地灾备建设协议393.4.1 高可用-系统建设框架403.4.2 高可用-物理机房高可用方案机房供电机房空调线路冗余环境监控 模块化UPS冗余供电 4台行间送风精密空调轮流值守、冗余互备 全冗余光纤接入 24小时监控录像 门禁进出监控漏水监控 服务器接入线路全冗余 双路市电输入 医院柴油发电机备温湿度监控电413.4.3 高可用-网络冗余设计.
20、硬件设备:涉及到关键业务的地方均采用了双机方案,核心服务器、核心交换机、存储等重要设备均使用了双机热备方案。. 光纤冗余:核心机房到各个设备间、各分部使用不同路由的双光纤. 无线应急:部署了无线应急网络,在有线网络出现故障时可以切换到无线网络;在核心机房与新门诊楼之间架设了大功率室外无线互联设备,可以在光纤故障时,切换到无线网络。423.4.4 高可用-虚拟化实现高可用性 每台服务器4路网线、2路存储FC光纤上联,任何一路中断不影响业务正常运行 可实现服务器在线漂移,在业务不中断的前提下实现虚拟机迁移 一台服务器发生故障,上面的虚拟机自动迁移至其他服务器,相当于虚拟机进行了一次重启433.4.
21、5 高可用-数据库高可用方案. 核心数据库使用Oracle RAC技术。. 两台服务器负载均衡,每台服务器分别向两套存储中写数据,任意一台服务器或任意一套存储故障不影响业务运行。. 部署Oracle-Dataguard服务器,与主服务器实时同步数据。. 三份数据实时在线。. RAC双机切换客户端无感知。. Dataguard切换时间10分钟。高可用切换无感知本地灾备10分钟切换异地灾备数据保护443.5.1 灾难恢复体系的建设. 影响应用系统可用性的灾难类型 自然灾难 长时间大范围的计划内停机 人为操作失误. 灾难影响对象分类 影响数据,逻辑灾难 影响人员 影响设施、设备. 灾难影响范围 影响
22、单一科室 影响整个楼宇 影响整个医院453.5.2 系统的高可用性与灾难恢复的关系系统高可用考虑方向系统高可用考虑方向通常考虑局部范围系统灾难恢复考虑方向系统灾难恢复考虑方向通常是广域的一般没有数据丢失不能100%避免数据丢失至少几个小时以上恢复时间在10分-30小时内自动完成恢复手工控制,自动实现应对频繁发生的外界干扰应对几年、几十年一遇的事件463.5.3 信息系统的灾难恢复目标 最快恢复正常服务 尽量减少对业务的不利影响 确保最可能的服务级别的质量,维护SLA条款的有效性自主研发单机版系统,即使在网络瘫痪、数据库宕机的情况下,可将计算机上的信息系统切换到单机版程序,保证业务的正常运转,保
23、障基本的医疗流程可顺利开展,在事故修复后进行数据修复。473.5.4 自然灾难的数据恢复目标 尽快将业务切换到灾备中心 减少数据的丢失量 通过备份数据可进行有效还原院内不同楼宇配备容灾机房配备40公里异地备份机房定期利用备份数据进行还原验证483.6.1 集中监控告警系统机房硬件服务器记录运行数据发现异常告警监控系统告警平台交换机应用系统数据链路493.6.2 集中告警平台-机房监控机房告警规则: 温湿度:冷通道、电池间、楼宇设备间内温度超过30 空调:掉电、压缩机故障、风机故障、上下水异常等 UPS:市电掉电、UPS模块故障灯 配电:主备电力切换 门禁:门打开时间超过1分钟后循环报警,直至门
24、关闭 漏水:漏水线沾水 红外:工作时间外有人进入机房503.6.3 集中告警平台-链路监控. 链路冗余技术目前非常完善,当一路中断后业务系统完全无感知,如不配合适当的监控手段,无法察觉业务中断。. 利用监控软件对每条链路进行自动探测(频率60秒),发现一路中断后立即通过微信报告管理员进行处理。513.6.4 集中告警平台-硬件性能监控. 当业务压力增加或遭遇系统BUG时,交换机、服务器的CPU、内存等会随着使用时间逐渐增高,如未及时发现将会影响业务的正常运转。. 为每台设备设定告警阈值,达到阈值则立即通过微信发送给管理员,便于在事件成为事故前妥善处理。523.6.5 集中告警平台-运行服务监控. 模拟实际用户操作监控服务器上所运行服务的状态是否正常. 监控各服务的响应时间. 当服务状态不可用,或响应时间超过阈值后给管理员发送微信进行告警533.7 医院信息系统业务连续性评估与改进信息中心业务连续性按照变更方案执行变更,不断完善技术评估小组每周对现运行系统进行评估,按照ITIL流程,进行记录、分析、改进实施 评估改进根据评估结果,如需要进行策略或程序变更则进入ITIL流程进行变更54感谢您的聆听!