1、机房应急预案机房应急预案合集15篇在现实的学习、工作、生活中,有时会出现一些意料之外的事件或事故,为了减小事故造成的危害,通常会被要求事先编制应急预案。那么优秀的应急预案是什么样的呢?以下是店铺精心整理的机房应急预案,欢迎大家分享。机房应急预案1机房是我单位的重要场所,重要仪器、设备相对集中,一旦发生事故,会造成严重后果 。为此特制定本应急预案。一、触电(1) 一旦发生触电事故,应迅速安全切断电源,切忌直接接触触电者。(2) 即刻拨打紧急电话120并通知相关领导,同时开展现场应急救护 。二、火灾1、报警程序:即刻通知领导及相关部门,根据火情大小如需报警立即就近用电话或手机报告消防中心(电话11
2、9).。2、组织实施:机房管理员一旦发现火情后,应即刻切断电源,并使用灭火器扑救起火设备。三、空调漏水若空调系统出现渗漏水,应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时临时用电扇进行降温。四、设备发生被盗或人为损害事件( 1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告中心负责人,同时保护好现场。( 2)中心负责人接报后,通知保卫处,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。( 3)当事人应当积极配合公安部门进行调查, 并将有关情况向领导汇报。五、机房停电(1)接到长时间停电通知后,应及时发布相关信息,部署应对具体
3、措施。(2)如遇临时停电,且停电时间在3小时之内,管理员要检查UPS是否正常工作,以确保机房设备的正常运行。六、网络故障(1)发生通信线路中断、路由故障、流量异常等故障后,网络管理员应及时查清通信网络故障位置,隔离故障区域,组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。(2) 事态或后果严重的,应及时报告领导并请求协助解决。七、不良信息和病毒事件(1)发现不良信息或网络病毒时,管理员应立即断开网线,终止不良信息或网络病毒传播,并报告。(2)中心负责技术人员应采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。(3)事态或后果严重的,应及
4、时报告相关领导以及相关部门。八、服务器软件系统故障(1)发生服务器软件系统故障后,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;(2)若重启失败,应立即安排备份服务器启用,并请求技术人员支援,作好技术处理。九、注意事项:第一、机房管理员要加强日常监控,及时处理、消除及上报安全隐患。第二、备齐安全相关装备。第三、及时做好备份。机房应急预案2核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明
5、确、反应迅速、处置有力的机房安全保障机制。组织架构:责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。机房电源系统说明:1、机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。2、机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。3、机房现有两台60KVA-UPS电源,均处于正常运行状态。4、机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。5、运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。一、核心机房
6、电源中断预案1、在接到停电通知的情况下:1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。3)计划停电时间开始后,马上启动应急发电操作,按照机房发电
7、操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。2、在没有接到任何通知,突然发生停电的情况下:确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。1)值班网管工作流程:值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备
8、的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。2)运维部应急工作流程:运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。3)运营质量管理应急工作流程:调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急
9、成员,并电话通知各应急小组组长是否知悉。进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。4)工维部应急工作流程:机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维
10、护中心上报信息。工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。5)应急机房发电操作流程:机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。发电前考
11、虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。启动发电机,检测发电输出电流通断,待发电机运行稳定后。第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。第三步启动客服系统的市电输入开关,包括(客服坐席电脑
12、、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。6)停电过程中突发事项预防:网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电
13、中断时UPS是否已经开始进行供电保护。值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。发现机房环境温度大于26。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延
14、长关键设备运行时间。机房应急预案3沙沟中学实施营养午餐突发断水断电等意外事故处理应急预案水、电是实施营养午餐改善计划学校食堂正常供餐必备的最基本的条件,是食品安全工作的重要组成部分,也是保障师生正常生活的重要基础。断水断电等意外事故在学校时有发生,为进一步加强学校食堂水、电等设施的管理,保障学校断水断电等意外事故发生时能正常为学生提供图纸等的营养午餐,维护学校正常的教育教学秩序,特制定本预案一、组织机构(一)成立学校突发断水断电等意外事故应急成立领导小组。组长:王鹏程副组长:马紅治马志锐组员:马强吕宗仁王继祖陆岩马万喜各班主任指挥部的工作职责是:(1)启动学校断水断电等意外事故处理应急预案。(
15、2)领导、组织、协调事故应急处理工作。(3)负责事故处理事项的决策。(4)负责上报与事故相关的重要信息。(5)审批学校应急处理工作报告。二、常规管理(一)、学校组织相关人员定期和吧不定期深入学校对学校可能断水断电等意外事件的隐患,即使做查漏补缺,做到早发现、早报告、早治理,不能因为人为因素断水断电而停止正常营养午餐。(二)、学校要与当地政府、水保站、农电站等相关部门保持联系,协调学校的用水和用电工作。(三)、用水紧张或缺水学校,要想办法做好学校用水的储蓄工作,并邀请相关部门对学校用水质量检测,确保水质量好,无安全隐患。(四)、做好学校食堂用电设施的改造工程,指定专人经常对学校食堂用电设施进行检
16、修,维护。(五)、对却因客观原因二造成的断水断电等意外事故时应立即启动该预案。三、建立报告机制1、对学校发生临时断水断电等意外事故是学校不能对学生实施午餐时,学校从业人员向管理人员报告,管理人员向校长报告,校长协调有关人员检查检修,对于用电设施必须有专业人员进行检修,确保短时间内供水供电。2、对学校发生长时断水断电等意外事故时,学校从业人员向管理人员报告,有管理人员检查检修,同时上报县意外事故应急处理协调领导小组。四、事件处理1、各级领导小组负责人接到报告后,及时组织相关人员赶赴学校开展事故处理工作2、学校应及时对学生做好解释说明工作,同时采取科学合理的办法通过各种途径解决学生营养午餐3、学校
17、迅速与家长取得联系,通过告示等形式给家长做好解释工作,去的家长的谅解,保证广大师生及家长在事故发生和过程中的知情权,严防事态扩大给学校教育工作造成不良影响。4、协调各方面力量做好学校稳定工作,保障学校正常的教育教学秩序5、学校要及早购置手摇鼓风机等应急设备,在学校断电时能立即启用。6、主动和有关部门联系,及时购买等价等值、卫生、营养、可口的熟食品,如牛奶、面包等,及时为学生供应午餐。7、断水断电事故处理结束,要认真总结分析事故发生原因,提出改进意见,完成处置总结报告,报送县营养办。五、责任追究对断水断电突发公共事件的应急处置工作中实行领导责任制和责任追究。对有突出表现的个人予以鼓励和表彰;对负
18、有直接责任个人依据有关法规和规定给予行政处分;对处理不当,贻误时机,造成恶劣影响的直接责任人,要严肃追究责任。六、本预案由学校突发断水断电等意外事故一见处理工作领导小组负责解释。机房应急预案4第一条 机房内禁止明火禁止吸烟,机房内的所有设备需要定期维护并做巡检记录、根据机房实际情况进行清扫工作。第二条 机房网络设备维护由网络管理员进行,如发现机器故障应及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公司上门或将机器送供应公司维修;第三条 酒店员工必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无关的工作;第四条 做好防火、防雨、防湿
19、、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求。第五条 机房内的交换机和服务器系酒店运营的关键设备,任何人不得自行配置或更改其系统参数。第六条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。第七条 应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地和异地分别备份保存。第八条 为了确保本酒店网络正常运行,每日对机房内的设备进行巡视,主要着重于服务器及网络设备运行正常与否。1、对机房里的温度进行调节,如室内温度过高,调节空调对机房进行有效的通风。2、查看交换机与防火墙及接入设备的
20、工作状态,如发生异常,对其进行及时有效的维护。3、监测网络运行状况。第九条 除本酒店网络管理员外,公司其他人员因工作需要进入机房的,需网络管理员陪同下进入机房。第十条 严禁带外单位人员或无关人员进入机房,确因工作需要,如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机房,必须由网络管理员陪同进入,配合项目的.实施。第十一条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安第十二条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。第十三条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。第十四条 严禁擅自切
21、断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断网通知,最后方可实施。第十五条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。机房应急预案5第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的时间,并通知直接上级。第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的电源停电
22、准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的.冲击。第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。第七条:电力室恢复供电后,先不要急于给电源柜加电,等待1020分钟后,再开始给电源柜加
23、电,以防止供电不稳或再次掉电。第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。机房应急预案6机房消防应急预案为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,特制订本预案,请各成员认真学习,熟悉应急处置程序
24、,提高全员的应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少损失。起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火等原因。预案一:当闻到烧焦气味时当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。预案二:当班时发现起火或冒出浓烟由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患
25、,酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处置办法:一是指定专人立即拔打“119”火警电话报警和向上级保卫部门报告,并向本部门和周围的人及群众喊叫报警;二是组织本单位、部门在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等器材灭火,不能消极等待消防队到来,而错过灭火良机,力求将火扑灭或控制火势蔓延,不能只顾个人安危而逃离火场三是大声呼喊请求邻近单位及群众的支援。四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别昌易燃、易爆物品和易受到火舌威胁
26、的现金、重要凭证要及时转移到安全地点,并派人员守护,确保安全。五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查分析火灾原因。注意事项:报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种类和火势大小,报警后即到街道或十字路口迎接、引导消防车辆的到来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑救火灾。机房应急预案7中心机房突发事件应急预案第一条机房突发事件包括网络设备或服务器故障、自然灾害(水
27、、火、电等)造成的物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下:1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强所有人员防火、防盗等基本技能培训。2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。第二条机房漏水应急预案如下:1.发生机房漏水时,第一目击者应立即通知机房管理人员。2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服
28、务器进行降温。3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。第三条机房火灾应急预案如下:1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集
29、中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。第四条雷击事故应急预案如下:1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算机网络工作。2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告领导。第五条设备防盗被盗或人为损害应急预案如下:1.机房管理人员每日查看、清点设备并锁好机房大门。2.机
30、房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。第六条机房停电应急预案如下:1.接到停电通知后,机房管理人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,U
31、PS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。第七条通信网络故障应急预案如下:1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。第八条服务器故障应急预案如下:1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘
32、。第九条1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。机房应急预案81.主机和运维管理制度简介超级计算机是功能最强、运算速度最快、存储容量最大的一类计算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工
33、程之一,国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光4000A超级计算机系统并投入商业化运行。上海超级计算中心自20xx年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一台高性能计算机-神威-I超级计算机系统的同时,建立了机房应急预案、运行记录、设备运行参数等基础运维制度,在二期引进曙光4000A超级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特点编写了大量操作方法和应急预案。中心自20xx年获得ISO2700
34、1(BS7799)信息安全认证以来,技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。正是这些运维管理制度的不断完善和有效执行,才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保障重点项目、用户服务的连续性。2.应急预案重要性上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类。应急预案在应急系统中起着关键作用,它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在
35、应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急预案在这四类运维管理文档中处于最为重要的地位。3.应急预案分类应急预案按重要性和事件种类,可以划分为消防预案、断电预案、空调预案、其他预案共4种,预案各文档之间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在事件处置完成后,能快速恢复高性能计算服务。3.1消防预案消防预案是主机房最重要的应急预案。该类预案根据上海超级计算中心灭火和应急疏散预案的原则并结合主机房主机
36、设备和消防设备的运行特性而制定。主要由主机房消防应急预案和主机房气体喷淋消防系统启动撤离及处置应急预案 2个文档组成。消防应急预案:该预案着重规范了火警事件发生后,所有主机维护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,同时配合中心物业人员处置,降低事件带来的影响。对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;当主机房发生火灾而无法控制,应采取施救方法等措施。气体喷淋预案:该预案描述主机房气体喷淋系统启动的响应和确认并具体规定了撤离机房路线、善后处置。这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理
37、与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。3.2断电预案断电预案的重要性仅次于消防预案。该类预案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由主机房断电应急预案、曙光4000A超级计算机系统紧急关机操作方法、曙光4000A超级计算机系统双路断电关机操作方法等多个文档组成。主机房断电应急预案:该预案用于断电情况下,主机维护人员如何与中心物业部门联系控制主机房供电情况,并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想
38、作用。紧急关机操作方法:该预案制定了主机系统在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。双路断电关机操作方法:该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。3.3空调预案超级计算机系统在运行中消耗大量电能,在提供高性能的计算能力同时产生大量的热量,必须采用专用空调系统,以保持主机系统适
39、当的温、湿度、空气洁净度等运行环境需求。因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的应急预案。制定该预案的原因在于,断电情况下,空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制定原则。预案根据各台主机配备的空调系统特点制定,由曙光机房空调系统
40、故障应急预案和神威机房空调系统应急预案2个文档组成,这里仅介绍曙光机房空调系统应急预案。该预案的第一步:考虑增强主机系统散热效果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主机系统散热效果,降低升温速度。该预案的第二步:在采取上述措施并持续升温到一定温度之上的情况下,考虑紧急关闭部分或全部计算节点,减少热量生成,确保主机系统的核心存储和网络系统不受影响,确保空调系统修复后,主机系统能快速恢复运行。3.4其他预案除了固定的三类预案之外,技术支持部还根据主机系统实际运行中出现的各种意外情况,随时制定具有针对性的预案。如大楼顶棚坍
41、塌应急操作方法的制定,就是由于20xx年1月连续发生雨雪等灾害性天气,中心大楼顶棚大量积雪且难融化,物业预计存在情况继续恶化,有发生顶棚坍塌事故的可能,一旦发生将影响一楼主机运行。针对该突发的隐患,中心技术支持部制定应急操作方法,对维护巡查频度范围、漏水可能发生位置、如何处理受漏水影响的主机设备等操作步骤进行严格界定。即使在最后,中心大楼顶棚经受住灾害性天气的考验,该预案并未发挥作用,这正体现了应急预案的备而不用的特点。而且通过各种意外情况的迅速分析、应对和实践操练,不断锻炼主机维护队伍,使之走向成熟。4.在实际案例中,应急预案的作用在主机系统年复一年的运行中,我们希望这些设备正常稳定运行,应
42、急预案永远不会被使用,然而在实际运行中,总免不了因突发事件执行应急预案。而每次突发事件是检验应急预案制定是否科学、有效的最好证明。4.1双路断电,UPS正常运行案例20xx年8月某天,因打雷导致供电一路跳闸自动换至另一路供电,曙光机房2台空调掉电。主机维护人员立即按应急预案操作,电话通知物业人员恢复空调运行,恢复过程中所有空调相继出现高温报警,机柜液晶屏平均温度35度,开启全部曙光机柜前后门,打开神威-曙光玻璃门并调集应急电扇,于12:45恢复正常。12:50再次出现双路供电中断,曙光空调因无UPS支撑全部断电,启动断电应急预案,开启5、6号木门,开启神威机房全部空调,布置电扇,将冷气导入曙光
43、机房,热量从6号木门的外部通道排出,选择性杀除部分作业,至13:05供电恢复,曙光空调开始工作,13:20环境恢复正常。全机在此过程中,正常运行未停机,只损失了部分不重要的作业。4.2单路断电,UPS失效案例20xx年8月某天,因低压配电柜开关至UPS房间x-JM柜电缆发生相对地短路,造成UPS机组逆变器自身保护动作,关闭UPS机组,导致曙光主机系统失电。全机掉电后,主机维护人员迅速按应急预案手工关闭所有电源开关。1 0 : 3 0恢复供电,温湿度恢复正常后,全机加电,恢复过程中修复storage001、005、010三个盘阵的9个用户文件系统,修复15个节点加电故障,除cnode009、an
44、ode029电源环境模块故障,于当日15:10全机系统恢复正常。由于处置及时,主机受影响范围很小,在恢复供电后数小时即成功开启全系统。5.随时保持应急预案的适用性主机长年累月的运行,故障和问题的发生,往往是必然的,也是客观、无法回避的。因此,要求在维护工作中,预先考虑到可能的问题和故障,制定完善的应急预案。应急预案不可能包含所有的故障和问题,但应根据维护经验,尽可能地设想各种危机情况下的处置措施。做到预想到各种可能的问题。而在形成应急预案后,更重要的是持续地在运行中加以完善、测试和演练,尽可能模拟实际情况,做到即使只有1名维护人员在场,也能在真正发生危机时,以最短时间独立处置故障。以目前中心的
45、主机运维工作为例,三年内,仅断电预案就已根据实际运行情况的变化,制定并更新了56个版本,针对夏季突发断电也有专用预案。这样的措施,直接保障了20xx年8月突发断电事件中的主机连续运行。而20xx年8月的突发断电事件中,由于预案在之前刚根据实际情况进行过演练和修改,主机维护人员仅用半小时就完成所有应急操作动作,整机仅有个别设备故障,确保了主机设备未因突发断电而发生大范围损坏现象,恢复供电后直接完成开机。实践证明,完善而适用的应急预案能保障向用户提供稳定的高性能计算服务。6.结束语完备而适用的应急预案能有效降低主机系统因意外事件发生带来的运行风险,对可能发生的意外来说,是一种事前防范措施。但对整个
46、主机系统产品而言,是一种事后防范措施。如果主机系统生产厂商能把这些防范措施纳入整个系统设计过程中,使操作方法更加简便、更趋于人性化,这将帮助主机维护人员更为妥善处理意外事件,用户得到更为稳定的高性能计算服务。我们相信未来国产的高性能计算机能做到这一点,期待着这一天早日到来。(为帮助了解,特在附录中节选部分双路断电关机预案内容)附录:曙光4000A超级计算机系统双路断电关机操作方法(省略具体操作步骤)曙光4000A超级计算机系统双路断电关机操作方法注意:1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。2、本方法作为曙光-4000A超级计算机系统紧急关机操作方法的附件
47、。1.断电确认及操作:主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):1.1打开机房门便于散热,1.2机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置.;冬季:应急风扇布置.,使曙光机房的温度尽量降低。1.3打开所有机柜前、后门。1.4密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。2.紧急关机条件确认:在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:2.1自断电发生起,已达到xx分钟仍未恢复供电;2.2采取上述紧急通风措施,节点温度持续上升,超过xx;可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。3.紧急关机操作步骤:注意事项:3.1 .3.2关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每xx分钟与物业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)3.3应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证x排节点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。第一级操作:(首先执行)关闭主机系统外围设备.第二级操作:(完成上述操作后,当
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。