1、计算机机房运行风险分析主要内容1.计算机机房的重要性2.现代计算机机房的组成3.运行中机房的风险4.机房各系统的重要性及风险分析 为了满足业务或管理的需要,保障计算机核心系统和网络系统的正常运行环境,越来越多的计算机中心机房(以下简称机房)投入使用。机房以及各种各样的机房保障系统的安全运行水平,决定了核心业务系统和网络系统的可靠性和可用性。计算机应用系统和网络系统越重要,对机房的保障要求就越高,确保机房的安全可靠运行,是每个机房管理者追求的目标。计算机机房的重要性现代计算机机房机房的组成分系统图电力系统 不间断电源UPS 自动切换电源ATS 末端精密配电柜 动力配电 照明系统 应急疏散指示机房
2、装饰、装修抗静电活动地板防火隔墙、防火玻璃隔断、金属壁板踢脚线空调系统恒温恒湿精密空调新风/灾后排烟综合布线系统 六类铜缆、模块及配线架 多模光纤、耦合器及配线架环境监控系统 机电设备监测 温湿度监测 定位式漏水检测及报警安全防范系统门禁系统闭路电视监控系统入侵报警系统分系统展开图KVM系统 KVM管理机 KVM交换机现代计算机机房机房的组成第一第一机房设计、施工的缺陷1 1、对于机房的设计、施工及验收,国家都有相关的标准,但是由于、对于机房的设计、施工及验收,国家都有相关的标准,但是由于建设时建设时经费投入、设计施工单位的资质、机房管理部门的要求等方面经费投入、设计施工单位的资质、机房管理部
3、门的要求等方面的不同,有些机房在开始设计建设时就在使用功能、安全标准、配套的不同,有些机房在开始设计建设时就在使用功能、安全标准、配套设施、材料用品等方面存在一定的缺陷,会在机房的安全性、可扩展设施、材料用品等方面存在一定的缺陷,会在机房的安全性、可扩展性等方面留下隐患。性等方面留下隐患。第二第二 低水平的管理低水平的管理1 1、机房用途的特殊性,决定了其管理的重要性。由于目前没有标准、机房用途的特殊性,决定了其管理的重要性。由于目前没有标准的机房管理规范的机房管理规范,各行各业各家的机房管理都是自行其是,导致管理各行各业各家的机房管理都是自行其是,导致管理不到位,出现规章制度不健全或形同虚设
4、、安全管理不到位、检测检不到位,出现规章制度不健全或形同虚设、安全管理不到位、检测检查制度不严格、技术维护制度落实不力等问题,这些都会带来许多风查制度不严格、技术维护制度落实不力等问题,这些都会带来许多风险。险。第三第三 不严谨的运行维护不严谨的运行维护1 1、机房运行维护是维持机房长期可靠运行的必要手段。高度的责任、机房运行维护是维持机房长期可靠运行的必要手段。高度的责任心、精通的维护技术和严谨的工作态度,是实现安全维护目标的必要心、精通的维护技术和严谨的工作态度,是实现安全维护目标的必要条件。一时的疏忽、一次随意的操作、一次不到位的检查、一个细小条件。一时的疏忽、一次随意的操作、一次不到位
5、的检查、一个细小的失误等,都会产生运行风险甚至灾难。的失误等,都会产生运行风险甚至灾难。运行中机房风险主要来源机房中连续运行着各种各样的设备和系统,对设备(系统)的可用性是人们关注的重点。假设一台设备(系统)的可用性达到99.9%,那么它一年中就可能有8.76小时不能用,即使设备(系统)的可用性达到9.99%,其一年仍然可能有0.876小时不能用。一个机房内成百上千台套的运行设备(系统),可以说时刻都孕育着运行失效的风险,因此防范运行风险必须引起足够的重视。风险防范须建立在对风险的清楚认知的基础之上。比较简单的方法是通过风险列表,按照分类等级尽可能详尽地罗列出相关机房可能存在的各种运行风险,用
6、以进一步的分析。一般可以按照机房环境、运行设备、机房管理等方面进行机房风险分类,然后尽可能详尽地列出相应的风险事件和因素,并进行分级。右侧是一个机房风险列表示例。其中,一级风险为无法承受的运行风险,因为一旦发生,无法在短时间内恢复正常的运行状态,必然会给所属单位造成严重的经济、社会损失。二、三级风险虽然严重危及运行安全,但是大部分可能造成局部运行异常或只是运行安全隐患,基本属于可承受和可控制的运行风险。当然不同类型用途的机房,其风险等级的认定会不同。机房各系统的重要性及风险分析机房配电系统的重要性 因为计算机机房业务重要性,通常采用双母线或冗余并机的供电方案供电,满足数据中心服务器等IT设备高
7、可靠性用电要求。双母线供电系统,有两套独立UPS供电系统(包含UPS配电系统),在任一套供电母线(供电系统)需要维护或故障等无法正常供电的情况下,另一套供电母线仍能承担所有负载,保证机房业务供电,确保数据中央业务不受影响。冗余并机供电系统,采用UPS冗余并机的方式,进一步保证供电系统的可靠性,保证数据中心供电。运行中机房的配电系统风险分析1、机房常见的事故有电气事故、火灾事故、爆炸事故、设备损坏事故和通信阻断事故。2、机房电气事故是机房安全最常见的隐患。3、机房电气事故主要包括电流伤害事故、电磁场伤害事故、雷电事故、静电事故、电气火灾和爆炸以及某些电路故障。4、机房发生电气事故在技术上主要表现
8、为:(1)绝缘损坏:机房电气设备绝缘破损,绝缘电阻不合格。(2)安全距离不够:设备的带电部分与地面及其他带电部分未保持一定的安全距离。(3)接地不合理低压电力系统未设置应有的接地、保护安全装置。(4)电气保护措施不力:没有根据某些机房电气设备的特性和要求采取特殊安全措施,如对各种高压电力设备采取装设高压熔断器和断路器;对低压用电设备应采取相应的低压电气保护措施进行保护。机房配电系统UPS1+1配电系统拓补图:UPS 系统 A配电列头柜小型机存储设备服务器机柜等ATS B机械互机械互锁锁市电 A市电 BATS BATS AUPS 系统 BUPS双总线配电系统拓补图:UPS 系统 A配电列头柜 A
9、ATS B机械互机械互锁锁市电 A市电 BATS BATS A配电列头柜 BUPS 系统 B 机房接地系统安装机房设均压等电位带,采用303mm 铜带接地网,敷设在活动地板下,防静电地板下采用25mm2编织铜带组成防静电接地网,间距不大于2.42.4米,将地板腿与均压等电位带连接,组成机房防静电接地。每台电子信息设备(机柜)采用两根不同长度的6mm2导线就近与等电位联结网格连接。各类金属管道、金属线槽、建筑物金属结构等采用6mm2导线就近与等电位联结网格连接。机房内均压等电位带采用不小于50mm2软导线与大楼联合接地体连接。设备机柜25mm2编织铜带303mm 铜带70mm2导线引至联合接地极
10、墙体龙骨2.42.4米50mm26mm2接地端子箱机房接地系统在UPS输入配电柜内安装B级防雷器,在UPS输出配电柜内安装C级防雷器,与大楼低压配电室内A级防雷器组成机房内电子信息系统设备的三级防雷系统654321电源处的设备分支线路设备用电设备特殊需要保护的电子信息设备总配电柜内A级防雷(大楼具备)UPS输入配电柜内B级防雷UPS输出配电柜内C级防雷特殊需要保护的电子信息设备三级防雷机房UPS配电设备采用三级防雷保护措施机房空气调节系统的重要性 温度和湿度设计条件对于机房的平稳运行至关重要。设计条件应在2224(7275)和35%50%的相对湿度(R.H.)。与环境条件不合适可能造成损坏一样
11、,温度的快速波动也可能会对硬件运行产生负面影响,这就是即便硬件末在处理数据也要使其保持运行状态的一个原因。相反,舒适型空调系统的设计只是为了在夏天35(95)的气温和48%R.H.的外界条件下,使室内的温度和湿度分别保持27(80)和50%R.H.的水平。相对而言,舒适空调没有专用的加湿及控制系统,简单的控制器无法保持温度所需的设定点。机房温度(23士2),因此,可能会出现高温、高湿而导致环境温湿度较大范围的波动。运行中机房的空气调节系统风险分析1.机房环境不适合所造成的问题:如果数据机房的环境不适合,将对数据处理和存储工作产生负面影响,可能使数据运行出错、宕机,甚至使系统故障频繁而彻底关机。
12、2.高温和低温:高温、低温或温度快速波动都有可能会破坏数据处理并关闭整个系统。温度波动可能会改变电子芯片和其它板卡元件的电子和物理特性,造成运行出错或故障。这些问题可能是暂时的,也可能会持续多天。即使是暂时的问题,也可能很难诊断和解决。3.高湿度:高湿度可能会造成磁带物理变形、磁盘划伤、机架结露、纸张粘连、MOS电路击穿等故障发生。4.低湿度:低湿度不仅产生静电,同时还加大了静电的释放,此类静电释放将会导致系统运行不稳定甚至数据出错。空气调节系统机房环境监控系统重要性 机房动力环境监控系统可以实现少人或无人值守,实现集中维护,集中管理,提高维护水平;机房动力环境监控系统可以快速准确的完成数据采
13、集和转发,是维护人员,实时看到机房的运行状况,也可将各机房状况集中显示,并提供现场画面,发现异常即自动报警。机房环境监控系统空调监控系统空调监控系统 通过空调自带智能通讯接口及通讯协议,系统可实时、全面诊断空调运行状况,监控空调各部件(如压缩机、风机、加热器、加湿器、去湿器、滤网等)的运行状态与参数并可通过软件在系统上或通过网络远程修改空调设置参数(温度、湿度等),实现空调的远程开关机。机房环境监控系统配电柜监测配电柜监测系系统统监测主要开关开合状态;三相及各相电压、电流、有功功率、无功功率、频率、功率因数、视在功率、有功电度、无功电度等实时监测配电开关的通断电状态,一旦发生报警,系统将自动切
14、换到相应的监控界面,且发生报警的开关会变成断开状态且变红显示,同时产生报警事件进行记录存储并有相应的处理提示,并第一时间发出手机短信等对外报警。机房环境监控系统温湿度检测系统温湿度检测系统在本系统中,温湿度一体化传感器将把检测到的温湿度值实时传送到监控主机中,并在监控界面上以图形形式直观地表现出来。一旦机房内实际温、湿度值越限,系统将自动弹出报警框并触发语音报警,提示管理员通过调节空调温、湿度值给机房设备提供最佳运行环境。机房环境监控系统漏水检测系统漏水检测系统由于机房内有空调及进出水管等设备,液体泄漏的情况时有发生,这就要求及早发现及时处理,因此设计在空调间地板下安装定位式漏水感应绳漏水检测
15、设备,保证机房设备的安全运行。实时监测机房的漏水情况,发生漏水时系统自动切换到漏水监控界面,同时产生报警事件进行记录存储及有相应的处理提示,并第一时间发出手机短信等对外报警。机房消防系统重要性 火灾侦测和抑制的声音告警系统。研究数据显示有43的业务因为火灾而无法再重新恢复。烟雾和热侦测系统有助于及早发现火灾,火灾抑制系统能够在火灾发生以前有效地控制火灾的发生,把损失降低到最低的程度。在IT系统的安装中,火灾发生的原因在于过多的线缆被放置在有限的空间内,因此,在布线系统中,电缆管理是非常重要的。机房消防系统消防报警系统 气体灭火系统防火分区采用感烟感温复合报警控制灭火系统,机房气体灭火系统的报警控制自成一套独立的小系统,可给大楼的消防控制中心输出报警信号、释放信号及输入控制信号。气体灭火区采用感烟感温探测器分为地板下、工作层、吊顶上三层敷设,探测火情产生的升温、烟雾情况,检测到火情可进行声光报警并与灭火系统联动灭火。分系统展开图七氟丙烷(HFC-227ea)气体灭火系统“Thank You!”