1、XXX医院数据中心建设与智能化运维管数据中心建设与智能化运维管理理数据中心基础架数据中心基础架构构2数据中心的演变史数据中心的演变史旧式旧式数据数据中中心心(2000之之前前构建)构建)2.5-5 kW/机架,闲置的空间容量 PUE 1.9 2.4,非常有限的气流密封 面向大型机建设创新创新型数型数据据中心中心(2016 现在)现在)更高的密度,功率超过7 kW 先进的气流密封 节能/绿色设计 高能效设备 复杂的设计 降低的工作环境参数要求更为更为现代现代的的数据数据中中心心(2000 2015)4 8 kW/机架 PUE 1.6 2.0,热通道/冷通道分区 更加高效的UPS/制冷系统 基于不
2、同Tier等级的复杂设计 较为严格的工作环境参数34数据中心生命周期数据中心生命周期规划阶段设计阶段建设阶段测试验证迁移阶段运维选址分析周边环境评估建设计划设计任务书电气专业防雷CFD气流模型图纸绘制技术规格书验证计划和操 作顺序文档控制相关部门批准项目摘要施工图送审记录设备清单变更单竣工检查单竣工记录验收报告设计产权质量检查功能测试计划综合测试计划问题清单验证报告设计变更设计澄清运维手册供应商清单备件列表迁移系统图控制网络图迁移计划操作顺序手册制作应急计划保修管理制作标准操作 流程培训培训记录及授 权维护记录冲击演练(黑盒测试)更新系统操作 顺序系统变更控制标准介绍标准介绍 GB 50174
3、-2008 TIA(Telecommunications Industry Association)The Uptime Institute American Society of Heating,Refrigeration,and Air-Conditioning Engineers(ASHRAE)Technical Committee 9.9(TC 9.9)The Green Grid5数据中心基础设施概述数据中心基础设施概述等级划分等级划分GB 50174-2008CBAANSI/TIA-942-2005TIER 1TIER 2TIER 3TIER 4建筑类型合用合用独立建筑独立建筑主要
4、路由单路单路两路,一路处 于备用两路,均处于 使用状态构件冗余NN+1N+12(N+1)或S+S年宕机时间28.8小时22.0小时1.6小时0.8小时机房可用性99.67%99.75%99.98%99.99%供电系统UPSUPS+GenUPS+GenUPS+Gen67数据中心基础设施概述数据中心基础设施概述等级等级划划分与投资的关系分与投资的关系Uptime Institute 及及 TIA-942 Tier 分级分级无冗余设备配电制冷系统单路 由部分冗余设备配电 制冷系统单路由设备冗余、配电制 冷系统多路由,满 足同时维护。多路 由一路备用。设备冗余、配电制 冷系统多路由,满 足容错。多路由
5、均 处于使用状态。冗余要求满足基本需求部分构件冗余可同时维护容错型系统投 资可用性年宕机时间(可用性)28.8小时(99.671%)22小时(99.741%)1.6小时(99.982%)0.4小时(99.995%)Tier 1Tier 2Tier 3Tier 4数据中心设计、构建、试运行能力数据中心设计、构建、试运行能力从建筑实体数据从建筑实体数据 中心中心到到MDC大规模MDC部署微模块化建筑实体数据中心集装箱化非标尺寸MDC8能能效效 热通道遏制解决方案热通道遏制解决方案9能能效效 冷通道遏制解决方案冷通道遏制解决方案10能能效效 隔离帘隔离帘11供电系统供电系统数据中心供电系统示意数据中
6、心供电系统示意图图-Tier-Tier 2 2Redundant ComponentsUtility Bus Critical Load BusTypically:Redundant UPS modulesRedundant GeneratorsSingle Bus Equipment12供电系统供电系统数数据据中中心供电心供电系系统示意统示意图图-Tier-Tier 3 3Redundant ComponentsRedundant Component UPS can be replaced by STS13供电系统供电系统数数据据中中心供电心供电系系统示意统示意图图-Tier-Tier 4
7、4Redundant Components14消防系统消防系统气气体体灭火系灭火系统统Ff20015数据中心硬件平数据中心硬件平台台16传统数据中心传统数据中心的的ITIT资源配置模资源配置模式式 -“-“烟囱烟囱 式式”结构结构数据网络和存储网络机房设施服务器1服务器2服务器3服务器n应用3应用n部门A部门B应用1应用2部门Z17传传统统 “烟囱式烟囱式“式数据中心的缺陷式数据中心的缺陷性性能能/Performance/Performance空空间间/Room/Room SpaceSpace功功耗耗/Power/Power&WattWatt安安全全/Security/Security管管理理
8、/Management/Management部部署署/Deployment/Deployment18 专有的,基于主机的架构 竖井状的技术应用(操作系统/架 模块化重新部署硬件(刀片技术)构)单一供应商的解决方案 自动化的任务管理 专用的服务器,或应用 专用的技术和技术要求 重新配置和扩展(不需要重新布线)多平台操作系统,多架构的数据 有限制的连线/网络,扩展性较中心环境 提供IT共享服务(例如:共享的测差试/开发环境)通过IT整合或Linux技术,对成本 静态 的生产部署,扩展性敏捷和复杂性进行优化和改进 资源的动态分配性较差传传统统数据数据中中心心孤岛的应用系统孤岛的应用系统当当前前数据数
9、据中中心心竖井状竖井状的的 IT基础设施基础设施NGDC 下一下一代代数数据中心据中心共共享享IT基础设施基础设施应用 系统服务器/存储应用1应用2应用3共享存储资源共享服务器资源应用1应用2应用3服务器 服务器服务器共享存储资源新一代数据中心设新一代数据中心设计计特点特点规范标准、安全可靠、资源共享、流程优化、技术先进。高可靠、可用性:全冗余、无单点故障。灵活性:池化IT基础设施资源,资源可根据 需要动态部署、分配和调整。高效性:资源整合和共享,提高系统资源利 用率,建设绿色数据中心;集成化的管理。专有的,基于主机的架构。单一供应商的解决方案。专用的技术和技术要求。有限制的连接/网络,扩展性
10、较 差。静态的生产部署,扩展性敏捷性较差。竖井状的技术应用(操作系统/架构)专用的服务器或应用多平台操作系统,多架构的数据中 心环境通过IT整合或Linux技术,对成本 和复杂性进行优化和改进传统数据中心传统数据中心19常规数据中心常规数据中心新一代数据中心新一代数据中心数据中心系统介数据中心系统介绍绍资源池资源池20为了满足业务对系统连续性不间断运行的要求,针对 数据中心核心基础资源系统进行了高可靠、高可用设计:两套独立的服务器资源、存储资源、网络资源形成两个互 为备份的冗余站点。即使在灾难场景出现时(服务器、网络、存储损坏),仅 会造成各业务系统的服务级别降低,不会造成业务中断。站点之间进
11、行容灾设计,底层数据实时进行同步,可以保 证在灾难事故发生时,站点之间的服务器资源快速切换,从而恢复生产能力。服务器资源池内的物理刀片间的相互备份及虚拟机实现动态迁移 应用系统的关键服务器分别部署在不同的站点中,确保服 务器的高可用性。关键应用系统采用存储虚拟化技术将数据存储在两个独立 的存储体上,确保存储的高可用性。21数据中心高可靠、高可用设计数据中心高可靠、高可用设计整合提高硬件使用率整合提高硬件使用率虚拟化之前虚拟化之前虚拟化之后虚拟化之后虚拟化使得低利用率的服务虚拟化使得低利用率的服务器器负载负载整整合到合到一一台服务台服务器,器,安全可靠地达到很高的硬件安全可靠地达到很高的硬件利利
12、用率用率22快速统一部署服务器快速统一部署服务器整合后整合后整合前整合前310天的硬件采购2040小时,为一台服务器安装操作系统和应用程序硬件上架安装安装操作系统及补丁配置安全策略,域和用户权限配置网络(IP,DNS)配置存储(DAS,SAN,NAS)安装必要的系统管理代理,备份 代理和其它的必要的系统软件安装配置应用软件测试应用安排宕机时间,数据迁移1530分钟,用模板和自动部署向导或拷贝虚拟机,启动即可把虚拟机拷贝然后重新启动 工具 已经安装 应用已经安装,配置部署挑部署挑战战:依赖硬件可用性易发生人为错误标准化困难审核困难需要数天,甚至数周23降低服务器投资成本降低服务器投资成本总计5整
13、合前整合后应用应用服务器台数服务器台数成本成本A系统2¥60000B系统1¥20000C系统1¥20000D系统1¥20000E系统1¥20000其它40¥800000总计46¥940,000减减将不同应用负载虚拟化使得用户可以大大减 少服务器的数量典型的平均整合比率在8:1到15:1应用应用服务器台数服务器台数成本成本A系统7¥350,000B系统C系统D系统E系统其它硬件投资硬件投资少少62%¥350,00024降低服务器服务器电源开销降低服务器服务器电源开销总计5整合前整合后应用应用服务器台数服务器台数功耗功耗A系统21.2kW/hB系统10.5kW/hC系统10.5kW/hD系统10.
14、5kW/hE系统10.5kW/h其它4020kW/h一年总计4623.2kW减减电力消耗是按照服务器平稳运行状态下进行计算的。但是还有其它节省:变压设备、不间 断电源(UPS)、电源线、风扇、空调、加湿器、照明等等。应用应用服务器台数服务器台数成本成本A系统74.2kW/hB系统C系统D系统E系统其它电量消耗电量消耗少少82%4.2kW25 数据库高可用的实数据库高可用的实现现26数据库高可用方案数据库高可用方案 采用五级措施实现数据高安全性和系统高可用性 设备双路复用 内部备份 Dataguard数据同步 外部备份 灾难备份27设设备备双路双路复复用用主机房硬件全部采用双路复用交换机、防火墙
15、使用冗余配置所有链接线缆利用端口聚合进行多路复用28内部备份内部备份服务器集群使用两台DELL R820配置为Oracle RAC集群,在正常工作时两台服 务器实现负载均衡,当其中任意一台的硬件、操作系统、Oracle软件 发生故障时,系统负载会自动转移到另一台服务器,这一转移过程对 于客户端是透明的,正在使用的用户将不会察觉服务器的这一动作。29内部备份内部备份存储链路使用两台光纤交换机实现多链路复用,在提高数据交换效率的同 时,提高数据链路可靠性。30内部备份内部备份ASM技术通过Oracle的ASM技术,集群同时使用两台HUS150阵列作为 数据存储,Oracle可同时向两台阵列读写,并
16、保持数据一致性,当其中任意一台阵列出现故障,不会影响整个系统的运行31内内部部备份备份使用RMAN在存储阵列内部进行数据文件备份,当由于软件故障造成数 据文件损坏时,可在存储内部进行数据库修复,修复时间小于10分钟,在修复过程中不需要停机,与损坏数据文件无关的应用可继续使用32DataguardDataguard数据数据同同步步通过Dataguard实现数据到备用服务器的实时同步,避免主机房发生严重事故时,造成数据损失。当主机房无法工作时,DataGuard服务器可切换工作状态,对外提供数据库服务,切 换时间可控制在小于20分钟。33外外部部备份备份通过Symantic Backup进行数据备
17、份,每日全备份,每三小时进 行增量备份。34灾灾难难备份备份通过Symantic Backup多目标备份机制,将备份数据传输至30KM外的灾备机房。35智能化运维管智能化运维管理理36 ITILIT Infrastructure Library信息技术基础构架库 20世纪80年代中期,英国政府计算机和电信局CCTA(后并入英国 政府商务部OCG)2001,BS15000 2005,ISO20000 成为IT服务管理工业标准 是IT服务管理流程的最佳实践37I ITITIL L概述概述A PCD成熟度成熟度戴戴明明循环循环 DemingDeming cyclecycle业务和业务和IT的整合的整
18、合Plan,Do,Check,Act(Project plan,Project,Audit,Newactions)增强增强时间刻度时间刻度连续的质量控制 和增强有效的质量改进有效的质量改进3839智能化运维的工作流程智能化运维的工作流程服务器网络数据库存储应用中间件异常告警通知自动生成事件单事件管理事件管理快速响应、解决突发故 障及请求,在最短时间 内恢复业务IP呼叫中心呼叫中心电话受理,自动识别来电用户身份服务台座席 创建事件单自助服务台自助服务台用户WEB登录,提报服务或故障请求生成事件单技术人员受理并尝试解决分派查询知识解决,通知用户 获得满意度反馈升级问题管理问题管理根源分析,找出根本
19、原 因,避免故障再次发生知识库知识库服务级别管理服务级别管理跟踪事件处理时效,达成与客户的服务约定申请变更变更管理变更管理控制变更可 能产生的风 险问题小组分析并根源解决解决方案入知识库申请变更变更评审委员会 评估、制定变更计划受理指派CMDB技术人员变更实施及发布通知配置管理配置管理资产配置全生命周期管理资产配置管理员 更新配置信息更新发现同步客户与IT主管计划任务管理计划任务管理周期性任务提醒、执行、监督项目管理项目管理开发及重大实施项目周期管理长周期变更任务KPI与报表与报表 管理管理报表输出,关 键绩效指标分 析达成服务 级别协议大屏幕项目经理技术人员 执行计划任务机房IT基础架构基础
20、架构 监控系统监控系统机房监机房监 控系统控系统数据中心基础设施运维对象数据中心基础设施运维对象 门禁控制 感染、探测设备 监控录像 气体灭火设施 精密空调 漏水检测 新风机 UPS 配件设备 高压变压器 发电机 PDU供电设施环境设施安全与消防综合布 线、IT运 行环境、环境监控40业务 运行 环境数据中心运维的主要内容数据中心运维的主要内容环境 监控场地UPS柴机空调安防例行操作响应支持优化改善咨询评估IT基础设施 例行操作 监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨询评估服服 务务 对对 象象41活动活动数据中心的运维主要内容数据中
21、心的运维主要内容 例行操作 监控监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨询评估服务对象服务对象监控内容监控内容空调系统环境温度、湿度、出风温度、回风温度,告警情 况等供配电系统 电流、电压、功率因数、有功功率、无功功率等发电机启停情况、电流、电压、负载率、控制系统供电 情况等UPS系统输入电流电压、输出电流电压、频率、功率因 数、负载率、温度、报警情况等消防系统报警情况等安全系统门禁状态、告警情况、监控录像等IT运行环境主机、网络设备及应用、存储、虚拟化的各项参 数指标42数据中心的运维主要内容数据中心的运维主要内容 例行操作 监控预防
22、性检查预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨询评估服务服务对象对象性能性能检查检查内内容容脆弱脆弱性检性检查查内容内容空调系统高压压力、低压压力(风冷系 统),冷冻水压力、温度,冷却 水压力、温度(水冷系统),风 机运行情况,灰尘情况等机房热点情况、室内机漏水 检查、室外风机运转情况、加湿罐阳极棒检查、过滤网 检查等供配电系统接地电阻、零序电流、器件发热 情况等导线、器件发热情况,防浪 涌器件情况等发电机转速、发热情况等油位,吸气、排烟通道等UPS系统器件发热情况、电池情况(外 观、液位、接线柱)等器件、导线发热情况,电池 放电时间等消防
23、系统钢瓶压力、有效期、探头污染等启动瓶、管道开关、气体压 力等安全系统器件灵敏度、画面清晰度(不同 照度情况下)、平台运行等器件灵敏度、监控死角问题 等IT运行环境服务器、网络、存储、虚拟化资 源运行状态、使用率等资源使用情况、业务提供效 率等43数据中心的运维主要内容数据中心的运维主要内容 例行操作 监控预防性检查 常规作业常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨询评估服务服务对象对象基础基础类操作类操作测试测试类操作类操作数据数据类操作类操作空调系统启停机、开清洗更换 滤网、清洗更换加湿 系统、清洁冷凝器等漏水报警测试等运行日志备份,报 警记录备份
24、、清除 等供配电系统除尘、合闸、分闸等 互投测试等发电机更换三滤、清洁等空载测试、带载测试、切换演练等运行日志备份,报 警记录备份、清除 等UPS系统 旁路、清洁等旁路测试、电池放电 测试等运行日志备份,报 警记录备份、清除 等消防系统 探头清洗等启动测试、探头测试 等报警记录备份、清 除安全系统 门禁授权等器件灵敏度、画面清 晰度(不同照度情况 下)、云台运行等出入记录导出、备 份,监控图像记录 备份、清除,报警 记录备份、清除等IT运行环境服务器、网络、存 储、虚拟化物理设备 的启停、各设备的联通性测 试、业务测试、各种运行日志备 份、数据备份44数据中心的运维主要内容数据中心的运维主要内
25、容 例行操作 监控预防性检查 常规作业 响应支持 故障及应急处理故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨询评估服务服务对象对象处理处理内容内容空调系统故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;供配电系统故障排查、投入备用电源回路、关闭非重要回路等发电机故障排查、启动发电机、油料补充;UPS系统故障排查、旁路系统、关闭非重要输出等;消防系统故障排查、系统启动、报警联动、疏散警示等;安全系统故障排查、手动开启或关闭门禁系统、检查告警或监控 记录等IT运行环境故障排查、应用系统切换、检查告警纪录、45数据中心的运维主要内容数据中心的运维主要内容 例行操作
26、监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进适应性改进增强性改进 预防性改进 咨询评估服务服务对象对象处理处理内容内容空调系统调整温湿度参数等、调整机组位置等;供配电系统更换开关、导线以适配负载容量等;发电机调整启动方式等;安全系统调整授权模式、报警模式、调整云台运转周期等。IT运行环境调整报警模式、调整资源使用模式等。46数据中心的运维主要内容数据中心的运维主要内容 例行操作 监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进增强性改进 预防性改进 咨询评估服务服务对象对象处理处理内容内容空调系统增减机组供配电系统增加回路、增加配电
27、柜等发电机增加主机数量、增加电池数量安全系统增加报警联动、增加终端数量、增加存储容量等IT运行环境增加设备和资源的数量47数据中心的运维主要内容数据中心的运维主要内容 例行操作 监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进预防性改进 咨询评估服务对象服务对象处理内容处理内容空调系统调整机组位置,调整出回风方式等供配电系统 更换开关、更换导线、调整回路等IT运行环境 根据使用生命周期更换设备48数据中心的运维主要内容数据中心的运维主要内容 例行操作 监控预防性检查 常规作业 响应支持 故障及应急处理 优化改善 适应性改进增强性改进 预防性改进 咨
28、询评估咨询评估服务服务对象对象处理处理内容内容空调系统机房环境指标分析及改进建议、机房热点分析及布置改进建 议、机房送风、回风方式改进建议,辅助制冷单元配置建议 等;供配电系统机柜供电分析及改进建议、机房回路调整分析调整建议、机 房扩容建议等;发电机发电机负荷分析及调整建议等安全系统UPS运行分析及扩容建议等安全系统图像监控系统分析及改进建议(如增加存储、增加摄像头 等)、报警系统运行分析及改进建议等。IT运行环境主机、网络、存储等指标分析即改进建议、提高使用率、以 及安全措施建议49 智能化运维管理示智能化运维管理示例例50运维管理示例运维管理示例数据采集告警阈值告警平台事件、问 题、变更配
29、置管理51机房监控机房监控监控内容监控内容实现效果实现效果红外监控非正常时间有人进入会进行告警门禁监控未正确刷卡或门未关好会进行告警漏水监控上下水、空调漏水会进行告警温湿度监控环境温湿度异常会告警视频监控记录人员进出情况52机房监机房监控控-空调监控空调监控监控内容监控内容实现效果实现效果回风温度环境温湿度异常会进行告警风机运行情况风机皮带断裂、风机过载运行会告 警地板漏水情况空调下发加湿水管漏水会告警压缩机运行情 况压缩机故障、缺氟会告警加湿器运行情 况加湿组件异常会告警53机房监机房监控控-配电监控配电监控监控内容监控内容实现效果实现效果三相电压机房内电压异常或丢失会进行告警三相电流实施监
30、测机房电流情况,确保电流稳定功率实施监测有用功率,掌握机房耗电量545机房监机房监控控-UPS-UPS监控监控监控内容监控内容实现效果实现效果UPS输入电压监控输入电压是否正常UPS输出电压监控UPS输出情况,稳压效果UPS负载实施监测UPS负载情况UPS电池状态实施监测电池电量及状态,切换到电池 供电时立即进行告警UPS温度监控设备温度,确保不过热运行5UPSUPS监控电池监控监控电池监控 UPS电池呈现木桶效应,一 块电池出现问题将影响整个UPS的运行效果 智能监控系统可以监控每一 块电池的电压、温度、容量 情况 支持在线浏览所有电池状态,出现故障可以及时告警56告警阈告警阈值值-温度温度
31、在机房内不同区域部 署温湿度监控模块,根据 区域特点设定不同的告警 阈值。如:服务器散热通道温度较 高,设置告警阈值高一 些空调出风口温度较低,可设置告警阈值低一些区域温度大区域温度大于于30度进行度进行2级告警级告警57告警阈告警阈值值-门禁门禁接到机接到机房门未关好的短信房门未关好的短信机房门打开时间超过机房门打开时间超过30秒则进行秒则进行报报警警,告告警级警级别为别为2级级,避,避免免机房机房门门没没关关好好58网络设备实时监控网络设备实时监控交换机监控:CPU利用率内存利用率吞吐量丢包率广播包率CPU超超过过85%为一级告警为一级告警,95%为二级告警为二级告警59服务服务器器实实时时监控监控服务器监控:CPU利用率内存利用率硬盘使用率服务器内存占用达服务器内存占用达到到80%以上,进行二级告警以上,进行二级告警60告警告警平台平台根据事件级别,选择告警方式:邮件:向管理员发邮件进行告警短信:向管理员发短信电话:自动向管理员手机拨打电话,并进行语音报警打印:自动打印故障内容声光:利用门灯闪烁提醒管理员有异 常情况发生61感感谢谢大大家的家的聆聆听听!