1、-1-2IT 运维管理概述构建消防运维管理的必要性消防运维管理内容及方法消防运维管理内容及方法-31、运维管理管什么?、运维管理管什么?3、运维管理怎么管?、运维管理怎么管?2、为什么要运维管理?、为什么要运维管理?流程管理流程管理质量管理质量管理其他管理其他管理支撑系统支撑系统人员管理人员管理组织管理组织管理-4IT运维运维=运行运行+维护维护+服务服务 通过对通过对IT系统维护工作的管理,实现系统维护工作的管理,实现IT系统的系统的稳定稳定运行,运行,不断满足业务不断满足业务对对IT运运维维的需求。的需求。定定义义-5两大平台两大平台五大业务系统五大业务系统其他其他消防监督管理系统消防监督
2、管理系统灭火救援指挥系统灭火救援指挥系统消防部队管理系统消防部队管理系统社会公众服务平台社会公众服务平台综合统计分析信息系统综合统计分析信息系统个性化软件管理个性化软件管理桌面管理桌面管理-6外包商外包商自己自己外包商外包商B外包商外包商A外包外包商管商管自己管自己管-7运维管理运维管理5236添加文本内容添加文本内容系统稳定系统稳定成本降低成本降低安全保障安全保障性能提高性能提高4业务促进业务促进竞争提升竞争提升1-8 Description of the contents总体架构总体架构运维组织保证体系运维组织保证体系两级三线调度体系两级三线调度体系三线运维响应模式三线运维响应模式三线运维
3、体制关注点三线运维体制关注点组织管理统一关注点组织管理统一关注点团队配置团队配置两级三线人员结构两级三线人员结构三线人员配置及职责三线人员配置及职责主要工作及开展方式主要工作及开展方式日常巡检日常巡检 问题受理问题受理异常障碍异常障碍 月度检修月度检修更新优化更新优化 应急演练应急演练统计报送统计报送 人才培养人才培养体系建设体系建设支撑系统支撑系统 人员管理人员管理组织管理组织管理 流程管理流程管理质量管理质量管理 其他管理其他管理-9IT 运维管理概述构建消防运维管理的必要性消防运维管理内容及方法消防运维管理内容及方法-缺少对新建缺少对新建“一体化系统一体化系统”的的运维规划运维规划,目前
4、只是依靠研发单位开,目前只是依靠研发单位开 展简单的技术支持和被动的运维工作,基本属于展简单的技术支持和被动的运维工作,基本属于“救火式救火式”运维,运维,保障了系统的部署和试点,但难以支撑全国日益增长的运维需要。保障了系统的部署和试点,但难以支撑全国日益增长的运维需要。缺少缺少运维体系运维体系,各地只重视设备运维,且网络、硬件、应用、数据,各地只重视设备运维,且网络、硬件、应用、数据 库各自独立监控,遇到问题定位难。库各自独立监控,遇到问题定位难。缺少专门的缺少专门的运维队伍运维队伍,主要由信通人员临时承担运维管理的角色,主要由信通人员临时承担运维管理的角色,工作任务重,压力大。工作任务重,
5、压力大。-缺少自动化的缺少自动化的运维工具运维工具,基本上采用人工巡检方式,看不全、管不,基本上采用人工巡检方式,看不全、管不 细,效率不高,无法预警,排查隐患效果取决于巡检人员的个人素细,效率不高,无法预警,排查隐患效果取决于巡检人员的个人素 质。质。用户往往先于用户往往先于IT人员发现问题,只能人员发现问题,只能被动被动地进行救火式的问题处理。地进行救火式的问题处理。系统繁杂,一般性运行维护保障系统繁杂,一般性运行维护保障要求多要求多,重大任务保障,重大任务保障频率高频率高。-12运维管理运维管理15236添加文本内容添加文本内容系统稳定系统稳定成本降低成本降低安全保障安全保障性能提高性能
6、提高4业务促进业务促进竞争提升竞争提升-13业务业务是所有工作的出发点是所有工作的出发点成本成本是投入工作最多的是投入工作最多的 用户用户是用户最关注的是用户最关注的最高境界是感觉不到运维的存在最高境界是感觉不到运维的存在-14预防为主,主动出击,防患于未然,确保信息运维坚强稳定。预防为主,主动出击,防患于未然,确保信息运维坚强稳定。消防一体化信息系统消防一体化信息系统 各单位个性化系统各单位个性化系统各单位桌面系统各单位桌面系统 一线:技术服务台团队一线:技术服务台团队 二线:运维支持团队二线:运维支持团队 三线:研发、业务专家、顾问三线:研发、业务专家、顾问运维服务外包厂商运维服务外包厂商
7、 软硬件集成商软硬件集成商 IT设备供应商设备供应商 信息化系统稳定信息化系统稳定运维团队稳定运维团队稳定 合作伙伴稳定合作伙伴稳定-15技术成熟大于技术领先:技术成熟大于技术领先:存储、数据库、网络、硬件设备存储、数据库、网络、硬件设备不依赖个人能力不依赖个人能力:不同技术、人员编制、外出不同技术、人员编制、外出强调应急响应:强调应急响应:断电、网络中断、地震、火灾等极端情况断电、网络中断、地震、火灾等极端情况强调冗余备份:强调冗余备份:人员、数据、网络、服务商、关键设备人员、数据、网络、服务商、关键设备要素要素-164.运营成本运营成本场地、电力、管场地、电力、管理理设备、工具设备、工具1
8、.硬件成本硬件成本2.软件成本软件成本应用、工具、应用、工具、DB、OS3.人员成本人员成本运维人员、专家运维人员、专家、顾问、管理、顾问、管理结算结算核算核算预算预算5.其他成本其他成本-17过程控制过程控制降低安全损失降低安全损失服务服务符合安全合规符合安全合规内控内控规避安全风险规避安全风险运维保障运维保障系统安全稳定系统安全稳定-18理解业务,需求转换。理解业务,需求转换。深入理解消防业务,结合信息化手段提升消防业务水平。利用现代化高科技手段提升部队作战能力。1统计分析,决策辅助。统计分析,决策辅助。通过综合统计分析及数据挖掘,对基础数据库海量数据进行分析,提取对消防监督、灭火救援、部
9、队管理业务有价值的信息,为领导决策服务2推动应用,促进发展。推动应用,促进发展。保障信息化系统稳定连续性工作,推进现代信息技术在消防工作中的深度应用,提高消防工作的科技含量,提升灭火救援应急通信保障能力,不断提高消防队伍的整体素质和战斗力。3 通过信息化运维支撑,促进消防业务应用及发展通过信息化运维支撑,促进消防业务应用及发展-19提前提前发展发展优化优化稳定稳定随时随时为业务为业务稳定稳定提供服务提供服务为业务为业务优化优化提供服务提供服务为业务为业务发展发展提供服务提供服务提前提前准备需要的服务准备需要的服务根据业务需要根据业务需要随时随时提供提供-20IT 运维管理概述构建消防运维管理的
10、必要性消防运维管理内容及方法消防运维管理内容及方法-21运运维维体体系系组组织织队队伍伍统一运统一运维门户维门户综合统综合统计分析计分析运运维维服服务务体体系系信息集成综合展示基础环基础环境建设境建设个人运维桌面统一预警信息个人关注指标综合业务管理综合业务管理客户管理客户管理调度管理调度管理运维服务管理运维服务管理统一监控管理统一监控管理监控.告警统计分析综合管理分析调度管理统计分析运行维护管理分析客服管理统计分析运维标准规范管理安全管理项目管理IT资产管理培训管理服务级别管理供应商管理信息发布管理满意度调查管理用户请求管理用户自主服务管理客户需求管理 用户服务报告管理调度值班管理应急方案管理
11、IT资产管理IT架构变更管理事件管理配置管理问题管理知识管理配置管理巡检管理发布管理值班管理机房监控网络/设备桌面业务系统数据质量中间件运维中心环境应用支撑系统数据支撑系统硬件支撑系统桌面支撑系统-22部局一级运维服务中心部局一级运维服务中心运维管理人员一线服务工程师二线技术工程师三线专家工程师专家(业务、顾问)IT供应商集成商研发团队部局用户总队二级运维服务中心总队二级运维服务中心运维管理人员一线服务工程师二线技术工程师三线专家工程师专家(业务、顾问)IT供应商集成商总队用户系统管理员/运维工程师支队用户-241、考核要求明确,议事沟通制度、考核要求明确,议事沟通制度2、奖勤罚懒,褒贬分明、
12、奖勤罚懒,褒贬分明3、个人能力及时沉淀为组织能力个人能力及时沉淀为组织能力4、标准规范的行为及时流程化并固化到工具中、标准规范的行为及时流程化并固化到工具中5、技术管理、服务管理、业务熟悉能力均需了解、技术管理、服务管理、业务熟悉能力均需了解6、注重和业务部门的沟通,持续改进注重和业务部门的沟通,持续改进-25三线三线二线二线一线一线班长席,班长席,1人人服务台,服务台,5人人运维专家,运维专家,2人人业务专家,业务专家,N人人研发团队,研发团队,N人人厂商厂商防火、灭火、部队防火、灭火、部队管理等业务方向管理等业务方向技术专家技术专家网络、服务器、硬件、网络、服务器、硬件、java、.net
13、等技术方向等技术方向软件集成商软件集成商IT供应厂商供应厂商IT设备厂商设备厂商硬件硬件网络网络架构架构GIS数据处理数据处理中间件中间件原软件开发商技术支持原软件开发商技术支持各商用软件技术支持各商用软件技术支持硬件提供商技术支持硬件提供商技术支持原软件研发团队原软件研发团队协调处理,协调处理,3人人31个总队、部局分片负责个总队、部局分片负责日常巡检,日常巡检,1+N人人运维管理运维管理 人人2-26响应级别响应级别分工分工工作内容工作内容人员配置人员配置一线响应一线响应(服务台)7人服务台1.记录所有事件,清晰描述问题2.用户操作指导提供用户培训3.常见问题答复;4.服务台互转5.根据事
14、件级别进行事件升级控制按总队呼叫数量平均分片,5名初级工程师(考虑到软件支持的特殊性,使用初级工程师而非呼叫人员,能更清晰的记录问题,提高效率)运行状态监控岗(日常巡检)1.日常巡检;2.巡检问题跟踪处理3.备份及备份策略执行情况检查4.备份数据核查1人(巡检问题分析和跟踪)4人(巡检人员,自动化检测工具投入使用前,4人,与一线人员公用)班长席1.记录报告问题;2.应急预案制定3.服务投诉受理;4.服务调度分配5.事件执行督察1人协调处理(问题处理和实施岗)1.回拨嗲话,与用户沟通2.故障分析3.跟踪监控事件处理过程4.对事件进行升级处理5.问题处理情况反馈3人(侧重总体问题处理,并分别侧重业
15、务系统分析能力)一线响应一线响应-27响应级别响应级别分工分工工作内容工作内容人员配置人员配置二线处理二线处理(运维层)9人协调处理(问题处理和实施岗)1.回拨电话,与用户沟通;2.故障分析3.跟踪监控事件处理过程;4.对事件进行升级处理5.问题处理情况反馈3人(侧重总体问题处理,并分别侧重业务系统分析能力)技术运维岗1.协助分析、定位处理本专业问题2.制定并实施网络、服务器、web、中间件管理策略3.累积累本专业常见问题集处理知识3人侧重网络、服务器及存储、web中间件各1名硬件运维岗1.协助分析、定位处理本专业问题2.制定并实施服务器、存储等管理制定3.累积累本专业常见问题集处理知识1人网
16、络运维岗1.网络故障分析处理2.网络性能优化,制定并实施网络管理策略3.累积累本专业常见问题集处理知识1人总体架构运维岗1.协助分析、定位处理总体架构涉及到的专业问题2.积累本专业常见问题及处理知识1人二线处理二线处理-28响应级别响应级别分工分工工作内容工作内容人员配置人员配置二线处理二线处理(运维层)11人软件运维岗1.协助分析、定位处理软件专业问题2.积累本专业常见问题及处理知识4人中间件运维岗1.协助分析、定位处理本专业问题2.制定和实施web中间件等管理策略3.积累本专业常见问题及处理知识1人数据分析岗1.数据使用的审核;2.接口数据的规范管理和导出导入服务3.三级数据库、业务与基础
17、库德一致性检查和处理4.数据分析服务;5.备份策略制定3人GIS运维岗1.协助分析、定位处理本专业问题2.制定和实施GIS数据处理、GIS等管理策略制定3.积累本专业常见问题及处理知识1人运维专家(一体化业务系统运维资深人员)1.疑难问题分析、定位和处理;2.分析指导3.软件缺陷修复通知;4.重大问题研制2人二线处理(续上)二线处理(续上)-29响应级别响应级别分工分工工作内容工作内容人员配置人员配置三线支持三线支持专业技术专家1.辅助疑难问题分析、定位和处理2.服务器、数据库、中间件、应用系统调优3.网络、服务器、服务安全规划、入侵检测网络、数据库、中间件、JAVA和.net等方向资深专家业
18、务专家组1.操作建议评估;2.用户新需求评估本单位,每业务口1人(兼职)原软件开发技术及研发支持1.软件故障定位;2.软件缺陷修复;3.升级和变更申请每个原软件开发单位提供一名技术接口人各商用软件技术支持提供商1.操作系统技术支持;2.中间件技术支持非现场技术工程师各硬件供应商技术支持1.IT设备硬件故障定位、处理IT硬件制造商技术支持、存储技术支持三线支持三线支持响应级别响应级别分工分工工作内容工作内容人员配置人员配置管理人员管理人员2人运维负责人1.管理和更新技术支持资源2.按照阶段任务频度和复杂度调配1、2线人员分工和管理3.协调3线及外部资源、仲裁问题纠纷;4.升级、实施审批;5.运维
19、管理流程和机制制定、运行规定制定;6.绩效管理2人(1名本单位人员,1名运维方人员)管理人员管理人员-30环境支撑系统:场地、空调、环境支撑系统:场地、空调、UPS、强弱电、强弱电体系支撑系统:运维业务、管理、业务应用体系支撑系统:运维业务、管理、业务应用数据支撑系统:中间件、数据库、操作系统数据支撑系统:中间件、数据库、操作系统硬件支撑系统:网络、主机、存储、安全硬件支撑系统:网络、主机、存储、安全4123桌面支撑系统:电脑、打印机、复印机桌面支撑系统:电脑、打印机、复印机5-31l保证质量l完善优化l能力专业l行为规范l稳定提升l了解其“痛”l管理需求l帮助成功l保证满意l培养能力l统一接
20、口人员管理人员管理-32单位级别单位级别业务分组业务分组人员角色人员角色部局运维中心部局运维中心总队运维中心总队运维中心支队运维中心支队运维中心一线工程师二线工程师三线工程师软件跟踪组协调组顾问专家系统管理员网络管理员业务专家实施组业务组验证组系统管理员-33总队运维中心总队运维中心总队运维中心总队运维中心管理人员二线工程师三线工程师一线工程师调度人员支队运维支撑支队运维支撑支队运维中心支队运维中心系统管理员网络管理员业务专家服务工程师服务工程师服务工程师技术工程师技术工程师IT设备厂商技术工程师研发工程师运维专家业务专家-34行政流程行政流程技术流程技术流程服务流程服务流程人员请假流程工作交
21、接流程故障保修流程机房出入审批流程日常巡检流程问题处理流程异常障碍处理流程应急保障流程升级管理流程换件审批流程配置管理流程成本管理流程机房出入审批流程故障升级审批流程1、流程管理内容、流程管理内容-351、尽量将日常运维工作形成流程执行、尽量将日常运维工作形成流程执行2、减少主观参与,固化流程到工具、减少主观参与,固化流程到工具3、确保流程宣贯,方便团队获取确保流程宣贯,方便团队获取4、流程需要完整闭环,发布前需测试、流程需要完整闭环,发布前需测试5、不断完善,持续改进、不断完善,持续改进2、流程管理原则、流程管理原则-36业务业务服务服务指标设计指标设计过程监控过程监控持续改进持续改进知识积
22、累知识积累结果监控结果监控目标目标 风险改进 服务提升 成本降低 效率提升 专家知识经验收集 定期发放知识手册 确保知识共享传承 用户满意度监控 数据质量监控 运维监控指标 CASE处理过程监控 过程审计系统运行指标服务质量指标运维标准规范-37其他管理其他管理工具管理供应商参考标准-38潜在供应商管理供应商发展供应商退出供应商考核供应商选择供应商管理初期考察退出运营维护发展阶段阶段内容内容考察阶段收集资质技术能力测试签订合作协议与外援公司签订服务合作协议(有效期为1年)并存档与外援公司签订保密协议,(有效期为1年)并存档使用阶段向外援工程师明确服务内容、时间、点、费用,签订(工作说明书)向外
23、援工程师再次明确现场服务规范,要求严格遵守完工阶段外援工程师提交技术服务单,配合运维组长确认服务实施状况运维组长在TOP系统中对外援本次服务进行评价采购部依据运维组长的评价向外援工程师支付服务费用,评价总平均分为10分,低于6分不支付费用评估阶段每半年进行一次外援的全面评估,评估结果向交付线公示评估分为A、B、C三个等级合作策略与C级外援减少合作或停止观察与被投诉外援(问题较轻)减少合作;(问题较重)停用记录在黑名单1、供应商管理、供应商管理-391、工具管理之、工具管理之系统监控系统监控系统监控设备应用业务运维管理被动主动集中统计分析记录分析预测-401、工具管理之、工具管理之运维管理运维管
24、理系统监控统计分析设备应用业务运维管理被动主动集中记录分析预测-411、工具管理之、工具管理之统计分析统计分析系统监控运维管理设备应用业务被动主动集中数据处理记录分析预测-421、日常巡检、日常巡检-应用监控子系统应用监控子系统应用监控子系统应用监控子系统 为方便日常运维工作,可使用应用监控子系统对本级和下级的业务系统进行监控。应用监控地址:http:/IP:10080/monitor 用户名sysadmin密码xiaofang2010-432、日常巡检、日常巡检-NCC/BCC监控平台监控平台-443、日常巡检、日常巡检-巡检内容巡检内容序号序号 巡检项巡检项巡检内容巡检内容检查标准检查标准
25、1服务器内存使用率查看资源管理器中的内存已用物理内存,如超过70%需报警。2CPU使用率查看资源管理器中的60秒CPU使用率百分比,如超过60%需报警。3硬盘容量当硬盘可用容量低于30%,则需要报警。4网络远程连接(应用及数据库)可正常使用administration用户进行远程登陆。5网络稳定性利用运维管理监控平台进行查看。6应用至数据库远程应用服务器需可直接远程对应的数据库服务器。7业务系统部署信息管理系统(部局)1、各业务系统页面可正常展现;2、平台软件横向纵向间信息通讯畅通(支队自身和总队到支队);3、综合业务系统可正常登陆。8基础数据平台(部局/总队)9服务管理平台10信息交换平台1
26、1IAM、PKI(部局/总队)12综合业务平台13消防监督管理系统14应用监控子系统(部局/总队)15其他数据库远程快捷方式各业务系统应用服务器桌面上应存放远程数据库服务器的快捷方式。16系统时间应用服务器与时间服务器同步(10.2.60.13),数据库服务器与应用服务器时间保持一致。17操作系统激活操作系统是否激活。18防火墙检查应用及数据库服务器均需关闭系统防火墙。19杀毒软件杀毒软件应置为启动状态;如江民杀毒软件需将“D:NCISoft”设置为不查杀目录。20工作目录统一性检查各系统“D:十五所提供软件_V1.0.0”下,标准目录统一性。21环境变量使用“java-version”命令检
27、查安装了weblogic服务的服务器环境变量是否正确。单位单位巡检范围巡检范围巡检时间巡检时间上报周期上报周期部局部局全国8:3010:00-日总队总队本总队/支队抽检8:008:2013:0013:20周支队支队本支队8:008:20-日巡检系统:巡检系统:基础技术及公共服务平台,包含服务管理、信息交换、基础数据(总队)、身份授权管理(总队)、综合业务、消防监督。注:直属单位同总队。-45问题受理问题受理-逐级上报:逐级上报:支队总队部局;-问题记录:问题记录:通过质量跟踪表详细进行问题记录。-46拟定申请拟定申请支支队队总总队队部部局局申请申请/审批审批运运维维中中心心审批审批拟定方案方案
28、审批开始执行执行完毕申申请请单单位位验验证证执执行行过过程程配配合合验验证证归归档档异常障碍异常障碍-47月度检修月度检修应用应用中间件中间件数据库数据库服务器服务器应用日志分析应用日志分析垃圾数据清理垃圾数据清理数据文件转存数据文件转存数据库日志分析清理数据库日志分析清理数据库性能优化数据库性能优化数据库文件转存数据库文件转存中间件日志分析中间件日志分析中间件性能调优中间件性能调优服务器硬件检修服务器硬件检修操作系统优化(释放内存、操作系统优化(释放内存、扩容空间等)扩容空间等)服务器性能优化服务器性能优化-48更新优化更新优化 程序程序BUG修改修改 性能优化性能优化 集成联调集成联调 添
29、加文本内容添加文本内容 添加文本内容添加文本内容 添加文本内容添加文本内容部署阶段升级部署阶段升级试用阶段升级试用阶段升级标题位置标题位置 意见建议意见建议 业务优化业务优化 流程优化流程优化 BUG修改修改上线后升级上线后升级 业务变化业务变化 代码优化代码优化 易用性优化易用性优化统一的版本控制统一的版本控制统一的验证过程统一的验证过程统一的目录管理统一的目录管理精细的过程管理精细的过程管理程序包验证升级情况一目了然,便于查询、统计验证升级过程的材料有效的归档,统一的目录,便于查询、管理由验证组进行各业务系统的验证,减少误差,提高效率提交升级申请、验证及升级的规范化、流程化,便于控制、管理-49应急演练应急演练 紧急措施、应急联络方式、技术支援队伍、资源备用、操作程序、系统和数据恢复措施等。-50统计报送统计报送统计报送统计报送25341【日日】巡检报告巡检报告【月月】业务应用统计分析业务应用统计分析【月月】运维分析报运维分析报告告【半年半年】应急预案应急预案【不定期不定期】经验总经验总结结