1、基于大数据的IT运维方案面向数据的IT运维交流1今天IT运维面临的挑战2面向未来IT运维“新四化”之路3优锘IT运维“新四化”解决方案4优锘IT运维“新四化”成功案例目录 CONTENTS今天IT运维面临的挑战 今天的业务环境和技术环境下,企业的IT运维普遍面临如下挑战:结构复杂化结构复杂化 业务发展迅速-涉及多个业务领域、各种业务流程域、众多的业务系统相互关联,内部逻辑复杂多变 技术更新换代较快-从标准化的软硬件体系到Iass资源池实现虚拟化以及PasS和应用资源池化实现集群级弹性伸缩,导致技术的复杂度在快速增加 运维工具的多样化和相互割裂,造成日常操作不便和学习成本增高 数据碎片化数据碎片
2、化 各个业务流程域、应用系统间、运维工具间的数据孤岛,在跨领域协作时,由于信息不对称,导致大量的理解偏差和额外的沟通成本 缺乏从业务至应用、服务器、网络的端到端分析的全景视图,导致对系统整体的理解存在一定偏差,不利日常的故障处理与分析 变化常态化变化常态化 业务和新技术的迅速发展和诞生,导致了系统版本需要频繁变更管理成本增大 机制板结化机制板结化 IT运维工具的升级,需要经历漫长的需求调用、概要设计、详细设计、开发、测试、实施、试运行的过程,导致上线周期长,资源开销大,市场响应速度慢,IT运维产品失去活性,难以发展和适变 由于IT运维标准、规则一刀切,IT运维人员的个体运维经验难以融合为组织知
3、识资产,失去活性,专业能力难以发展和适变ApplicationDatabaseSystemServerStorageNetwork应用管理系统管理网路管理存储管理数据库管理环境管理统一接口专业管理工具统一数据处理可视化管理基于统一数据的可视化运维管理1今天IT运维面临的挑战2面向未来IT运维“新四化”之路3优锘IT运维“新四化”解决方案4优锘IT运维“新四化”成功案例目录 CONTENTS面向未来IT运维的“新四化”转型之路可视化架构配置可视化架构配置管理管理集中化监控管理集中化监控管理场景化运维管理场景化运维管理众创化众创化平台平台TitleTitleTitleTitle1234可视化架构配
4、置管理目标:构筑IT运维的“百度”地图1机房动力环境SAN网络服务器应用系统数据库中间件操作系统接入渠道外部系统用户终端负载均衡防火墙企业IT传统的IT管理视角是分散的,以技术专业为单位划分成管理孤岛,相互之间没有关联。应用管理系统管理环控网络管理机房动力环境SAN网络服务器应用系统数据库中间件操作系统?接入渠道外部系统用户终端负载均衡防火墙企业IT?划分过程缺乏从业务出发的整体视角,甚至可能忽略某些部分,形成管理盲区。应用管理系统管理环控网络管理机房动力环境SAN网络服务器应用系统数据库中间件操作系统?接入渠道外部系统用户终端负载均衡防火墙企业IT?IT可视化首先会打破各个专业领域和工具平台
5、的壁垒,提取出各个专业领域有价值的管理数据。应用管理系统管理环控网络管理机房动力环境SAN网络服务器应用系统数据库中间件操作系统?接入渠道外部系统用户终端负载均衡防火墙企业IT?建立整合的可视化运维管理数据库,通过统一的集成接口,将多维度多专业的数据整合。机房动力环境SAN网络服务器应用系统数据库中间件操作系统?接入渠道外部系统用户终端负载均衡防火墙企业IT?通过整合的数据平台,发掘IT系统的全貌,建立端到端的可视化数据管理模型。机房动力环境SAN网络服务器应用系统数据库中间件操作系统加密机接入渠道外部系统用户终端负载均衡防火墙企业ITNAS随机数发生器业务交易业务交易可视化架构配置管理(续)
6、Web服务器前置机网关服务器应用服务器数据库服务器存储网络数据中心系统平台IT基础设施机房动环数据中心数据中心接口平台外部接口用户终端外部系统接入渠道防火墙负载均衡加密机应用系统业务交易业务交易集中化监控管理目标:构筑IT运维的“路况”地图2集中化监控管理(续)Web服务器前置机网关服务器应用服务器数据库服务器存储网络数据中心系统平台IT基础设施机房动环数据中心数据中心接口平台外部接口用户终端外部系统接入渠道防火墙负载均衡加密机应用系统业务交易业务交易端到端可视化监控CPU使用率内存使用率磁盘空间6583秒50%监控信息交易处理系统0交易量响应时间成功率6583秒40%监控信息交易处理系统2级
7、别Critical报警信息交易处理系统发生时间信息08-15 12:00系统成功率异常系列 1,11:10,0.98系列 1,11:15,0.95系列 1,11:20,0.92系列 1,11:25,0.98系列 1,11:30,1系列 1,11:35,0.9系列 1,11:40,0.82系列 1,11:45,0.76系列 1,11:50,0.61系列 1,11:55,0.4系列 1,12:00,0.38系列 1,12:05,0.25系列 1,12:10,0.1系列 2,11:10,0.6系列 2,11:15,0.6系列 2,11:20,0.6系列 2,11:25,0.6系列 2,11:30,0
8、.6系列 2,11:35,0.6系列 2,11:40,0.6系列 2,11:45,0.6系列 2,11:50,0.6系列 2,11:55,0.6系列 2,12:00,0.6系列 2,12:05,0.6系列 2,12:10,0.600%50%100%11:1011:1511:2011:2511:3011:3511:4011:4511:5011:5512:0012:0512:10系统成功率 交易处理系统CIConfigMonitorsChange/incident historyLogsScriptalarmsCiCi1,通过管理对象,整合多维度管理信息和管理接口CiCiRELRELRELRELR
9、ELCiCiCiCiCiCiCiCi2,通过管理场景,整合相关联的管理对象CiCiCiCiCiCiCiCiConfigMonitorsChangeIncident historyLogsScriptAlarms3,通过管理场景,使用关联的信息和接口故障诊断-端到端监控外汇交易量下降服务器无告警网络无告警其他监控指标均正常可能不是外汇系统问题可能是“二代支付”服务器问题,做进步一诊断故障诊断-端到端监控发现上游“二代支付”系统存在“大额支付交易量”异常查看“二代支付”业务交易图,发现服务器告警查看“二代支付”系统部署架构图,亦发现服务器告警查看“二代支付”网络拓扑图,无设备告警场景化运维运维管理
10、目标:构筑IT运维的“场景化路况”地图和“场景化应急预案”3场景化运维管理(续)带宽利用率30%告警带宽利用率60%告警带宽利用率15%告警网网络络管管理理安安全全管管理理BeforeAfter 场景化运维管理(续)20%80%日常短信业务量节假日短信业务量上基线60%下基线10%20%80%上基线50%下基线5%上基线90%下基线20%日常短信业务监控日常短信业务监控节假日短信业务监控节假日短信业务监控传统一刀切的管理传统一刀切的管理面向场景的管理面向场景的管理故障诊断-一键巡检noactive发现“大额支付程序”进程异常检测所有服务器的进程状态场景化运维管理(续)监控CMDB场景封装动态数
11、据 创作Design Steps1.从架构图梳理入手建立配置数据2.定义并从监控中获取性能数据3.设置个性化阈值,生成预警4.关联自动化操作工具,封装场景5.发布可视化管理场景6.订阅、分享、持续标准化Benefits降低可视化的交付成本,提升交付速度自服务,释放一线技术人员创造力场景化封装,减少工具切换频率订阅专家成果,促进经验分享静态数据 系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系
12、列系列系列系列上基线下基线中心线自动化数据+图+操作场景化运维众创化运维平台画主机!画什么?画网络!画交易!画存储!众创,让每个需求的提出者,同时也成为需求的实现者系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列系列上基线下基线中心线4流程平台监控系统配置管理自动化系统配置信息监控信息报警事件操控信息流程信息全景监控运维分析阈值预警故障应急变更控制运维社区创建 协作 发布 订阅统一
13、接口运维数据仓库DCIMSMSAPMNMS处理引擎可视化管理平台可视化运维平台场景场景场景场景场景场景 平台化 整合分散的数据源和接口提供统一的数据和处理平台 众包 下放生产能力给最终用户以可视化为手段,降低生产门槛权威发布和社区化共存 容器化 共享原始数据和通用处理能力互相隔离、互不影响的处理容器自定义处理场景和处理规则 系统解耦 将接口、处理、呈现分离抽象处理功能端到端可视化能力“新四化”需要以大数据平台作为支撑和保障 海量运维数据的分布式采集 海量运维数据的分布式存储 海量运维数据基于个性化规则的实时性分布式计算 海量运维数据基于个性化门户的高性能应用呈现 海量运维数据深度挖掘分析1今天
14、IT运维面临的挑战2面向未来IT运维“新四化”之路3优锘IT运维“新四化”解决方案4优锘IT运维“新四化”成功案例目录 CONTENTS配置数据监控数据事件告警操控数据流程数据图数据集数据处理层数据存储层JDBCWeb ServiceMQSocket数据接口层性能处理引擎事件处理引擎RESTful3D可视化编辑引擎2D可视化编辑引擎1D可视化编辑引擎配置管理视图管理场景管理诊断管理恢复管理自动化控制应用画像基础管理可视赋能层应用功能层操作调度引擎运维数据仓库运营门户层个人工作台大屏门户掌上门户优锘IT运维“新四化”解决方案整体架构可视化IT架构配置管理 业务视图可视化业务视图可视化业务交易从业
15、务处理的视角,梳理业务的端到端处理过程,实现交易路径和功能处理模块的可视化管理可视化元素最终用户,业务交易,交易路径,功能组件,应用系统管理功能为业务部门和IT管理人员提供统一的业务运行实时信息提供交易监控可视化、业务指标可视化、交易路径及交易拓扑可视化运行异常时的业务影响范围可视化分析和故障组件定位等功能1应用视图可视化应用视图可视化应用关系从应用系统的视角,梳理展示应用系统之间及应用组件之间的交互关系,形成应用系统全景视图可视化元素应用系统,应用组件,交互关系管理功能为IT管理人员提供应用系统的全景视图管理系统间的交互和上下游关系信息整合监控信息,实时监控应用运行状态可视化IT架构配置管理
16、(续)资源视图可视化资源视图可视化应用组件从系统组件的视角,构建应用系统逻辑架构和物理部署架构可视化元素软件实例,操作系统实例,虚拟机,服务器,数据交互关系管理功能提供以应用系统为单位的清晰管理视图支撑应用系统运行架构可视化,及运行环境中的中间件、数据库、应用程序等组件实例可视化管理提供系统逻辑架构和部署架构管理,实时监控,报警关联及可视化分析等功能可视化IT架构配置管理(续)网络视图可视化网络视图可视化网络视图从网络的视角,构建支撑应用和业务的网络拓扑架构可视化元素网络设备、逻辑网络、物理网络,数据交互关系管理功能提供以网络结构为单位的清晰管理视图提供虚拟网络和物理网络的管理,实时监控,报警
17、关联及可视化分析等功能可视化IT架构配置管理(续)可视化IT架构配置管理(续)组合视图可视化组合视图可视化从支撑业务的网络设备、服务器、应用系统、业务渠道各层次的视图进行组合,实现IT架构端到端的可视化,更加直观的展现业务的支撑和影响关系。可视化元素业务渠道、交易量、应用系统、服务器、存储、网络设备,交互关系管理功能为IT管理人员提供端到端的全景视图管理系统间的交互和上下游关系信息整合监控信息,实时监控应用运行状态辅助故障定位和影响分析集中化监控管理Before 分散在各监控系统中的性能/告警列表After 应用端到端监控视图网管监控应用监控主机监控2场景化运维管理 场景管理场景管理针针对日常
18、运维场景进行汇总,在各类场景视图上,运维人员可清楚了解,运维所需要各个步骤,并调出相关系统的各类监控相关信息可视化元素业务渠道、交易量、应用系统、服务器、存储、网络设备,交互关系管理功能整合监控信息,实时监控应用运行状态自定义指标、监控阀值,提高告警准确率对不同的角色或者业务,可设计不同的管理场景,来满足运维不同层次的需求3场景化运维管理(续)自动化诊断与恢复自动化诊断与恢复在故障发生时,可根据预先定义自动匹配恢复方案,并通过任务引擎调用故障处理脚本,对故障进行自动恢复操作。管理功能减少故障排查和处理时间节约人力成本,提高RTO场景化运维管理(续)自动化接口适配器自动化接口适配器根据场景中预定
19、义的规则、阈值,通过任务引擎自动调用执行相关自动化脚本。众创化运维平台 场景发布场景发布/订阅订阅自助创建可视化管理场景领域专家/运维人员订阅订阅订阅4众创化运维平台(续)社区管理社区管理用户空间验证创建发布订阅社区分析我的管理场景我订阅的管理场景最热门的管理场景最新的管理场景最勤劳的*运维社区1今天IT运维面临的挑战2面向未来IT运维“新四化”之路3优锘IT运维“新四化”解决方案4优锘IT运维“新四化”成功案例目录 CONTENTS领域产品应用设备资源配置项Ci指标项KPI运维数据数量12100+2000+10500+主机/应用60+项/17亿条/日1.7TB/日示例LTCIPDITRFIN
20、HRiSalesPRMCIRCPPeSee 主机类指标:20,BPPM原生 进程应用类指标:20,BPPM原生 IO及业务类指标:20,eSee原生 长期看所有CI所有指标数据都将接入eSee统一管 大多数应用占用主机资源数在10台左右 像iSales这样的单个应用占用主机资源即超过500 每应用10台主机,60个指标,每分钟1次采集,每条性能数据1K 每应用单日性能数据条数86.4万条,864MB 2000个应用每日17.28亿条性能数据,1.7TB数据量 当前已经接入每日性能数据2000万条约6GB成功案例:华为eSee项目37万 网络设备约10万 存储网络设备3万+X86物理主机约5万
21、X86虚拟机约3.6万 成功案例:华为eSee项目(续)eSee门户后台管理(对象、指标集成)在线编辑业务流业务流运营可视详情/历史业务流Dashboard用户订阅01234578业务流IT运营邮件提醒6IT基础设施可视/诊断自动化IT运营对象运营应用层数据管道层运营微服务池存储分析层结构化实时结构化定时按需触发非/半结构化对象控制数据可视化服务核心配置大数据分析组件用户业务产品运维/运营数据仓库业务流监控服务DCIM微服务智能BI 服务诊断自动化微服务大数据应用微服务订阅提醒微服务IT场景化监控智能BI分析DCIM大数据应用Your APP+DataBankApplicationServic
22、ePlatformP+A+S 构建构建eSee平台:平台:IT智能运营可视平台智能运营可视平台-eSee(Platform),根植于,根植于SOA架构设计理念,架构设计理念,拉通拉通IT运营各维度数据,运营各维度数据,打破打破&互联各信息孤岛。提供数字化、可视化、智能化等平台微服务互联各信息孤岛。提供数字化、可视化、智能化等平台微服务(Service),通过服务级组装形成业务流,通过服务级组装形成业务流IT可视、智能可视、智能BI、DCIM、数据洞察等应用、数据洞察等应用(Application),实现华为实现华为IT“业务、产品、用户业务、产品、用户”的数字化运营的数字化运营.关键业务流IT
23、运行状态可视系统、存储、硬件诊断一键自动化提供系统、存储、硬件的“一键式”批量自动化诊断/健康检查工具,故障定位效率提升67%(周期30分钟减少到10min)。事件平均解决周期减少50%(2小时减少到1小时);固化专家管理员日常故障诊断定位经验实现LTC/财经/ISC/WEB/IPD领域关键30个业务流IT监控可视化、覆盖50个关键级应用纵向监控可视化。在半年度、第三季度业务冲刺和财报月结期间总共预警提前发现60+个隐患。三季度业务高峰保障期间,提前预警iTrigger二级问题。先于用户26min、先于项目组50min。5大领域、60+共有业务流、6976个CI、25300+关键指标监控可视化
24、 EIP集成管道可视化、每月减少50+事件、定位效率提升24倍“1键式”自动化诊断,故障定位效率提升67%、解决周期减少50%业务流IT运营可视化成功案例:华为eSee项目(续)1)应用监控风险预警 2015-04-25:cfs应用在szxap687-in节点上出现高cpu占用异常,可能影响用户访问响应性能。2)登录应用服务器查看,其cpu利用率一直大于200%+3)有两个用户线程,一直占用100%cpu资源成功案例:华为eSee项目(续)4)从javacore中可以看到,上述两个用户线程。5)其对应java代码堆栈如下:成功案例:华为eSee项目(续)6)堆栈中没有跟cfs业务强相关的类,根
25、据框架相关的类分析,应该是调用某个下载服务时执行生成图像的代码时挂起。7)此问题隐患通常情况下不会影响应用的可用性,但是极端情况下当服务器节点所有cpu资源都被占满会导致应用响应缓慢,或不可访问。临时解决方案为当出现大量此类线程时,手工重启该节点应用。成功案例:华为eSee项目(续)更多成功案例招行云图项目客户挑战架构图分散存放,难以获取。架构图与实时管理数据脱节,信息不丰富、且难以维护缺乏体系化管理,绘图标准不一,难以理解解决方案基于运维可视化平台,实现架构图的在线统一管理客户收益更易用的架构图更准确的架构图更丰富的架构图更规范的架构图上交所流程可视化项目客户挑战流程图线下分散难以收集、且没
26、有统一规范,与真实环境数据不同步。各流程状态监控图的每一个节点都需单独定制,制作成本高状态监控图只能显示实时状态,与其它真实业务运维数据脱节。解决方案基于流程配置库在线管理流程图流程图监控模式实时关联监控数据提供个性化多模式多场景定制能力客户收益实现了流程图线上规范化管理,多风格多模式功能效果满足多场景应用大大降低监控视图制作维护成本提供了统一在线协作知识分享的运维平台招行一体化运维管理平台客户挑战各专业领域工具成熟,但整合度低缺乏全景监控视图故障应急时需频繁切换工具解决方案整合监控和配置数据应用端到端监控集成自动化操控工具客户收益可视化全面描述应用全景-端到端提升故障诊断效率提升故障处理效率
27、北京农商银行客户挑战管理数据分散各自独立运行监控运维缺乏应用系统各类架构图无法实现自业务应用到IT基础设施的端到端管理视图,出现问题难以分析影响确定根源解决方案将线下管理的配置数据进行梳理整合构建统一的配置管理库以组合视图的形式实现业务应用到网络通信的端到端可视客户收益建立起了统一的配置管理平台实现了IT端到端架构可视集中展示配置监控数据提升日常运维效率中国邮政储蓄银行客户挑战部分管理数据依靠线下维护无法保证准确性业务应用、系统管理、网络管理等专业工具独立运行,数据难以统一协调管理各领域分割的专业数据缺乏系统有效的可视化分析手段解决方案建立统一的线上配置架构管理平台建立统一的集中监控平台通过组合视图三维展示实现系统端到端可视客户收益配置管理情况透明化配置监控运维一体化监控信息呈现多样化