1、现状与痛点&IT监控运维管理诉求云环境监控系统虚拟化监控系统基础设施监控系统服务器监控系统网络监控系统!日志分析系统!应用性能管理系统!风险根源问题IT运维人员告警风暴从一个真实的故事开始:一天,轮到小李值班,突然几个系统同时发出告警(告警风暴),小李哪里见过这阵仗,顿时感觉手脚无措,能想到的就是马上给师傅打电话求助。小李按照师傅的建议从服务器开始慢慢排查,从系统告警到问题解决,已经过去了几个小时期间,由于用户没法访问系统服务,信息中心接到很多投诉电话。最终的结果是,由于出现被投诉等不良事件,IT运维部被内部通报批评,小李也被扣罚当月奖金这也只是运维工作中一个小小的缩影。客户场景之NIT运维部
2、门?天花板主机数据库中间件动力环境存储网络设备.IT资源管理功能使用是否方便系统访问是否缓慢系统故障响应和排除是否及时.用户体验管理用户访问响应时间用户满意指数系统吞吐量系统错误率用户来源地系统需求执行时长网络传输时长数据库SQL执行时长用户体验指标业务部门 IT设备规模大且分散、管理困难 缺少可视化管理&自动化管理手段 IT环境异构、业务系统繁多 无法快速适应复杂环境设备的监管 人员能力层次不齐,服务范围广 缺少规范的、自动的流程化管理密室之内痛密室之外痛 业务负载逐年增加,无法确定功能完整可用性 业务形态更加多种多样,部署环境愈加复杂 为了适应发展的需求,业务调整日趋频繁 云技术的成熟,一
3、定程度上减少了企业自建运维团队的需求 技术的快速演进,对运维团队提出了更高的要求基础设施基础设施网络网络存储存储服务器服务器虚拟化虚拟化数据库数据库中间件中间件业务应用业务应用现状与痛点:IT监控运维密室的内与外应用场景运维主管资源总览容量规划运行统计IT基础设施运维工程师故障处理根源分析设备监管运行报告告警通知流程优化业绩考核决策分析流量分析业务系统数据中心应用系统运维工程师性能监测健康检查自动巡检用户体验预测分析瓶颈定位对智能化IT监控运维的期待(岗位)IT设施自动巡检运维知识库故障快照/自动处理故障预测/主动预警故障精准定位应用性能监控预警应用潜在风险预测应用可用性巡检工作量统计持续优化
4、的支撑数据配置/资产管理业务可用性SLA遵守情况流程运转情况战略决策支撑数据部门运转分析支撑数据业务优化支撑数据应用体验分析运运维维主管主管ITIT运维运维工程师工程师应用运应用运维维工程师工程师对智能化IT监控运维的期待(管理)离散人工信息被动传统管理方式自 动知 识一体化主 动信息展现信息处理信息提取信息采集智能管理方式E ES SV V更好地进行业务保障业务的稳定性、可靠性要求越来越高,业务系统对IT支撑的依赖性越来越强。切实地提高服务质量IT架构的复杂度不断加深;IT运维部门工作职责越来越重真正地降低系统风险IT运维人员不足难以应对繁重的运维要求;IT事故将直接影响业务,责任重大对智能
5、化IT监控运维的期待(效果)度量中心流程中心监控中心操作中心配置管理资产管理可视可视协作协作智能智能自动自动运维可视化展示运维大数据分析服务流程管理运维即时协同远程桌面协助运维知识库资源集中监控网络/应用拓扑应用性能监控应用体验分析运维门户业务系统自动巡检应用自动交付部署基础设施自动体检智能化IT监控运维平台逻辑架构统一访问门户 Portal配置管理配置管理变更管理配置模型维护配置统计分析IT资产管理系统资产规划资产申请资产配置变更出入库与分发维保管理变更管理配置更新配置审计资产统计分析资产模型维护资源分配资产盘点库存管理报废管理运维管理工单管理排班管理事件管理变更管理配置管理发布管理问题管理
6、知识库管理基础设施监控模块供配电多功能电量仪ATSUPS发电机组蓄电池PDU第三方监控系统制冷环境冷机冷塔温湿度CO2精密空调新风排风微环境漏水安全防护视频监控门禁入侵报警消防系统消防报警气体消防消防喷淋统一用户管理统一配置管理统一权限管理统一菜单管理IT基础设施监控模块服务器硬件数据库存储设备应用拓扑网络拓扑机器数据分析大屏展示系统三维仿真基于DSL的检索引擎基于业务的数据分析容量管理能耗管理容量计算容量规划容量分析位置推荐及模拟影响PUEWUE能耗可视化节能策略实时数据流式处理应用性能监控模块预测分析用户体验监控代码级监控应用性能分析网络设备中间件大数据环境业务巡检预测分析用户体验监控代码
7、级监控业务可用性巡检服务器登录审计数据库访问审计防火墙日志审计移动设备管理模块设备访问管理在线情况监控移动设备管理智能化IT监控运维平台技术架构统一访问门户 Portal配置管理配置管理变更管理配置模型维护配置统计分析IT资产管理系统 资产规划资产申请资产配置变更出入库与分发维保管理变更管理配置更新配置审计资产统计分析资产模型维护资源分配资产盘点库存管理报废管理运维管理工单管理排班管理事件管理变更管理配置管理发布管理问题管理知识库管理基础设施监控模块 供配电多功能电量仪ATSUPS发电机组蓄电池PDU第三方监控系统制冷环境冷机冷塔温湿度CO2精密空调新风排风微环境漏水安全防护视频监控门禁入侵报
8、警消防系统消防报警气体消防消防喷淋统一用户管理统一配置管理统一权限管理统一菜单管理IT基础设施监控模块操作系统监控网络设备监控数据库监控应用中间件监控存储设备监控网络拓扑展现应用拓扑展现告警通知框架采集策略框架统计分析报表应用性能监控模块.Net应用预测分析用户体验监控代码级监控JAVA应用应用性能分析PHP应用机器数据分析大屏展示系统三维仿真安全合规业务分析自动化巡检平台业务巡检基础设施巡检自动盲检巡检定义巡检调度巡检告警巡检报告基础设施巡检容量状况巡检性能状况巡检信息安全巡检容量管理能耗管理计算规划分析推荐及模拟PUEWUE能耗可视化节能策略智能化IT监控运维平台逻辑功能应用系统自动化测试
9、自动化测试,从目标系统真实操作环境中创建测试用例,有效降低开发和测试成本。可视化用例录制,轻松录制创建测试用例。参数化测试数据,保证测试覆盖度。零编码断言配置,配置选项方式设置断言。无污染事务提交,自动清理测试过程垃圾数据。自动化测试任务,自动化执行定制测试任务。图形化测试报告,按需发布测试报告。低效地手动构造测试数据繁重的环境搭建工作 难于管理庞大的配置文件高昂的日常维护成本凌乱的测试任务和报告通过自动化测试手段来有效提高开发效率和降低测试成本接口测试边界测试单元测试回归测试冒烟测试覆盖率测试集成测试恢复测试安全测试压力测试性能测试部署测试系统测试确认测试准则配置评审A/B测试确认测试网络拓
10、扑及流量追踪数据中心资源网络拓扑手动设置拓扑自动发现及故障预警网络设备监控流量分析监管设备RequestSyslogTrapResponse基于SNMP(MIB)协议的网络设备监控基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现IT软硬件资源监控Hypervisor虚拟化网络CSSPlugin PlatformSNMPHypervisor Adaptor基础设施监控 PDU UPS ATS 空调 Windows Linux Solaris AIX NetAPP EMC 防火墙 负载均衡 路由器 交换机 XenServer Vmware KVM XEN RHEV Powe
11、rVM 数据库(DB2、MySQL、Oracle、SqlServer)应用服务器(Tomcat、WebSphere、Weblogic、JBoss)消息中间件(ActiveMQ)行业应用 第三方应用采集周期:1min采集周期:2min采集周期:3min应用中间件JMX/JDBCRest/WebservicePlugin PlatformCSS新资源SNMP/Modbus存储SNMP/SMI-S动力环境服务器SNMPPlugin PlatformCSS资源集中监控资源监控配置插件开发支持新类型资源监控从动环基础设施IT基础设施硬件数据库中间件自定义脚本,快速满足不同客户实际的IT监控需求IT运维工
12、程师移动设备的安全管控0102030408070605基本信息获取应用上传管理设备指标检查在线情况监控多维智能分析便捷升级更新合规使用限制使用情况统计移动设备移动设备全面维护 提高运维工作效率移动应用移动应用高效管控 降低运维工作难度业务应用性能监控一站解决应用性能管理问题全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。应用系统健康体检业务流程巡检业务流程巡检巡检脚本录制巡检脚本导入业务检查点设置交互数据管理巡检流程编排业务流程执行系统遍历巡检系统遍历巡检遍历规则配置遍历检查项设置移动应用巡检移动应用巡检安装启动监测兼容性适配巡检脚本录制跨设备巡检执行标准遍历执行深
13、度遍历执行业务可用性体检业务状态分析业务状态分析业务可用性僵尸门户监测客户端性能分析敏感词监测坏死链检查应用安全分析系统日志分析系统日志分析主机访问量分析业务跳出率分析HTTP请求分析区域用户量分析业务办理量分析系统状态报告安全合规检查业务应用系统操作系统中间件数据库预处理建立关预处理建立关联模型联模型实时实时采集采集处理处理日志数据分析平台即席查询统计报表数据挖掘实时告警仪表板索引存储PB级日志数据管理能力实时实时采集采集处理处理实时实时采集采集处理处理基于业务系统的多层次机器数据,实现完善的安全合规审计保障操作系统-日志定期安全审计自动化威胁检查网络攻击分析告警分析 页面告警 邮件告警 短
14、信告警 微信告警 声音告警应用故障根源分析应用发生故障告警应用监控用户会话用户会话并发连接数并发连接数可用可用性性线程池线程池性能性能JMXRestJMXWeb ServiceHTTP设置告警策略实际故障点故障分析模型故障分析算法分析结果故障定位通知短信邮件页面告警根据请求自动拓扑应用故障快速定位应用访问预测分析 业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。!应用性能未来负载变化趋势预测潜在风险及问题分析定位资源配置策略预测分析历史实时未来计算存储网络可视化分析&展现从分散粗放到统一精细操作系统网络流量流量分析虚拟化监控硬件监控存储监控ZabbixNagiosCactiPR
15、TGvCenter自身管理端一体化集中平台Hypervisor虚拟化网络SNMPSDK中间件JMX/CLI存储SNMP/SMI-S服务器SNMPAgent数据库JDBC新资源协议统一展现统一策略统一告警统一操作不同类型资源不同单一管理工具业务聚合指标实现故障根源追踪应用响应时间突然增大网卡主机磁盘交换机端口G/0/2NIC1/opt/dataApp-host进程java业务weblogicserverwebserverAppwebear2中间件数据库负载设备Appwebear1形成业务拓扑发现业务异常追踪故障根源被动告警到主动式巡检业务可用性自动巡检保障、追溯故障影响范围业务可用性自动巡检保障
16、、追溯故障影响范围业务巡检网卡主机磁盘交换机端口进程serverApp中间件数据库负载设备App发现问题自动巡检快速修复告警通知智能故障分析业务拓扑钻取解决告警硬件巡检重复运维工作自动化运维工作枯燥、重复、不及时提取脚本发送邮件.sh清理磁盘.sh重启服务.sh关闭服务.sh数据备份.sh.任务自动巡检计划报表计划维护计划备份.触发器自动化传统监控转向智能分析操作系统磁盘使用率过高服务器磁盘损坏数据库表空间使用率过高交换机端口流量异常虚拟化资源池容量不足HDFS磁盘使用率不足.IT监控应用性能监控请求响应时间过长SQL执行时间过长代码执行效率低下系统软件配置失当.硬件故障率分析Top服务器硬盘
17、故障分析Top服务器电源故障分析Top存储控制器故障分析Top存储硬盘故障分析虚拟化资源池分析Top剩余量存储分析Top停机时长vm分析Top磁盘消耗vm分析Top磁盘日均增长vm分析Top 磁盘读写效率vm分析Top 内存使用vm分析服务器性能分析Top CPU使用率机器分析Top 内存使用率机器分析Top 磁盘使用率机器分析Top 性能故障告警分析Top 磁盘读写速率分析数据库性能分析Top 表空间剩余量分析Top SQL性能分析Top 缓存命中率分析Top 日志日均增长分析Top 磁盘读写速率分析网络流量分析Top 会话流量排行分析Top 源IP流量排行分析Top 源端口流量排行分析Top 目标IP流量排行分析Top 目标端口流量排行分析Top 协议流量排行分析各种统计报表,提升分析价值提升运维能力积累针对不同资源(服务器性能、硬件健康、日志状态、日志关键字、进程性能、数据库性能等)的告警处理,通过知识库可以实现运维方案的知识积累,方便知识的传递与故障的快速解决。告警事件告警时间原因分析处理方案处理结果告警资源处理人附件信息告警类别知识关键字提升故障处理效率知识共享知识积累知识转化