自动化监控平台实践-课件.pptx

上传人(卖家):三亚风情 文档编号:3190708 上传时间:2022-07-31 格式:PPTX 页数:42 大小:4.09MB
下载 相关 举报
自动化监控平台实践-课件.pptx_第1页
第1页 / 共42页
自动化监控平台实践-课件.pptx_第2页
第2页 / 共42页
自动化监控平台实践-课件.pptx_第3页
第3页 / 共42页
自动化监控平台实践-课件.pptx_第4页
第4页 / 共42页
自动化监控平台实践-课件.pptx_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、 1号店自动化监控平台实践张定鹏 资深架构师 1号店摘要案例背景 线上有事故了,怎么没收到告警?哪里能看到?这个业务不是我负责的,为什么告警给我?这个业务正在发布,怎么收到这么多告警?现象现象 发布错漏 告警缺失 责任混乱 排障迟缓面临的挑战无盲点无盲点全覆盖全覆盖无误报无噪点实时性实时性及时性及时性标准化智能化运营化案例介绍告警收敛告警过滤根源定位CMDB监控模板监控部署日志规范告警事件标准业务健康事故处理中心监控大屏摘要乐道云平台监控平台架构-模块TrackerTrackerHealthChecHealthCheck kSOASOA采集采集ZabbixZabbixSNMPSNMPIPMII

2、PMILogAgentLogAgentScriptScript监控数据监控数据日志日志业务数据业务数据配置数据配置数据监控平台架构-全方位采集TomcatTomcatNginxNginxMemcacheMemcacheDatabaseDatabase服务器服务器交换机交换机路由器路由器存储设备存储设备负载均衡负载均衡WebWebWebWebServiceServiceServiceServiceSOASOATrackerIPMILogAgentHealthCheckZabbixZabbixSNMPSOA采集日志日志业务业务数据数据监控监控数据数据配置配置数据数据 日志:50亿条/天(峰值)监控

3、:2.6亿条/天(均值)调用:37亿次/天(均值)摘要实践1-标准化 标准化程度决定产品的高度 数据标准化 CMDB 监控模板 日志 告警事件 流程标准化 监控部署标准化-CMDB 困难困难 来源多 格式杂 牵涉广 状态乱业务信息业务信息组织关系组织关系基础资源基础资源主 机交换机存 储部 门站 点机 柜机 房应 用系统配置运 维负责人研 发 应用模板供应商依赖关系标准化-监控模板 不同设备有各自的默认模板服务器,虚拟机,交换机,负载均衡,反向代理等标准化-监控模板 每个应用有对应的自定义模板缓存,软件负载均衡,DB,消息队列,Web Server等标准化-监控部署装机空闲期服务期维护期报废替

4、换模板禁用启用禁用启用删除监控添加监控空白模板 由部署系统触发监控状态和模板的变更标准化-日志 不同类型的日志规定各自固定的目录;规范的日志文件名形式;路径路径 日期 时间 日志级别 线程 位置 日志内容;规范时间格式;规范日志级别;格式格式 规定日志中不能出现敏感信息的内容;内容内容日志平台日志平台访问日志应用日志应用日志交换机日志硬件日志Track日志标准化-告警事件 预分配 权限验证API统一接入规范化消息发送路径标准化事件等级标准化事件类型标准化事件源规范化 层级类型 业务类型 数据类型 设备等级 应用等级 严重等级 等级依据 所属部门 默认路径 去除多路 唯一入口存在的问题存在的问题

5、 都是自定义的,到底谁报的?什么类型的告警?内容分不清 这个告警到底严不严重?设置的通知人离职了,没人收到这条告警 告警只有内容和IP,怎么按部门统计?数量太多数量太多看不过来看不过来内容各式各样,内容各式各样,无法区分无法区分问题在哪?问题在哪?如何发现问题智能实践2-告警智能化告警告警去重去重合并合并收敛收敛根源根源定位定位智能化-告警事件系统架构APIRabbitMQWorkerWorkerWorkerMysql事件告警CMDBHR DB收敛策略过滤策略通知策略NotifyRabbitMQ设置设置分析分析智能化-告警事件去重合并 消除波动性误报;消除由于发布变更等引起的误报;去噪去噪 不

6、同类型告警设置不同的时间有效性;按时间区间去重按时间区间去重 CPU使用率、负载,网卡流量等不会直接影响服务的告警;按应用合并、按IP合并、按内容合并;稳定性告警合并稳定性告警合并 HealthCheck,软件进程、服务是否挂掉等直接导致不可用的告警;相同层次的告警按应用合并成条;可可性告警合并性告警合并智能化-告警事件收敛Application(Application(HealthCheckHealthCheck)Software(Alive)Software(Alive)System(Ping)System(Ping)Network(Ping)Network(Ping)系统故障因服务器、路

7、由器、交换机等损坏以及操作系统文件配置、网络配置引发系统宕机导致1号店系统无法正常使用的事件。智能化-告警事件收敛应用故障设计需求理解偏差,设计缺陷、程序Bug、操作数据库及发布失败,回滚引发的导致系统无法正常使用的事件。负载均衡负载均衡(Usable)(Usable)HealthCheckHealthCheck告警(大量)告警(大量)数据接口(数据接口(ErrorError)缓存缓存(Usable)(Usable)数据库数据库(Usable)(Usable)变更系统(记录)变更系统(记录)告警收敛案例1-系统故障核心交换机核心交换机物理机虚拟机TomcatAPP接入交换机接入交换机物理机虚拟

8、机TomcatAPP物理机虚拟机TomcatAPPPingPing交换机日志交换机日志进程存活进程存活端口连通端口连通HealthCheckHealthCheckPingP告警收敛案例2-应用故障缓存接口JDBC缓存接口JDBC缓存接口JDBCHealthCheckHealthCheck(大量大量)记录记录访问失败访问失败日志告警日志告警PingPing端口连通端口连通实践3-运营化运营化服务用户体验产品 协助改善 协同参与 运营推广 业务健康指标 事故处理中心 监控大屏运营化-业务健康系统架构事件API告警事件系统采集采集WorkerWorkerWorkerAPI业务系统Redis Queu

9、e业务业务日志SQLAPIAPIRedis Queue告警判断告警判断WorkerWorkerWorkerMysql告警规则采集策略指标添加运营化-业务健康指标 添加业务健康指标项运营化-业务健康指标 添加采集方式DB,API,应用日志运营化-业务健康指标 添加告警规则阈值,时间区间,报警间隔等事故发生了,怎么办?事故处理中心事故处理中心运营化-事故处理中心开启事故开启事故信息汇总信息汇总事故处理事故处理关闭事故关闭事故过程记录过程记录告警日志发布手动输入重启,回滚,扩容处理处理事故后事故后分析分析事故记录事故记录分析总结分析总结事故处理中心事故处理中心运营化-监控大屏摘要案例ROI分析Ping无响应告警进程存活告警全部告警Ping无响应告警进程存活告警全部告警下降70%下降72%下降85%告警数量明显下降 业务和运维人员定位问题更加准确和及时案例ROI分析1351652020040060080010001200140016001800业务应用健康指标业务健康接入业务健康接入 接入40%的业务应用 业务部门可以随时看到自己关心的业务指标展望打通全链路机器学习故障预测摘要案例启示朝气蓬勃的团队

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(自动化监控平台实践-课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|