集团在AIOps领域的实践和整体思路课件.ppt

上传人(卖家):晟晟文业 文档编号:5084155 上传时间:2023-02-09 格式:PPT 页数:48 大小:2.86MB
下载 相关 举报
集团在AIOps领域的实践和整体思路课件.ppt_第1页
第1页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第2页
第2页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第3页
第3页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第4页
第4页 / 共48页
集团在AIOps领域的实践和整体思路课件.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、集团在AIOps领域的实践和整体思路2 关键指标的智能监控 智能告警合并 智能根因分析 智能故障自愈 智能监控概述 智能故障预警3智能监控概述 智能告警合并 关键指标的智能监控 智能根因分析 智能故障自愈 智能故障预警458集团网站简介5监控系统演进的几个阶段监控自动化监控系统可用、好用监控立体化监控覆盖面更全,采集到各维度更全面、更完整的数据监控平台化监控系统与其他运维自动化系统打通和联动监控产品化监控产品更贴近人的使用习惯,用户体验更好监控智能化让监控系统拥有更强的智能6传统监控与智能监控的差别 传统的监控 监控指标侧重单机运行状态 做固定阈值的异常判断 发出基本的告警,数量较大 做故障现

2、象的告警,需要大量的人工分析 发现问题而不处理,由人决定如何处理 发出告警时已经出现故障 智能监控 监控指标侧重业务整体运行情况 对周期性波动变化的指标做预测和异常检测 对信息做有效的区分和整合 做故障根因的分析,揭示问题的本质 根据故障根因,智能决定如何处理并执行 在故障出现前发出预警7智能监控总体规划监控业务全流程覆盖故障前可以发出故障预警能对周期性变化指标进行预测和异常检测支持按照合适的维度对告警进行合并智能对故障根因进行分析,给出最可能的原因,辅助人做决策可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障8智能监控概述 智能告警合并 关键指标的智能监控 智能根因分析 智能故障自

3、愈 智能故障预警910关键指标的智能预测和异常检测背景整体规律性较强、短期小幅波动较多的关键指标,不适合使用静态阈值适用场景网络出口或业务的进出流量集群和域名的访问量需求按天对流量的提前预测对实时流量的异常检测技术方案使用回归模型按天预测流量变化趋势使用分类模型对实时流量做异常检测11如何使用机器学习的方法明确问题:处理数据:我们要解决什么样的问题解决问题可能需要哪些数据我们可以获取哪些数据流量预测/异常检测历史时刻对应的流量数据清洗特征工程数据标记清洗接口异常数据统计判别结合无监督学习标记数据训练模型:选择模型训练模型验证模型离线训练模型交叉验证模型表现使用模型:线上加载定期修正BadCas

4、e分析修正模型12流量预测及异常检测的技术框架原始数据有标记样本库分类模型输出模型实时数据特征工程加载分类模型输出标记离线模块在线模块特征工程回归模型预测流量13训练集样本的标记原始数据有监督分类模型统计方法及无监督算法有标记样本库标记Top N为异常分类模型实时判断异常人工修正确认告警和异常3-sigemaTukeys testIsolation ForestOne Class SVM投票 2负样本投票=0正样本训练样本库分类器有标记样本库标记Top N无监督分类模型14统计判别方法3-sigemal 解释性好l 计算开销小l 更适用于正态分布,无法处理复杂情况正态分布15统计判别方法Tuk

5、eys test l 不受异常值的影响l 能够准确稳定地描绘出数据的离散分布情况l 过于敏感,不够智能Tukeys test16无监督算法Isolation Forest l 使用集成方法的无监督算法l 计算开销小,训练速度快l 异常点更加靠近树的根部,而正常数据多处于树中更深的节点17无监督算法One Class SVM l 利用支持向量域描述的思想,寻找分离超平面;l 适用于连续数据的异常检测l 适用于筛选一定比例的样本18流量预测整体规律性较强历史同期流量统计特征历史同期流量变化趋势移动平均特征历史特征:流量数据特点:短期小幅波动较多移动平均吸收短期波动工作日,周末,假期影响较大设计对应

6、的历史特征提取规则流量趋势可预测19流量预测的效果根据历史数据预测明天的数据20异常检测构建合适的对比样本库,提取特征用于对比 当日前n分钟流量数据 昨日同时刻前后n分钟流量数据 上周同时刻前后n分钟流量数据对比样本库对比样本库统计特征:均值中位数标准差最大值最小值偏度峰度样本对比特征:差值比值同比环比异常时流量一定有反常的波动异常发生频率较低统计判别结合无监督算法解决样本初始无标记问题21有监督算法LightGBMl 基于梯度提升树(GBDT)原理l 采用直方图算法,训练速度快,准确率高,可处理大规模数据l 支持类别特征22异常检测的效果基于数据异常程度将异常分为:普通异常、严重异常、陡变异

7、常23异常分级普通异常普通异常:数据与预期有一些短期的小的偏差,可能是与少量的用户突发访问或爬虫抓取引起的能发现短暂的流量异常,比较灵敏,通过连续n次异常才告警的策略过滤掉毛刺识别算法:机器学习算法判别24异常分级严重异常严重异常:数据长时间出现了较大的偏离,需要排查数据变化的原因可能是由于网络故障、系统故障或流量推广活动等引起较大的数据变化识别算法:机器学习算法+历史同期数据统计判别25异常分级严重异常 基于历史统计特征对比 基于用户反馈调节阈值 结合机器学习算法确认异常26异常分级陡变异常陡变异常:流量突然出现断崖式的增长或者下跌可能是受突发的网络流量攻击,或者系统出现严重问题,需要立刻高

8、优先级排查和解决识别算法:机器学习算法+均值比值阈值校验27异常分级陡变异常 多点平滑,去除一般毛刺 最大/最小值去除,避免个别极端值影响 结合机器学习算法确认异常28异常检测模型的普适性模型在时间序列异常检测问题上表现出较好的普适性适用于不同数量级的数据;适用于不同变化规律的数据;适用于不同业务的数据;29流量预测模型的个性化网络流量预测-业务集群访问量预测(使用多个模型进行预测)30智能监控概述 关键指标的智能监控 智能告警合并 智能根因分析 智能故障自愈 智能故障预警31智能故障告警实现的基础对告警的需求告警收敛精准告警告警发送策略告警分级:邮件-微信-短信-语音连续m次异常则告警/在m

9、分钟时间段内有n次异常则告警告警间隔5分钟,最多告警n次30分钟后未处理则升级,1天后未处理则提醒告警升级后使用升级后的告警级别和接收人32智能告警合并合并时间窗口1分钟(可自定义)合并策略根据集群合并根据IP合并根据网段合并根据异常种类合并根据宿主机与虚拟机的关系合并合并收益避免海量告警轰炸快速掌握故障情况辅助决策故障根因33智能告警合并维度选择类比决策树算法,基于基尼值最小化自动选择告警合并维度;基尼值34智能告警合并维度选择集群=58tongcheng 异常信息=页面关键字异常 合并条数=16集群=58tongcheng 异常信息=页面状态码非200 合并条数=16集群=58tongch

10、eng 异常信息=页面连接错误 合并条数=14集群=ganji 异常信息=页面连接错误 合并条数=2集群=anjuke 服务器ip =192.168.40.82 合并条数=235智能告警合并维度选择集群=?异常信息=?ganji合并条数=16合并条数=14合并条数=16合并条数=258tongchenganjuke页面连接错误页面连接错误页面状态码非200异常信息=?服务器ip=?合并条数=2页面关键字异常192.168.40.821.遍历全部备选维度,确认当前合并维度;2.基于合并维度划分数据集,继续选择合并维度;3.到达停止条件后停止;36智能监控概述 关键指标的智能监控 智能根因分析 智

11、能告警合并 智能故障自愈 智能故障预警37智能根因分析应用场景周期变化业务指标突变的根因分析网络出口流量突变网络出口流量与业务集群访问量突变多业务集群访问量突变多层监控根因分析服务器层(宕机)、系统层(资源使用率)、服务层(端口、进程存活)、应用层(页面、接口)、业务层(集群访问量)基于调用链的根因分析Nginx与业务集群业务集群之间的调用业务集群与存储服务的调用38智能故障根因分析基于数据相关性分析业务流量异常根因分析:异常发生时,基于流量/访问量曲线相关性定位异常根因39智能故障根因分析多业务网络流量的相关性分析左图为58集团某业务流量总端;右图为其对应的app、m、pc分端;总端流量异常

12、下跌时,基于流量曲线相关性确定根因是app端流量下跌;40智能故障根因分析某业务流量与集群访问量的相关性分析左图为58集团某业务流量;右图为其对应的集群访问量;同时段出现异常的集群访问量与业务流量相关性明显高于正常集群;41智能故障根因分析基于告警信息提取监控分层业务层(页面、接口)告警信息按层合并,异常发生时由上至下逐层获取告警信息,提取根因;优点:解释性好,结果可靠缺点:非常依赖监控的完备性42智能故障根因分析可视化视图异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因43智能故障根因分析调用链信息不完备44智能监控概述 关键指标的智能监控 智能故障自愈

13、智能告警合并 智能根因分析 智能故障预警45智能故障自愈故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户46智能故障自愈执行简单命令磁盘空间不足自动处理:删除预定义目录的文件服务挂掉自动拉起:执行重启服务的命令调用相关系统服务器宕机自动处理:自动恢复;自动分配备机、部署服务、切流量负载升高自动扩容:调用部署系统和云平台流量自动调度:操作DNS、四层和七层负载均衡服务进行流量切换47智能监控概述 关键指标的智能监控 智能故障预警 智能告警合并 智能根因分析 智能故障自愈48智能故障预警智能故障预警场景:接口、页面监控,业务集群访问错误率监控通过集群整体服务指标监控做故障告警通过对集群中单机服务指标监控做预警智能容量预警根据集群中异常服务器比例评估容量风险根据流量变化风险评估容量风险发现容量处于瓶颈的系统,自动给出扩容建议智能硬件预警基于硬件性能指标评估硬件损坏风险

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(集团在AIOps领域的实践和整体思路课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|