1、智能运维中的科研问题技术创新,变革未来报告主旨智能运维落地的核心挑战:工业界:有数据、有应用,但是欠缺算法经验学术界:有理论算法,但没数据、不熟悉智能运维场景工业界-学术界合作:一对一交流效率低、见效慢、不开源开放报告主旨智能运维落地的核心挑战:工业界:有数据、有应用,但是欠缺算法经验学术界:有理论算法,但没数据、不熟悉智能运维场景工业界-学术界合作:一对一交流效率低、见效慢、不开源开放解决思路:科研问题为导向把应用难题分解定义成切实可行的科研问题企业提供脱敏数据作为benchmark 学术界贡献算法智能运维发展历程手工运维自动运维DevOps智能运维智能运维发展历程手工运维自动运维DevOp
2、s智能运维分析决策(人工(人工-规则规则-机器学习机器学习)控制(自动化脚本)监测(海量日志)AIOps in Gartner Report工业界:AIOpsAIOps:Artificial Intelligence for IT Operations7工业界:AIOps25%5%820162019AIOps全球部署全球部署率率30%25%20%15%10%5%0%AIOps:Artificial Intelligence for IT Operations Platforms机器:基础性和重复性的运维工作 为复杂问题给出决策建议向运维专家学习解决复杂问题运维专家:处理运维难题基于机器建议给出
3、决策 训练机器徒弟9智能运维前景光明运维工程师:逐渐转型为大数据工程师开发数据采集程序和自动化执行脚本 搭建大数据基础架构高效实现基于机器学习的算法机器学习科学家:AI的一个落地应用尚未开采的金矿和低垂的果实智能运维科研门槛较高 工业界行业领域知行业领域知识识互联网、电信、金融、电力网络10机器学机器学习习聚类、决策树、卷 积神经网络运维场景运维场景领领 域知识域知识瓶颈分析、异常 检测、故障预 测智能运智能运维维智能运维科研门槛较高 工业界行业领域知行业领域知识识互联网、电信、金融、电力网络机器学机器学习习聚类、决策树、卷 积神经网络运维场景运维场景领领 域知识域知识瓶颈分析、异常 检测、故
4、障预 测智能运智能运维维 熟悉行业和运维场景 熟悉生产实践中的难题 有数据 不熟悉如何把实际问题转化为 算法问题有时一个实践难题需要分解为多个算法问题一个个来解决 不熟悉科研参考文献特别是跨行业的文献11降低工业界门槛的努力:“智能运维前沿”公众号科普世界范围内智能运维的前沿进展;推动智能运维算法在实践中的落地科普世界范围内智能运维的前沿进展;推动智能运维算法在实践中的落地智能运维前沿课程课件(英文):智能运维前沿课程课件(英文):http:/ 学习、迁移学习、卷积神经网络,递归神经网络(RNN),变分自动编码(VAE)。发表于如下学术顶会发表于如下学术顶会:ACM SIGCOMM,ACM I
5、MC,ACM/USENIX NSDI,ACM MobiSys,ACM CoNEXT,ACM MobiCom,ACM SIGMETRICS,IEEE INFOCOM,ACM KDD,SIGMOD,VLDB,ICSE 来自Conviva/CMU 的一系列案例相关分析 信息熵增益 线性回归 SIGCOMM11决策树SIGCOMM13强化学习NSDI17通过机器学习,提升视频流媒体用户体验和观看时长智能运维科研门槛较高 学术界行业领域知行业领域知识识互联网、电信、金融、电力网络机器学机器学习习聚类、决策树、卷 积神经网络运维场景运维场景领领 域知识域知识瓶颈分析、异常 检测、故障预 测智能运智能运维维
6、 算法能力强不熟悉行业和运维的领域知识领域知识门槛高没有数据虽然有相关算法,但是不了解 其在智能运维领域的应用降低学术界门槛的努力应邀在CCF(中国计算机学会)会刊发表专栏文章,向学术界大同行介绍智能运维科研问题16如何落地:从去年开始号召工业界学术界密切合作微信公众号文章累计1w+阅读 工业界与学术界应该在运维领域密切合工业界与学术界应该在运维领域密切合作作工业界获得算法层面的深度支持学术界获得现实世界的前沿问题及数据,有利发表论文和申请国家项目新的合作17工业界-学术界合作 1.0:一对一交流合作运维运维运维运。维。教授。教授问题A问题A问题B问题A交流合作效率低、见效慢 智能运维算法不幸
7、成了特权:仅限于少数大公司与部分合作紧密教授 之间 国外:Google,Microsoft,LinkedIn,Facebook,Yahoo!涉及知识产权,不符合开源大趋势 数据不公开 代码不公开18工业界-学术界合作 2.0:开源开放教授运维运维运维运维。教授智能运维 问题库 AB工业界学术界合作开源开放大趋势工业界学术界合作开源开放大趋势:代码:代码:Hadoop EcoSystem(工业界)TensorFlow(工业界)Spark(学术界)算法:算法:arXiv.org数据:数据:ImageNet算力:算力:各大公司的AI云人才:人才:美国学术界批量向工业界流动1920受“普世化AI”启发
8、李飞飞李飞飞斯坦福大学副教授、人工智能斯坦福大学副教授、人工智能 实验室与视觉实验室主任实验室与视觉实验室主任ImageNet 创始人创始人谷歌机器学习部门负责人谷歌机器学习部门负责人21教授运维运维运维运维。教授普世化智能运维算法目标目标:让所有公司都能用上让所有公司都能用上最最 好的智能运维算好的智能运维算法法解决智能运维普世化的如下问题:数据 算法 算力 人才分解定义智能运维中的科研问题22Gartner报告中的问题描述太宽泛23科研问题要求科研问题要求:清晰输入;数据可获得 清晰输出;输出目标切实可行 有high-level 的技术路线图 有参考文献 非智能运维领域的学术界能理解 能解
9、决分解定义科研问题已经定义出的科研问题(即将公开发布在一个网站上)24落地智能运维科研算法 相对独立算法-直接可落地 依赖其它算法-“庖丁解牛”数据等条件不成熟-“退而 求其次”25科研问题定义之“基础模块”(即将公开发布在一个网站上)26KPI瓶颈分析算法面向问题 从多维属性数据中挖掘引发KPI瓶颈的条件输入 KPI数据及瓶颈阈值 可能影响KPI的属性测量数据输出 导致KPI瓶颈的属性(组合)27KPI瓶颈分析算法典型应用场景 Web 应用首屏时 间 移动应用加载时间 软件报错数 视频传输质量常见算法 决策树 聚类树(CLTree)层次聚类应用挑战 瓶颈可能为多种属性 和数值的组合 不同属性
10、之间可能存 在依赖关系 避免重叠表示 KPI可为单、双、多类 别28故障预测算法面向问题 在互联网服务运行时,使用多种模型或方法分析 服务当前的状态,并基于历史的经验判断在近期 是否会发生故障输入 当前服务的运行状态(Syslog日志、SNMP数据)历史故障案例输出 近期是否会发生故障/发生故障概率当前时刻故障预测测量数据29故障预测算法典型应用场景 硬盘故障预测 服务器故障预 测 交换机故障预 测常见算法 HSMM 随机森林 SVM应用挑战 故障案例少 日志量大 有益信息少30科研问题定义之“庖丁解牛”根因分析KPI异常检 测异常标注优 化相似异常查 找KPI趋势预 测故障传播链 构建异常事
11、件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析31故障根因分析算法面向问题 当前应用服务发生异常时,分析导致服务异常的 根本触发原因输入 服务相关的指标异常状况(包括客户端,网络,服务 端等)故障传播关系图输出 根因(排序列表)32故障根因分析算法典型应用场景 应用服务发生异常 时,快速诊断根因,快速止损。常见算法 基于故障传播链 概率图模型应用挑战 数据收集不全 故障案例少 依赖故障相关的先 验知识 异常检测存在漏报 误报33科研问题分解之“庖丁解牛”根因分析KPI异常检 测异常标注优 化算法KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关
12、 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析34相似异常查 找科研问题分解之“庖丁解牛”:异常检测根因分析KPI异常检 测异常标注优 化算法KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析35相似异常查 找KPI异常检测算法面向问题 检测KPI的异常行为输入 KPI时序测量数据 异常区间标注输出 KPI是否发生了异常36KPI异常检测算法典型应用场景 网络故障 服务器故障 配置错误 缺陷版本上线 网络过载常见算法 基于窗口 基于近似性 基于预测 基于隐式马尔科夫模型 基于机器学习 基于集成学习 基于迁移学习 基
13、于深度生成模型 应用挑战 KPI种类各异 KPI异常行为难以定义 调整算法、参数费时费力 需要人工标注 人工标注不准确37KPI趋势预测算法面向问题 通过分析历史数据,判断未来一段时间KPI的趋势输入 KPI的历史数据输出 未来一段时间KPI预测值历史数据38未来一段时间的趋势KPI趋势预测算法典型应用场景 机器资源需求预测 订单量预测 作为异常检测、异 常定位、容量预测 等科研问题的输入常见算法 ARIMA EWMA Holt-Winters 时序数据分解 RNN应用挑战 突发事件的影响 节假日,天气等因 素的影响 数据存在不规则的 变动39科研问题分解之“庖丁解牛”:异常检测-异常标注优化
14、异常标注优 化KPI内相似异 常查找相似KPI查找(KPI聚类)关联KPI查找40KPI相似异常查找面向问题 面对一根较长KPI曲线的标注,根据已经标出的片 段作为模板,找到该KPI曲线上其它的相似异常,减少重复标注的工作量。输入 一根待标注的KPI曲线和一段已经标注出的异常片 段(模板)输出 KPI曲线上与模板相似的异常片段模板41输入输出KPI相似异常查找典型应用场景减少异常标注量KPI时间序列信息 挖掘常见算法Matrix Profile similarity:DTW,Euclidean distanceMueen-Keogh(MK)Best-matching Pair应用挑战实时性要求
15、高异常定义复杂42KPI聚类算法面向问题 面对大规模KPI时序数据曲线,选取合适的 度量刻画曲线间的相似性,采用聚类与分派 算法快速确定曲线类别。输入 大量KPI时序数据曲线输出 每条曲线所属的类别原始KPI数据KPI聚类簇KPI聚类相似性判别43KPI聚类算法典型应用场景 KPI异常检测中的 迁移学习 相关异常查找,以 减少标注开销常见算法 DBSCAN K-medoids CLARANS应用挑战 数据量大 曲线模式复杂 对类别的定义不同 缺乏ground truth44KPI关联关系挖掘算法面向问题 互联网公司存在大量的各式各样的时序KPI 数据。KPI波动的相关性对于根因分析、故 障定位
16、等可以提供很好的线索输入 两条时序KPI数据输出 两条曲线波动是否相关两条KPI是否 相关45KPI关联关系挖掘算法典型应用场景 根因分析 故障定位 异常预测 跨KPI寻找相关异常,减少标注开销常见算法Pearson correlationSpearman correlationKendall correlationInformation gainGranger causality应用挑战 KPI种类繁多 关联关系复杂 无标注无监督46科研问题定义之“庖丁解牛”根因分析KPI异常检 测异常标注优 化算法相似异常查 找KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI
17、关联分 析KPI聚类全链路模块 调用链分析47故障传播关系图构建算法面向问题 系统故障发生时,异常事件众多且具有相 互导致关系。借助精准故障传播关系图,可以快速进行根因定位。输入 历史异常事件,全链路调用链,异常关 联,异常-KPI关联,KPI关联,KPI聚类输出 故障传播关系图,作为根因分析的输入48故障传播关系图构建算法典型应用场景 根因分析常见算法 Dapper:call graph KPI 聚类算法 KPI关联算法 事件关联算法:FP-Growth,Apriori 事件-KPI关联算法应用挑战 异常检测需要准确 可靠 Ground Truth 难 以获取 Call graph 不一 定
18、有49异常事件关联规则挖掘算法面向问题 分析异常事件两两之间的关联关系输入 近段时间发生的异常事件输出 异常事件的关联规则关联规则关联规则high cpu usage mem usagehigh cpu usage page view number 500high cpu usage err http port unreachablehttp port unreachable mem usagetime异常事件异常事件2014-10-29 06:09:10http port unreachable2014-10-29 06:09:10high cpu usage2014-10-29 06:10
19、:10page view number直接可落地 依赖其它算法-“庖丁解牛”数据等条件不成熟-“退而 求其次”64总结与前瞻65智能运维算法竞赛网站66诚邀在座各位共同参与!67 付出:参照科研问题提供脱敏数参照科研问题提供脱敏数据据资金赞助感兴趣的算法竞资金赞助感兴趣的算法竞赛赛 建议新的科研问题 参与社区讨论 回报:根据本公司实际问题,查询试用相关算法 根据网站建议,优化本公司数据采集和清洗工作 寻找潜在合作教授 在竞赛参与学生中招聘正在确认首批数据赞助商官方已经审批通官方已经审批通过过口头意向:五家大口头意向:五家大厂厂欢迎贵司参与欢迎贵司参与!68感谢工业界合作伙伴。69感谢清华Net
20、Man团队智能运维前景光明-具有丰富的数据和应用场景-将极大提高运维领域的生产力-是AI领域尚未充分开采的金库和低垂果实智能运维科研需要工业界-学术界密切合作,但是目前仅限于一对一合作:-合作效率低、见效慢-还是少数大公司和教授的特权-涉及知识产权,不符合开源大趋势解决思路:科研问题为导向,促进工业界-学术界合作 2.0-把应用难题分解定义成切实可行的科研问题-企业提供脱敏数据作为benchmark-学术界贡献算法71总结72与君共勉关于科研成果落地,我最推崇关于科研成果落地,我最推崇的的Albert Greenberg的两句名句的两句名句:“如何赢得学术顶会如何赢得学术顶会Test of time 奖?论文发表后再花五年时间奖?论文发表后再花五年时间把把 论文里的算法变成产品。论文里的算法变成产品。”“人们往往高估两年内能完成人们往往高估两年内能完成的的 成果;同时又往往低估五年内成果;同时又往往低估五年内能能 完成的成果。完成的成果。”