智能运维在金融核心领域的研究与应用课件.pptx

上传人(卖家):晟晟文业 文档编号:5205964 上传时间:2023-02-17 格式:PPTX 页数:37 大小:2.71MB
下载 相关 举报
智能运维在金融核心领域的研究与应用课件.pptx_第1页
第1页 / 共37页
智能运维在金融核心领域的研究与应用课件.pptx_第2页
第2页 / 共37页
智能运维在金融核心领域的研究与应用课件.pptx_第3页
第3页 / 共37页
智能运维在金融核心领域的研究与应用课件.pptx_第4页
第4页 / 共37页
智能运维在金融核心领域的研究与应用课件.pptx_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、智能运维在金融核心领域的智能运维在金融核心领域的研究与应用研究与应用01 背景介绍背景介绍02 智能运维研究智能运维研究03 智能运维应用实践智能运维应用实践04 智能运维实施路径智能运维实施路径2019中 国 数 据 智 能 管 理 峰 会架构特色架构特色2019中 国 数 据 智 能 管 理 峰 会运维三大挑战运维三大挑战安全运行安全运行 专有、封闭、集中专有、封闭、集中-国产、开放、分布式国产、开放、分布式 单数据中心单数据中心-多数据中心多数据中心人力紧缺人力紧缺 系统管理:人管机器系统管理:人管机器 值班运行:人盯系统值班运行:人盯系统远场运维远场运维 值班操作繁琐重复、夜班值守压力

2、增大值班操作繁琐重复、夜班值守压力增大 数据中心地点偏僻、远程运维需求迫切数据中心地点偏僻、远程运维需求迫切2019中 国 数 据 智 能 管 理 峰 会智能运维关键问题智能运维关键问题定义、特点、优势劣势、定义、特点、优势劣势、产学研现状、关键技术产学研现状、关键技术基础研究实施策略战略目标引入智能运维所引入智能运维所应达到的目标应达到的目标提出下一步实提出下一步实施方针与路径施方针与路径智能运维技术架构应用场景所处位置、系统架构、功能组件所处位置、系统架构、功能组件结合战略目标,寻找合适场景结合战略目标,寻找合适场景2019中 国 数 据 智 能 管 理 峰 会01 背景介绍背景介绍02

3、智能运维研究智能运维研究03 智能运维应用实践智能运维应用实践04 智能运维实施路径智能运维实施路径2019中 国 数 据 智 能 管 理 峰 会智能运维智能运维(Artificial Intelligence for IT Operations,AIOps)运维运维是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态的状态。2019中 国 数 据 智 能

4、 管 理 峰 会智能运维智能运维(Artificial Intelligence for IT Operations,AIOps)运维运维是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态的状态。2019中 国 数 据 智 能 管 理 峰 会智能运维智能运维 运维运维是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事是技术类运营维护

5、人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态的状态。2019中 国 数 据 智 能 管 理 峰 会智能运维智能运维 运维运维是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态。1.0 手工

6、运维手工运维2.0 自动化运维自动化运维3.0 智能运维智能运维 人工监控、人工决策、手工实施 特点:运维人员手工完成,低效;成本随系统规模增加而线性增长 利用脚本和程序完成重复性、大规模、批量化的工作 特点:减少人力成本、提高运维效率 通过人工智能算法自动从海量数据中学习总结规则,模拟人类作出决策 特点:由人工智能替代人类做决策2019中 国 数 据 智 能 管 理 峰 会优缺点对比优缺点对比智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大规模复杂系统,减轻人的负担。规模复杂系统,减轻人的负担。手工运维自

7、动化运维智能运维自动分析处理事件,将多种自动化工具实现联动,运维效率高运维效率受限于人为因素,运维效率较低 部分操作自动化后,运维效率较高手工运维时处理异常效率低,系 得益于自动化工具,异常处理与恢复 采用智能分析、预警、决策等手段,异常处理效率系统可用性系统可靠性统可用性相对较低速度较快,系统可用性相对较高高,甚至可规避异常,系统可用性高将重复性操作实现为自动化工具,采 结合自动化工具,并采用多种策略使用工具,高可用自动化运维时系统可靠性较高 靠性手工运维时系统的可靠性较低需掌握多个系统的运维知识和操 需对自动化工具有一定掌握,学习难 故障分析、预警及异常处理可由智能运维自动实现,学习成本作

8、指令,学习难度高、成本高度较高、成本较高学习难度与成本低建设运维的工具成本低,可采用系统自带的运维命令。但对复杂 建设自动化运维的成本较高,投入运系统的运维需投入大量的人力,维的人力成本则相对较低人力成本高建设与使用成本应用范围智能运维的建设成本较高,投入运维的人力成本低在互联网企业、金融行业得到广泛应运维基础手段,应用广泛,但不适用于分布式、大规模系统运维新技术,目前有部分金融企业、互联网企业开展研究与实践,适用于大规模分布式系统运维用,适用于集群系统、服务器数量一般的分布式系统运维2019中 国 数 据 智 能 管 理 峰 会创新触发期创新触发期期望膨胀期期望膨胀期冷静期冷静期启蒙复苏期启

9、蒙复苏期稳定成熟期稳定成熟期2019中 国 数 据 智 能 管 理 峰 会产学研现状产学研现状科科卡内基梅隆:卡内基梅隆:Netflix合作合作清华大学:交行清华大学:交行/阿里阿里/IBM南京大学:南京大学:360/腾讯腾讯阿里云:智能故障管理平台阿里云:智能故障管理平台百度:单机房故障自愈系统百度:单机房故障自愈系统互互联联网网研研机机构构腾讯:哈勃大数据平台、织云智能监腾讯:哈勃大数据平台、织云智能监控、蓝鲸智云监控控、蓝鲸智云监控技技 Splunk:大数据搜索与可视化:大数据搜索与可视化术术 华为:华为:FusionInsight厂厂 IBM:实时大数据分析驱动:实时大数据分析驱动商商

10、金金融融行行业业运维大数据:交行运维大数据:交行/中行中行智能巡检:阳光保险智能巡检:阳光保险/上海银行上海银行容量评估:太平洋保险容量评估:太平洋保险/招行招行京东京东/IBM/国自:巡检机器人国自:巡检机器人2019中 国 数 据 智 能 管 理 峰 会核心技术组成核心技术组成 大脑:智能运维算法大脑:智能运维算法。它利用人工智能算法,根据具体的运维场景、业务规则或专家经验等,对运维事件进行分析、定位,并作出决策智能运智能运维算法维算法 手:自动化运维工具。手:自动化运维工具。眼睛:运维大数据平台眼睛:运维大数据平台。它能采集、处理、存储、展示各种运维数据,感知与洞察技术系统它基于确定逻辑

11、的运维工具,对技术系统实施诸如运行控制、监控、上线等系列处理操作运维大运维大数据平数据平台台自动化运自动化运维工具维工具2019中 国 数 据 智 能 管 理 峰 会运维大数据平台运维大数据平台运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的状态、事件、异常等信息,一般可分为动态数据和静态数据两类状态、事件、异常等信息,一般可分为动态数据和静态数据两类系统日志系统日志设备监控数据设备监控数据应用日志应用日志网络日志网络日志设备日志设备日志安全日志安全日志系统监控数据系统监控数据数据库监控数据数据库监控数据中

12、间件监控数据中间件监控数据应用监控数据应用监控数据安全监控数据安全监控数据动环监控数据动环监控数据环境监控数据环境监控数据统一告警时间统一告警时间日志数据日志数据配置信息配置信息监控数据监控数据CMDB变更管理变更管理2019中 国 数 据 智 能 管 理 峰 会运维大数据平台运维大数据平台搜索引擎可视化搜索引擎可视化Elasticsearch智能运维分析智能运维分析BI展现展现Kibana数据展示层数据展示层指标预警、报警聚合指标预警、报警聚合异常定位、故障自我修复异常定位、故障自我修复离线计算离线计算实时计算分析实时计算分析数据挖掘数据挖掘统计分析统计分析应用平台应用平台输输入入输输出出数

13、据计算层数据计算层数据接口数据接口机器学习算法机器学习算法 分析结果文件分析结果文件数据流数据流事件驱动事件驱动RedisHiveMysql数据存储层数据存储层数据采集层数据采集层数据组织存储数据组织存储ETLSpark sqlStorm/Spark Streaming数据准实时获取、数据数据准实时获取、数据直接访问直接访问HDFSflume/sqoop/JDBCFTP/sqoop分布式存储分布式存储层层数据中心数据源数据中心数据源(Hadoop)系统监控数据应用日志巡检日志监控数据LogStash日志收集及处理日志收集及处理(flume)性能监控数据日志数据告警事件历史数据历史数据非结构化数

14、据源非结构化数据源各系统日志Logs实时事件日志实时事件日志网络&设备安全访问&审计日志日志2019中 国 数 据 智 能 管 理 峰 会智能运维算法智能运维算法主体画像与知识图谱类主体画像与知识图谱类+动态决策类动态决策类通过多种算法挖掘运维历史数据,从而得出运维主体画像,然后构建运维主体之间的关系,最终通过多种算法挖掘运维历史数据,从而得出运维主体画像,然后构建运维主体之间的关系,最终形成运维主体的知识图谱形成运维主体的知识图谱 运维主体:运维主体:系统软件、硬件及其运行状态,如指标、日志、事件、变更等系统软件、硬件及其运行状态,如指标、日志、事件、变更等 画画像:像:用以描述运维主体的自

15、身属性,如容量画像、指标画像等用以描述运维主体的自身属性,如容量画像、指标画像等 知识图谱:知识图谱:基于画像,用来描述主体之间相互关系,如故障失效传播链基于画像,用来描述主体之间相互关系,如故障失效传播链举例:举例:构建故障传播链,是对失效现象进行回本溯源的分析,查找引起该失效的可能的故构建故障传播链,是对失效现象进行回本溯源的分析,查找引起该失效的可能的故障原因。障原因。主体画像与知识图谱主体画像类知识图谱类日志正常模式画像历史故障工单画像应用健康画像特殊日整体画像应用流量画像自动化任务脚本业务拓扑自动构建故障传播链构建故障先兆画像性能瓶颈画像运维数据整体画像交易链条画像指标画像及聚类物理

16、拓扑自动构建故障止损预案构建容量画像2019中 国 数 据 智 能 管 理 峰 会智能运维算法智能运维算法主体画像与知识图谱类主体画像与知识图谱类+动态决策类动态决策类在已经挖掘好的运维画像与知识图谱的基础上,利用实时监控数据作出实时响应与决策,甚至在已经挖掘好的运维画像与知识图谱的基础上,利用实时监控数据作出实时响应与决策,甚至预测未来一段时间内系统运行状态预测未来一段时间内系统运行状态举例:举例:故障预测,基于历史经验的基础上,使用多种模型或方法对现有的系统状态进行分故障预测,基于历史经验的基础上,使用多种模型或方法对现有的系统状态进行分析,判断未来某一段时间内发生失效的概率析,判断未来某

17、一段时间内发生失效的概率举例:举例:单指标异常检测是对系统中突然出现的单个单指标异常检测是对系统中突然出现的单个KPI性能指标的异常(如突增、突降、性能指标的异常(如突增、突降、抖动)自动判断和识别,检测出潜在的故障抖动)自动判断和识别,检测出潜在的故障动态决策异常检测故障定位故障处置故障规避单指标异常检测多指标异常检测异常机器多维数据定位部署自动迁移可行性评估智能瓶颈容量预测定位拦截报表文本日志异常检测交易链条异常检测变更故障定位交易链条定位弹性扩缩容决策变更风险评估限流决策故障预测2019中 国 数 据 智 能 管 理 峰 会自动化运维工具自动化运维工具2019中 国 数 据 智 能 管

18、理 峰 会运维闭环运维闭环智能运维闭环:智能运维闭环:告警 离线:离线:分析构建运维主体画像与知识图谱修复建议异常检测根因分析异常定位异常预测运维人员人工智能 在线:在线:利用主体画像与知识图谱分析处理实时日志信息,预测、检测以及定位异常,执行自动化脚本将系统恢复到正常状态 运维知识反馈运维知识反馈:智能运维自动从历史的运维操作中学习并总结规律,增强运维决策能力专家知识反馈采取运维手段监控信息配置信息变更信息修复软硬件故障执行预案脚本执行修复建议技术系统变更技术系统2019中 国 数 据 智 能 管 理 峰 会01 背景介绍背景介绍02 智能运维研究智能运维研究03 智能运维应用实践智能运维应

19、用实践04 智能运维实施路径智能运维实施路径2019中 国 数 据 智 能 管 理 峰 会战略目标战略目标事前事前智能预警智能预警事后事后快速定位快速定位夜间夜间无人值守无人值守远程远程集中管理集中管理2019中 国 数 据 智 能 管 理 峰 会应用场景应用场景智能检测智能检测异常报警聚合异常报警聚合智能异常检测智能异常检测故障根因分析故障根因分析智能预警智能预警作业运行预测作业运行预测最长路径分析最长路径分析指标预警指标预警应用场景应用场景智能巡检智能巡检智能值守智能值守应用巡检智能化应用巡检智能化机房巡检智能化机房巡检智能化值班操作智能化值班操作智能化运维数据可视化运维数据可视化2019

20、中 国 数 据 智 能 管 理 峰 会智能预警智能预警作业运行时间预测作业运行时间预测 基于历史运行信息,对批处理作业的运行时间进行预测基于历史运行信息,对批处理作业的运行时间进行预测方法方法效果效果 基于作业历史运行数据,构构建建作业运行时间的特征模型 利用历史数据训练训练模型 利用回归类算法预测预测当天作业的运行时间 60%的作业可建立回归预测模型 预测值误差在10%以内 举例:某作业预测值的平均误差为9.21秒,秒,误差在误差在3.7%以内以内2019中 国 数 据 智 能 管 理 峰 会智能预警智能预警最长路径分析最长路径分析 结合作业运行时间的预测值,实时计算跑批过程中关注的作业最晚

21、处理时刻结合作业运行时间的预测值,实时计算跑批过程中关注的作业最晚处理时刻方法方法效果效果 以作业预测数据、作业关系为输入 预测结果与实际结果拟合度超过90%起点:处理前备份 利用动态规划算法实时计算实时计算关键路径及关键完成时刻 利用SPFA算法验证并修正修正 终点:处理结束2019中 国 数 据 智 能 管 理 峰 会智能预警智能预警指标预警指标预警是针对某一应用或系统,根据其历史运行的信息,以时间序列为轴,构建其正常运是针对某一应用或系统,根据其历史运行的信息,以时间序列为轴,构建其正常运行的基线,结合该应用或系统当前的运行状态、指标数值,判断是否出现异常。行的基线,结合该应用或系统当前

22、的运行状态、指标数值,判断是否出现异常。指标是用以衡量应用系统各方面业务状态(业务指标业务指标)和运行状态(技术指标技术指标)的自描述的标准或数据 举例:成交笔数、交易量;未应答数,服务响应延迟时间,http请求状态等2019中 国 数 据 智 能 管 理 峰 会智能预警智能预警指标预警平台指标预警平台 预警对象:技术指标和业务指标预警对象:技术指标和业务指标 指标类型:基于时间序列、基于时刻指标类型:基于时间序列、基于时刻 预警阈值:固定类、变化类预警阈值:固定类、变化类2019中 国 数 据 智 能 管 理 峰 会智能检测智能检测异常报警聚合异常报警聚合是将冗余的报警信息进行聚合,将其处理

23、成精简的报警信息是将冗余的报警信息进行聚合,将其处理成精简的报警信息聚合相同时间段内多个关联性较强异常报警挖掘历史报警数据中的关联关系,建立关联的报警策略列表重新回顾报警策略,将报警关注度较低的报警策略剔除故障根因分析故障根因分析是基于准确报警,分析查找异常发生原因,定位故障点。它是对异常报警聚合、是基于准确报警,分析查找异常发生原因,定位故障点。它是对异常报警聚合、故障失效传播链的一次综合应用。故障失效传播链的一次综合应用。历史日志信息检测器特征故障案例机器学习实时日志信息检测器特征异常分类器检测结果2019中 国 数 据 智 能 管 理 峰 会智能值守智能值守值班操作智能化值班操作智能化

24、基于基线的报警确认 利用聚类算法、孤立森林的报警分类与识别 异常处理智能化运维数据可视化运维数据可视化 丰富监控对象 提升数据的可视化程度 与现有监控相集成2019中 国 数 据 智 能 管 理 峰 会智能巡检智能巡检应用巡检智能化应用巡检智能化是对应用系统采用模拟的、黑盒的自我检查,一方面可提前判断关键业务的可用性,是对应用系统采用模拟的、黑盒的自我检查,一方面可提前判断关键业务的可用性,另一方面可结合历史数据与当前另一方面可结合历史数据与当前KPI指标,预测应用系统未来的可用性指标,预测应用系统未来的可用性对外服务应用系统的巡检内部应用组件的互检机房智能巡检机房智能巡检是引入智能巡检机器人

25、、定点摄像实时监控机器人,对是引入智能巡检机器人、定点摄像实时监控机器人,对IT设备、机房环境进行巡检设备、机房环境进行巡检或定点监控或定点监控2019中 国 数 据 智 能 管 理 峰 会智能巡检智能巡检综合巡检平台综合巡检平台 集中统一显示对内、对外应用自检状况集中统一显示对内、对外应用自检状况 异常处理时,可结合内外部应用的自检信息,快速定位异常处理时,可结合内外部应用的自检信息,快速定位2019中 国 数 据 智 能 管 理 峰 会智能运维技术架构智能运维技术架构智能运维门户智能运维门户应用场景应用场景GrafanaKibana信息统一展示大屏监控智能预警作业运行预测最长路径分析指标预

26、警智能检测智能值守智能巡检异常报警聚合智能异常检测故障根因分析值班操作智能化应用巡检智能化运维数据可视化机房巡检智能化智能运维算法智能运维算法自动化工具自动化工具运维知识图谱动态决策库批处理运行控制服务器管理工具应用发布部署工具服务调用链故障失效链系统画像CMDB性能预测异常检测根因诊断止损决策运维数据平台运维数据平台监控工具监控工具数据存储hadoopkafkaRedisESHiveMpp软件监控系统硬件监控系统集中报警系统批处理监控系统数据采集logstashflumeAgent/APIIT基础设施基础设施X86计算资源池网络资源池存 储存储资源池机 房小型机计算资源池服务器网 络2019

27、中 国 数 据 智 能 管 理 峰 会智能运维技术架构智能运维技术架构智能运维门户智能运维门户应用场景应用场景GrafanaKibana信息统一展示大屏监控智能预警作业运行预测最长路径分析指标预警智能检测智能值守智能巡检异常报警聚合智能异常检测故障根因分析值班操作智能化应用巡检智能化运维数据可视化机房巡检智能化智能运维算法智能运维算法自动化工具自动化工具运维知识图谱动态决策库批处理运行控制服务器管理工具应用发布部署工具服务调用链故障失效链系统画像CMDB性能预测异常检测根因诊断止损决策运维数据平台运维数据平台监控工具监控工具数据存储hadoopkafkaRedisESHiveMpp软件监控系统

28、硬件监控系统集中报警系统批处理监控系统数据采集logstashflumeAgent/APIIT基础设施基础设施X86计算资源池网络资源池存 储存储资源池机 房小型机计算资源池服务器网 络2019中 国 数 据 智 能 管 理 峰 会01 背景介绍背景介绍02 智能运维研究智能运维研究03 智能运维应用实践智能运维应用实践04 智能运维实施路径智能运维实施路径2019中 国 数 据 智 能 管 理 峰 会智能运维实施路径智能运维实施路径运维数据大运维数据大运维数据采集运维数据存储运维数据展示平台平台应用自动巡检指标智能预警机器自动巡检基础性应用基础性应用时序数据智能异常发现流量智能异常告警数据库智能监控单点智能化单点智能化实践实践智能网络日志分析智能预警智能检测智能值守智能巡检局部场景智局部场景智能化能化各运维场景智能化闭环与运维管理流程、运维组织架构、运维自动化深度融合一体化智能一体化智能运维运维运维人员探索需求、定义场景、专注业务2019中 国 数 据 智 能 管 理 峰 会Q&A2019中 国 数 据 智 能 管 理 峰 会THANK YOU!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(智能运维在金融核心领域的研究与应用课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|