2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx

上传人(卖家):三亚风情 文档编号:3003156 上传时间:2022-06-21 格式:PPTX 页数:35 大小:3.08MB
下载 相关 举报
2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx_第1页
第1页 / 共35页
2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx_第2页
第2页 / 共35页
2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx_第3页
第3页 / 共35页
2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx_第4页
第4页 / 共35页
2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx_第5页
第5页 / 共35页
点击查看更多>>
资源描述

1、全球最大呼叫平台监控实践之路 目录目录背景背景-全国集中全国集中维维护护、全全球球最最大大1出路出路-选择开源选择开源2转型转型-几个问题几个问题3蜕变蜕变-AIOPS在监在监控控报报警警方方面面的的尝尝试试4 中移在线公司中移在线公司移动全网集中服务移动全网集中服务 提供者提供者移动全网业务移动全网业务后台集中处理者后台集中处理者移动全网渠道运营移动全网渠道运营 集中支撑者集中支撑者201431省呼叫业务完省呼叫业务完 成划转成划转奠定全网集中化奠定全网集中化 运营基础运营基础2016实现盈利实现盈利业务发展和改革业务发展和改革 创新初见成效创新初见成效全集团首批入选国全集团首批入选国 资委

2、国企改革资委国企改革“双双 百行动百行动”三家公司三家公司 之一之一2018201710月注册成立月注册成立全集团集中化、专全集团集中化、专 业化运营试验田业化运营试验田发展历程发展历程 传统呼叫中心传统呼叫中心传统呼叫中心是基于PBX、专用硬件排队机、硬件语音板卡等专用设备组成的客服系统。软硬一体,不够灵活软硬一体,不够灵活建设成本高、周期长、维护升建设成本高、周期长、维护升级级困难困难无法满足多渠道多媒体互联网无法满足多渠道多媒体互联网相相 关增值业务的融合关增值业务的融合无法实现多客服中心坐席跨网无法实现多客服中心坐席跨网协协 同同无法快速响应业务需求无法快速响应业务需求缺点缺点排队机C

3、TIIVR应用PSTN/ PLMNPBX坐席坐席 新形态呼叫中心新形态呼叫中心语音坐席视频坐席互联网坐席热热 线线互互 联联 网网新形态下的呼叫中心新形态下的呼叫中心质量管控质量管控大数据平台支持客户 全渠道交 互智能 质检智能导航智能应答转人工转人工智能知识库坐席助手语音 客服视频 客服在线 客服智能IVR智能 运营运营管理运营管理呼叫平台呼叫平台统一排队 统一路由 统一监控纯软件纯软件:全媒体CTI、IVR、互联 网接入网关、软交换、中继网关、媒体加速服务、用户终端富媒体富媒体:支持传统语音、文本、 图片、视频、短语音、微信、微 博智能化智能化:与人工智能(AI)、大 数据技术结合,应用于

4、IVR、机 器人应答、质检、外呼等集中化集中化:接续、CRM、分析、质 检、话务监控等集中化特征特征 在线公司在线公司: 全球最大呼叫中心全球最大呼叫中心河南河南江苏江苏北京北京我们面临的运维挑战我们面临的运维挑战多多难难高高用户多用户多, IT规模接近一线互联网企业规模接近一线互联网企业9亿 用户, 超1亿微信粉丝,月服务超亿次,微博矩阵粉丝3038万(居行 业首位),10086APP超五千万用户 量20000+服务器50000+Tomcat业务变化快,运维环境复杂业务变化快,运维环境复杂支撑全国营销活动,总部/分公司/省公司多级协同日均上线 17 次,日处理 206 例工单技术新:微服务/

5、云计算/容器 要求高,提供电信级服要求高,提供电信级服务务99.99% 的可靠性15秒 接通要求7*24 小时保障 转变运维思路,适应新的时代挑战转变运维思路,适应新的时代挑战为了支持业务快速上线和高效运维。在线公司监控系统需具备敏捷、集中、自动、智能的关键能力。为了支持业务快速上线和高效运维。在线公司监控系统需具备敏捷、集中、自动、智能的关键能力。自动自动敏捷敏捷之之 前前能力建设能力建设智能智能现现 在在监控能力周粒度提供监控能力周粒度提供监控能力分钟级提供监控能力分钟级提供按专业划分的按专业划分的 “烟囱式监控烟囱式监控”混合集中化监控混合集中化监控手工添加手工添加基于策略的自动化闭环基

6、于策略的自动化闭环依赖专家经验依赖专家经验基于基于AI和大数据的自动识别和大数据的自动识别集中集中 目录目录1234背景背景-全国集中全国集中维维护护、全全球球最最大大出路出路-选择开源选择开源转型转型-几个问题几个问题蜕变蜕变-AIOPS在监在监控控报报警警方方面面的的尝尝试试 统一监控平台:开源工具统一监控平台:开源工具+二次开发,自主核心可控二次开发,自主核心可控监控管理监控管理Grafana统一门户统一门户ITSM运维平台运维平台自动化平台自动化平台CMDB统一告警平台统一事件分析告警告警接口性能看板告 警事件管理短信邮件工单信息故障定位或 修复场景业务看板根因分析业务建模业务模型和配

7、置数据被管环境被管环境Java App.NET AppPHP, Python, NodeJS应用 系统客服系统监控(I2000)应用性能监控(APM)告警信息场景执行调用性能看板业务看板业务数据PrometheusmetricElasticSearch数据库数据库监控(Prometheus)基础架构监控(Zabbix)CTI/UAP系统服务器、网络、存储、虚拟 化环境等告警看板Kafka实时融合监控:实时融合监控:引入业界开源开源工具, 进行二次开发与封装二次开发与封装, 形成核心自主可控、自主可控、 稳稳定高效定高效、海量秒级海量秒级 的监控能力。跨域/跨厂商/跨层的 IT/CT实时融合监控

8、。 有丰富丰富的管理对象。多样灵活灵活的数据展现形式,可以灵活配置, 适应不同场景,快速 定制。监控数据 统一监控平台:集中建设、统一管控、边缘节点标准化统一监控平台:集中建设、统一管控、边缘节点标准化为了更快速的建立监控能力、更全面的管控系统质量,在线服务公司统一监控平台采用了总部集中建设、统一管控,分公司标准化接入的建设模式。全网集中:全网集中:总部负责监控能力建设、 边缘节点的标准化,所有 监控数据的上收、分析、 展现与通知。分公司提供资源,遵照标 准化、封装后的监控模板 进行监控资源的维护与管 理。 一些小总结:半年时间一些小总结:半年时间2 万万200 万万90 万万30 万万主机主

9、机监控项监控项触发器触发器报警报警84400+5451.3KProxyDashBoard用户数用户数动作动作 一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活 网络设备类型与网络设备类型与厂厂家家存活存活/丢包丢包/ 时延时延CPU/内存占内存占 用率用率snmp状态状态温度温度端口状态端口状态出出/入口带宽入口带宽 利用率利用率出出/入口丢、入口丢、 错包错包接口类型接口类型设备状态设备状态网卡状态网卡状态设备信息设备信息端口描述端口描述软件版本软件版本系统名称系统名称光功率光功率光模块接收光模块接收 功率功率网络协议网络协议光模块发送光模块发送BGP对等体对等体功率功率

10、连接状态连接状态ospf邻居邻居 状态状态vrrp虚拟虚拟 路由状态路由状态网络监控指标网络监控指标SNMP一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活 一些小总结:广泛、丰富、多样、灵活一些小总结:广泛、丰富、多样、灵活看板可灵活制定,分钟级完成配置。图表多样化展现:折线图、柱状图、饼图、区域图、拓扑图等。 主机参数主机参数内核参数内核参数 TCP协议栈参数协议栈参数信号量信号量/IO(Zabbix启动失败启动失败不释放信号集不释放信号集)数据库数据库CPU/内存内存/IO 连接(最大连接数、超时时长)连接(最大连接数、超时时长)数据一致性数据一致性 强烈建议采用数据

11、库强烈建议采用数据库SSD硬盘硬盘WEBWEBNginx参数参数 Php参数参数php.ini:max_input_vars(影响模板应用大批量主机失败)ZabbixZabbix视具体需求配置启动模块和进程数视具体需求配置启动模块和进程数禁用自动发现,采用脚本调用禁用自动发现,采用脚本调用api实现实现禁用禁用housekeeper,启用数据库表分区启用数据库表分区 禁用禁用server直连直连agent配置参数优化配置参数优化defines.inc.php:QUEUE_DETAIL_ITEM_COUNT(定义监控项队列检索限制,影响消息队列积压显示)一些小总结:一些小总结:zabbix系统优

12、化系统优化 一些小总结:一些小总结:zabbix系统优化系统优化二、二、Preprocessing manager 负荷长期为负荷长期为100%三、三、Zabbix server主机反复重启,却无法启动成功主机反复重启,却无法启动成功问题现象与影响问题现象与影响一、大量消息队列积压(超过一、大量消息队列积压(超过20万),且呈现雪崩效应万),且呈现雪崩效应问题定位与解决方案问题定位与解决方案一、一、zabbix官网对于官网对于pre-process耗尽的说明:耗尽的说明:二、解决方案:二、解决方案:1、在zabbix server所在主机再单独部署一个proxy节点。2、将之前由zabbix

13、server直接监控的所有proxy所在主机的 agent节点,全部转到新增proxy管理。3、降低server的pollers、java pollers、pingers、trappers等 进程数配置。4、增加zabbix server的自监控项配置项及告警( Pre-process 进程占用率及zabbix_server.log的异常关键字告警)。 Zabbix配置的同步机制配置的同步机制 Zabbix的配置表比较多,大容量局点关联查询的配置表比较多,大容量局点关联查询sql耗时很长耗时很长如数据库控制sql执行时间的max_execution_time配置不合理,会导致无法将 相应配置表

14、数据同步到zabbix server以及proxy的cache,从而导致出现大量 监控项无法正常采集及消息队列积压现象。以下为zabbix_server.log相应日志: 数据库数据库sql执行超时配置建议执行超时配置建议根据现网的数据库根据现网的数据库IO处理性能以及局点规模合理配置数据库超时相关参数,将处理性能以及局点规模合理配置数据库超时相关参数,将max_execution_time设置为超过目前设置为超过目前zabbix server同步配置同步配置sql执行时长的执行时长的2倍以上,并定期检查倍以上,并定期检查zabbix_server.log日志的相应执行时长,或者增加自监控告警

15、。日志的相应执行时长,或者增加自监控告警。一些小总结:一些小总结:zabbix系统优化系统优化 目录目录1234背景背景-全国集中全国集中维维护护、全全球球最最大大出路出路-选择开源选择开源转型转型-几个问题几个问题蜕变蜕变-AIOPS在监在监控控告告警警方方面面的的尝尝试试 问题一:问题一:200w监控指标,业务出了问题仍然不知道监控指标,业务出了问题仍然不知道治理治理 范围范围应用系统管理业务质量管理客户体验管理能能 力力 扩扩 展展基础设施管理基础设施性能管理(PM) 基础设施故障管理(FM)用户问题管理 用户感知管理业务问题管理 业务质量管理 以业务质量和客户体验为核心,以可管控、可视

16、化、可度量为目标。 全网集中建设、集中管控、边缘节点标准化接入。 软件监控+硬件监控一网打尽,运维数据统一、融合、流动,建立多层次度量体系。 以用户体验出发,建立端到端全链路监控,告警+投诉预警+客服联动形成完整闭环管理。运维保障运维保障应用性能管理(PM) 应用故障管理(FM)流 程 及 自 动 化 管 理 业务及应用质量可感知,是监控的核心业务及应用质量可感知,是监控的核心Ser verOSDBJVMMQWEB面向基础架构的面向基础架构的监监控控 只能发现约只能发现约30%30%的的问题问题从用户体验出发从用户体验出发面面向向应应用用 的监控能发现约的监控能发现约7 70%0%的的问题问题

17、最终用户体验最终用户体验应用程序应用程序基础架构基础架构梳理业务系统 核心功能模块梳理功能模块的 核心监控指标评审监控指标的提取 方式及有效性监控看板 制作在强化基础设置监控的基础上,补充应用性能监控和业务质量监控能力,保障业务的稳定性和客户感知。应用性能监控应用性能监控业务质量监控业务质量监控参考Google SRE五项黄金指标1:速率:请求速率,请每秒请求数量。2:错误: 错误率,即每秒错误数量。3:延迟: 响应时间,包括队列 / 等待时间,以毫秒为单位。4:饱和度:即过载程度,指标与资源利用率相关,也可通过队列深度进行 直接衡量。5:利用率: 资源或系统的繁忙程度,通常表示为 0% 至

18、100%。应用性能监控将前台页面与后端服务以及用户网络环境真正串联,做到端到端 全链路、代码级监控。用户体验评分用户体验评分 前端交互体验前端交互体验网络切片网络切片应用调用拓扑应用调用拓扑 代码定位追踪代码定位追踪 问题二:海量的日志是否有利用价值?问题二:海量的日志是否有利用价值?对于亚健康状态,异常日志比系统故障更早出现。由于海量日志存储在海量网元中,不同厂商日志标准不统一且可读性差,往往 很难鉴别真正触发异常的日志。挑战海量日志保存在海量网海量日志保存在海量网 元中,缺乏统一视图元中,缺乏统一视图不同厂商设备的日志缺不同厂商设备的日志缺 乏统一标准,可读性差乏统一标准,可读性差XXXX

19、%#&(*( ¥%*XXXX#$%&*(%#$%C XXXX!#$*#$!%$*(*( XXXXERROR*&%$#$*()*日志统一采集,统一呈现,日志统一采集,统一呈现, 异厂商设备日志统一查询异厂商设备日志统一查询针对异常日志进行统计,实针对异常日志进行统计,实 时推送异常日志告警,提升时推送异常日志告警,提升 亚健康网络问题定位效率亚健康网络问题定位效率跨厂商设备日跨厂商设备日志志统统一一查查询询异常日志统异常日志统计计异常日志分异常日志分析与告警推析与告警推送送统一日志分析Syslog网络设备( Huawei, HP, IBM,)Logstash一体化 客服系统精准扶贫实名制语音管控

20、价值Cloud OS 问题三:一个业务监控需要添加问题三:一个业务监控需要添加2480万个监控项?万个监控项?监控监控 内容内容接口平台类型(接口平台类型( 4):):接入接口,接入渠道,转接接口,转接渠道接入接口,接入渠道,转接接口,转接渠道系统编码系统编码(31):):为各省分公司的编码为各省分公司的编码监控项类型监控项类型(8):):调用总数,成功率,平均耗时,失败率,失败数,大于调用总数,成功率,平均耗时,失败率,失败数,大于1s比率,大于比率,大于3s比率,大于比率,大于5s比率比率监控项名称监控项名称(500+):):从业务数据库实时查询监控项名称从业务数据库实时查询监控项名称错误

21、码错误码(50+):):业务指标的错误码类型业务指标的错误码类型(4*31*8*500*50=2480万)万)监控项类型大:千万级监控项组合,监控项类型大:千万级监控项组合,zabbix方案暂无法实现(包括监控配置和展示)方案暂无法实现(包括监控配置和展示)图形展示筛选条件要求可配置,动态关联:图形展示筛选条件要求可配置,动态关联:zabbix解决方案暂无法实现(个性化解决方案暂无法实现(个性化tag无法关联查询)。无法关联查询)。难点难点 说明说明解决解决 方案方案 利用利用prometheus灵活的自定义灵活的自定义babel功能实现数据采集和动态图形展示功能实现数据采集和动态图形展示 监

22、控平台架构的改进与优化监控平台架构的改进与优化管控资源 对象运维数据 分析平台上层 运维场景应用CMDB数据库企业资源数据监控底层 能力平台PrometheusAPMHadoop离线数据分析运维数据分析内部用户物理设 备云平台网络一体化客服业务 监控客服设备监控。容量管理自动化扩缩容。故障决策系统自动化切换。Zabbix外部客户日志容器云 业务监控 数据库应用中间件日志平台规则 数据机器学习数据Flink实时数据处理运维数据分析 大型互联网公司基础资源多,业务广,线上变更频繁,监 控配置任务量大监控添加不是一蹴而就,需要反复调整,重复工作量大开源工具使用门槛高,大多没有好用的web界面,需要培

23、 训才能灵活使用中移在线公司业务/工作人员遍布全国各省,基础资源达到 上万级别,业务变更频繁,统一管理难度系数高 痛点痛点 应对方案应对方案12监控能力标准化、流 程化、模块化二次开发、 3自动化配置界面化数据展示界面化问题四:加不完的监控需求?问题四:加不完的监控需求? 中移在线监控的中移在线监控的历历程程(摸摸着着石石头头过过河河)1 需求分析 与功能验 证23 全网推广 性能调优 典型问题与4软件bug处 理 规范化制规范化制定与整改定与整改5 运维界面 化与自动 化欲速则不达欲速则不达 没没有规范化有规范化 的交的交付,质付,质 量无法量无法保证保证返工意味着效返工意味着效 率降低率降

24、低3倍以倍以 上上12 需求分析 与功能验 证 标准与规标准与规范制定范制定3 性能调优 典型问题与软 件bug处理4 批量推广5 运维界面 化与自动 化建议流程(标准建议流程(标准先先行行,质质量量与与效效率率并并重)重)模板、主机模板、主机 群群组、主机组、主机 名,名,主机显主机显 示名、示名、动作动作 名称、展名称、展板板 内容等等内容等等需求交付需求交付/变更变更 流程,问题处流程,问题处 理理流程,例行流程,例行 会议会议与周报与周报一点感悟一点感悟 现在的数字现在的数字2.4 万万主机主机99 万万触发器触发器1.3K动作动作614 万万监控项监控项198 万万报警报警Proxy

25、92800+975DashBoard用户数用户数 目录目录1234背景背景-全国集中全国集中维维护护、全全球球最最大大出路出路-选择开源选择开源转型转型-几个问题几个问题蜕变蜕变-AIOPS在监在监控控告告警警方方面面的的尝尝试试 当前的主要矛盾是:海量的告警和有限的专家当前的主要矛盾是:海量的告警和有限的专家告警要告警要“少而精少而精”, 不要重复和误报不要重复和误报监控要监控要“多而全多而全”, 一个问题都不能放过!一个问题都不能放过!614万万+ 监控指标,99万万+ 报警阈值, 198万万+ 告警/天, 2000+ 短信/每人每天运维主管运维主管工程师小明工程师小明VS. 经过分析,阈

26、值正确设定是平衡经过分析,阈值正确设定是平衡“多而全多而全”和和“少而精少而精”的关键手段之一的关键手段之一告警告警正常告警正常告警误报误报漏报漏报 缺少压缩缺少压缩&关关 联联 阈值不合理阈值不合理:80% 监控能力不足:监控能力不足:10% 人员配置失误:人员配置失误:10% 无法设定阈值:无法设定阈值:70% 无监控无监控:30% 阈值设定从依靠专家经验向智能动态设定演进阈值设定从依靠专家经验向智能动态设定演进专家依靠专家依靠 经验设定经验设定规则阈值规则阈值通过大数据通过大数据 分析设定分析设定固定阈值固定阈值通过智能分析通过智能分析 动态设定动态设定智能动态阈值智能动态阈值 基于结构

27、化的时序数据,通过基于结构化的时序数据,通过AI预测拟合曲线,进行异常检测预测拟合曲线,进行异常检测历史数据分析历史数据分析历史数据读取和清洗历史数据读取和清洗 数据抽取ETL 断点修复 数据间隔调整 自相关性分析毛刺检测毛刺检测统计异常检测,用于过滤毛刺型异常统计异常检测,用于过滤毛刺型异常 Moving Average移动平均滤波 (ARIMA) Exponential Smoothing指数平 滑滤波 (Holt-Winters) N*sigma统计检测指标预测指标预测LSTM(长短期记忆)(长短期记忆) 预测算法预测算法孤立森林(孤立森林(Isolation Forest)日同比日同比

28、(Day over Day method) 箱线箱线图图(Box-whisker plot)异常判定异常判定途径一:途径一:N-sigma方差方差 途径二:专家标记途径二:专家标记 智能化运维并不是我们想象的那样遥不可及智能化运维并不是我们想象的那样遥不可及告警覆盖率告警覆盖率 提升到提升到95%告警配置人告警配置人 力下降力下降60%告警准确率告警准确率 提升到提升到80%数据数据算法算法计算计算 海量数据源(性能指标、海量数据源(性能指标、 日志、告警)日志、告警) 可以迭代预测、迭代标可以迭代预测、迭代标 注注 TensorFlow等成熟算法库等成熟算法库 针对不同场景,可选择不针对不同

29、场景,可选择不 同算法,如同算法,如LSTM用于趋势用于趋势 预测、预测、ARIMA用于回归过用于回归过 滤异常滤异常 轻量化轻量化 虚拟机部署,虚拟机部署,4C32G 即可起步即可起步 未来未来让智能化在更多运维领让智能化在更多运维领 域落地开花域落地开花智能故障发现智能故障发现日志异常检测、日志异常检测、 告告警压缩警压缩&关联、关联、 告告警规则生成、警规则生成、容量管理、性能管理容量管理、性能管理等等深度深度广度广度 系统架构师、运维开发、应用运维、数据库运维、大数据运维、数据分析、容器云开发、 云计算开发、JAVA开发享受互联网享受互联网 般技术挑战般技术挑战国企稳定待遇国企稳定待遇郑州、北京、郑州、北京、 上海、深圳研上海、深圳研 发中心发中心,31 省会城市省会城市与客户交互产与客户交互产 生的海量数据生的海量数据,包括语音、,包括语音、 文本、图像等文本、图像等 数据数据公司年轻、人公司年轻、人 员年轻、扁平员年轻、扁平 化管理化管理 谢谢谢谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(2020年全球运维大会-全球最大呼叫平台监控实践课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|