1、汇报人:XX基于算法的IT运维(Algorithmic IT Operations),是指利用算法对运维数据做分析人工智能运维(AI for IT Operations),是指利用人工智能技术来自动化管理运维事务DevOpsDevOpsDevOps,开发运维一体化,是一组过程、方法与系统的统称,用于促进开发和运维人员的沟通与协作。15万+容器1万+存储1万+服务器人工运维小规模效率工具配置管理单体监控大数据分析立体监控简单自动化变更规范架构清晰运维体系化20XX年3月提出智能运维的总要求形成自主研发发展思路20XX年10月开发了一系列自动化脚本构建了自动化运维工具集20XX年1月各类运营数据实
2、时呈现网络安全类设备全覆盖20XX年5月智能运维体系初步建成疫情期间成效逐渐显现业 务 应 用基 础 软 件基 础 设 施实现设备自动巡检、问题定位和报告生成;实时获取硬件状态信息,管理、监测设备各项指标;设备告警实时推送,运维人员第一时间介入处理实现运行指标的精确信息采集与异常告警;实现智能运维替代人工巡检;根据自动生成的巡检报告制定工作任务,保障数据库稳定运行关键性能监测指标缩短至分钟级,紧急告警实现准实时推送,大大降低故障响应时间,缩短业务系统故障窗口99覆盖系统及平台套900获取关键数据万条15000部署探针个25000纳管设备台时长占比硬件软件数据库平台189256133428936
3、硬件软件业务/平台-65%-65%-73%-73%2021年2022年-78%-78%申请软件著作权XX项收获各级创新奖XX项以智能运维为核心,构建远程运维体系,人员最小化现场值守,所纳管业务系统实现“零”故障运行,有效保障业务可用性78007800余次余次智能运维场景调度执行任务脚本推送消息处理问题1000010000余次余次45004500余条余条200200余次余次疫情期间疫情期间运维对象传统运维智能运维基础硬件层故障告警不能远程推送,依赖人工发现,响应被动,且响应时间长,故障人工处置物理服务器、虚拟机、操作系统运行状态实时采集,故障告警实时远程推送中间件数据库层故障依赖人工发现,响应被
4、动,且响应时间长,故障人工处置定时巡检中间件、数据库运行状态,发现故障可远程推送业务应用层人工运维,人工处置业务系统关键进程、URL服务状态实时拨测,故障实时推送网络安全智能封禁从IP地址扫描、定位、通告主机负责人完全依赖人工处置扫描、定位、通知均可自动完成云平台人工运维,人工处置云平台健康巡检状态实时推送,云平台告警实时推送云组件人工运维,人工处置目前运维、运行数据均可实时采集,故障告警实时远程推送,运行指标定时报送云应用人工运维,人工处置ECS应用资源使用率实时监测基础设施硬件设备数据库业务应用系统日志操作日志审计日志安全日志对故障进行关联分析定位根告警开展大数据分析关联分析算法预测故障预测到缺陷后自动处置自主开发自动化工具,需求快速响应,减少重复性劳动打造运维人员随身助手,实现远程无人化运维知识经验数字化,通用化、标准化,提升问题处置效率智能化运维实现业务的故障自愈、减少人工介入汇报人:XX