1、阿里巴巴海量服务器下的基础运维和智能化 实践GOPS 全球运维大会2019上海站目录目录业务介绍业务介绍1整体架构整体架构2安全运维安全运维3智能化之路智能化之路4GOPS 全球运维大会2019上海站我们是谁GOPS 全球运维大会2019上海站$:一套自动化数据中心管理系统,管理数据中心中的软硬件生命周 期,各类静态资源编排,基础软件的版本和发布解决什么问题GOPS 全球运维大会2019上海站设计理念设计理念 终态系统:当前态向终态逼近,假设失败会在任何地发 吞吐和可靠:热备,快速服务切换能力 稳定性和鲁棒性:即使天基系统瘫痪也不能影响管理的服务 版本维护,天基运维天基:部署,从到有部署 天基
2、的能飞天智能运维平台系统最核心的设计,业务联动的监管控一体化安全运维以及恢复机制和变更机制的统一 声明式(Declarative)变更。无论是配置变更,还是软件升级、硬件变更,都是通过一个格式化的说明文件来提交。这个对于避 免人工失误是非常有效的。变更、恢复和修复机制的统一:面向终态的设计使得这三类操作采用同样的机制。集成的监控机制:自动发现故障运维系统要解决的问题:能够最大化的无人干预,信息化-自动化-智能化稳定安全,能够尽量避免人工失误,并且在失误 或故障发生的情况下,能快速进行恢复GOPS 全球运维大会2019上海站目录目录业务介绍业务介绍1整体架构整体架构2安全运维安全运维3智能化之路
3、智能化之路4GOPS 全球运维大会2019上海站Region化GOPS 全球运维大会2019上海站不做100%可用的假设,不能因为中心服务不可用,而 影响别的服务版本兼容和自管理相邻三个版本之间必须保证向下兼容版本和升级自维护,自己运维自己减少单点故障master存状态,其他模块无状态,可重入每个模块功能设计尽量简单确定信号触发确定行为轻量快速的服务状态检查Monitor状态机反馈,监管空一体化自包含:Package Model,减少对环境的依赖,易于 清理分布式设计+HDOLQJ6HUYLFHHSOR6HUYLFHHYLFH0DQDJHU3 R U W D O&$3,6HUYHUWMSUR6
4、HUYLFH0DQDJHU&RQJ0DQDJHU6V(QY0DQDJHURZQORDGHU$YDLODELOLW6HUYLFH6LPSOHHFLGHU6 H U Y H U6HUYLFHHFLGHU0RQLWRU$SS1$SS26 HUY HU5 R O H7 L D Q M L&O X V W H U8VHU&O X V W H U6HUYHU5ROH:7 L D Q M L.7 L D Q M L&O L H Q WHOLYHUTianjiAdaptorTjMaster On PaxosGOPS 全球运维大会2019上海站变更天基 品用户提交发布GOPS 全球运维大会2019上海站变更定义
5、:通过平台进行的软件部署、版本升级、配置变更、扩容、缩容等操普通模式:所有的机器同等对待,审批之后开始升级。金丝雀模式:先选两台机器,试着升级,成功了再升级剩下的。grayunit模式:灰度升级,用户可以自定义灰度策略。滑动窗口模式:自定义机器升级并发数,保证任意一个时刻,升级机器不超过并发数非安全模式:不考虑服务可用性,所有的机器直接升级Adaptor业务灰度模式:查询批次返回机器灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海
6、站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站自愈系统应用系统机器整机替换离线修复故障注入在线修复机器机器系统机器Healing ServiceRepair ServiceReplace ServiceChaos ManagerGOPS 全球运维大会2019上海站自愈领域自愈范围负责服务自愈实现方式发现问题决策修复动作
7、MonitorState1.基础硬件monitor2.应用上报1.2.3.4.按照规则触发修复按照规则触发修复 actionquota manager action manager action translatorServiceDecider1.2.3.对对action进行审批进行审批 simple decider custom decider1.2.3.GOPS 全球运维大会2019上海站x_labor xx_labor xxx_laborLabor目录目录业务介绍业务介绍1整体架构整体架构2安全运维安全运维3智能化之路智能化之路4GOPS 全球运维大会2019上海站Infrastruct
8、ure as CodeGOPS 全球运维大会2019上海站 通过配置文件定义一切 一切变更都是基于code review的configuration change 通过服务模版方式管理版本和配置 服务在不同集群之间版本配置尽量保持一致 终态 不管当前状态,向终态前进 安全运维三驾马车:Monitor+状态机+Decider 践行devops 角色实例 Monitor 产品根据自身CheckHealth结果汇报的信息 角色实例 KeyMonitor 用于处理check_health_app本身异常,无法 汇报信息的情况 机器 Monitor 对服务器进行监控产生的监控信息GOPS 全球运维大会2
9、019上海站Monitor状态机状态机GOPS 全球运维大会2019上海站 Simple Decider 应用通过定义百分比的方式实现Decider逻辑,天基根据百分比自动审批 Custom Decider 应用自己实现逻辑,通过天基API与天基交互 Adaptor Decider 应用按要求提供openApi,天基负责调用GOPS 全球运维大会2019上海站Decider目录目录业务介绍业务介绍1整体架构整体架构2安全运维安全运维3智能化之路智能化之路4GOPS 全球运维大会2019上海站?$fl?AIOps所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智
10、能化准确,高效,全局优化$flfi?$自自动化动化数字化数字化智能化智能化GOPS 全球运维大会2019上海站DCBrain:$fl$GOPS 全球运维大会2019上海站fi$flfl集群和服务器智能化运维集群和服务器智能化运维大规模计算系统大规模计算系统供应链智能化供应链智能化数据中心智能化运维数据中心智能化运维供应链智能化整体方案:针对供应链特点,打造需求、运营、分 析、决策智能化方案 实现数据驱动、基于算法的需求预测、库存优化、T C O 分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算 法的闭环系统 为未来进行先进AI算法和系统探索、部署奠定基础 针对数据中心电热性能进行优化
11、包括:冷量预测控制、Pow er预测控制、IDC电热感知、P U E 优化等 对现场运维进行智能化改造包括:多媒体信息处理巡检、安防视频识别、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联,根因分析,规则生成 提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决 策GOPS 全球运维大会2019上海站集群资源 智能探查 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件 故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析?$实现从专家规则-智能分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测GOPS 全球运维大会2019上海站集群资源 智能探查 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件 故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析?$实现从专家规则-智能分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测GOPS 全球运维大会2019上海站