1、转型的灯塔:技术运营标准评估权威指南及案例解读转型的灯塔:技术运营标准评估权威指南及案例解读 目录目录技术运营标准简介技术运营标准简介1标准的框架与设标准的框架与设计计思路思路2标准的标准的“硬硬”技技术术与与案案例例解解读读3标准的标准的“软软”能能力力与与案案例例解解读读4 互联网技术的发展驱动运维技术前进互联网技术的发展驱动运维技术前进移动互 联网 时代传统 时代互联网 时代平台化 时代云计算 时代AIOPS时代降本增 效新场景一体化 工具链 组织文化 理念移动迁移 多终端去IOE开源热潮上云运维开发 效率应用运维 质量&用 户BASE流程化 ACIDITIL ITSM海量运营 技术运营
2、3P平台化自动化开源 架构升级 云运维无线技术栈 Velocity持续交付 ITSM敏捷 精益算法 AI平台 大数据人工运维云运维智能化运维运维开发应用运维一体化移动运维Devops 时代能能 力力 侧侧 重重时时 代代 特特 点点 2015年技术运营标准的萌芽年技术运营标准的萌芽上线聚用户营销高可用架构设计持续部署可用性保障数据服务运营活动支持用户体验优化成本优化客户服务互 联 网 应 用 运 维 框 架 研发期研发运营期三年三稿与顾问团三年三稿与顾问团模型模型 顶层设计顶层设计模型验证模型验证立项研讨立项研讨初稿编写初稿编写专家评审专家评审发布征求发布征求 意见稿意见稿提交提交 送审稿送审
3、稿正式发布正式发布 报批稿报批稿起始于起始于2015年年互联网应用运维能力成熟度模型互联网应用运维能力成熟度模型 DevOps 标准产生过程标准产生过程标准中的软能力与硬技术标准中的软能力与硬技术技术运营技术运营 服务服务规范意识 能力平台化 能力运营 服务能力流水线监控自动化质量 意识标准化IT服务 流程事件 管理高可用 性管理配置 管理发布 管理成本 管理容量 管理持续性 管理变更 管理数据 中心业务 理解用户 体验智能智能监控 设计风控一体化配置 中心事件 平台 技术运营标准对行业的意义技术运营标准对行业的意义 虽然,DevOps 像水,水无常态 但是,喝水需要容器,这就是标准 (无规矩
4、不成方圆) BATJ经验的总结与传承 (对齐能力、避免重复踩坑、闭门造车) 从0到1、自检、过程改进、建设目标 标准并非“限定”( ITIL V4 已经发布 ) 五级阶梯式成长模型 (并非0或1)DevOps 标准ITIL / IOS 20000CMMI / 敏捷开发测试运维 管理管理+ 技术技术标准化标准化 + 工具赋能工具赋能管理管理 标准化标准化标准对企业的价值标准对企业的价值自查自查了解企业 DevOps 自身发展情况,发现问题, 查漏补缺,明确未来持续优化的方向。自证自证衡量衡量对照对照被认定为国内领先或顶尖水平, 成为 DevOps 在中国落地的行业标杆,引领行业发展。明确企业内部
5、各项目 及 外部服务商、合作伙伴 的 DevOps 能力现状、成长情况及工作量。对比同行业及所有行业的 DevOps 优秀实践,相 互取长补短,共同进步。(书同文、车同轨、行同伦) 目录目录技术运营标准简介技术运营标准简介1标准的框架与设标准的框架与设计计思路思路2标准的标准的“硬硬”技技术术与与案案例例解解读读3标准的标准的“软软”能能力力与与案案例例解解读读4 DevOps 标准全局框架标准全局框架 牵头单位:中国信息通信研究院(国家智库,可信云等出品单位)起草单位:云计算开源产业联盟、DevOps时代社区、高效运维社区、BAT、京东、中国移动、中国电信、中国银行、平安科技和中国银联等 目
6、前进展:2018年6月29发布全量征求意见稿,2018年7月在联合国ITU-T 正式立项技术运营标准的框架组成技术运营标准的框架组成监控管理监控管理监控采集 数据管理 数据应用运营配置管理配置管理配置管理容量与成本管理容量与成本管理容量管理 成本管理事件管理 变更管理事件与变更管理事件与变更管理高可用管理高可用管理应用高可用管理 数据高可用管理风险管理 危机管理 应急管理业务连续性管理业务连续性管理业务认知管理 体验管理用户体验管理用户体验管理技术运营技术运营 技术运营标准框架技术运营标准框架&设计思路设计思路 具备中等企业技术运营水平 局部建立自动化能力,有标准化的流程辅助工作的完成 覆盖应
7、用对象全生命周期管理,部分能力项实现联动二级 具备成熟企业技术运营水平,场景自动化 集中式管理,有标准化规则贯彻应用全生命周期 强调技术运营能力的覆盖广度,从被动响应到主动预防 明确量化管理的指标与要求,驱动架构和技术的优化三级 国内顶级的技术运营能力,实现垂直场景的技术深度 复杂场景实现无人治理,实现多对象多事件的关联与执行 从规则化演进到半智能化,动态决策与调度自动化工具 精细化数据运营,技术运营与业务运营结合,驱动优化四级国内领先水平国内先进水平技术运营标准的重要级别说明技术运营标准的重要级别说明 各能力项的递进与关联各能力项的递进与关联级别级别说明说明监控管理监控管理事件与事件与 变更
8、管理变更管理配置管理配置管理容量与容量与 成本管理成本管理高可用管理高可用管理业务连续性业务连续性用户体验管理用户体验管理平均级: 基础的监控管理, 一 级 部分能满足企业对 IaaS自动化监控的基本需求。 基本的事件规范和变更操作要求,及 时处理事件和管控 部分变更风险。靠人工保障配置 记录的管理。基础的硬件与业 务的指标汇聚 流量切换。基础的健壮性,硬件故障 能及时恢复。 数据库备份可靠。基础的业务影响分析 能力和业务风险分析具有快速处理用户体验的 投诉问题,具备丰富的业能力,基本应急演练。 务端的数据收集能力。二级先进级: 自动化/脚本化 覆盖更多监控对象。告警收敛,监控数 据关联分析。
9、对常见的场景可以 实现告警度量、管控 和可视化的能力。 完善的事件及变更管理能力,覆盖全 生命周期的管理。 流程与场景部分的自动化和可视化。统一的配置管理 系统,全生命周 期的管理技术运 营相关的对象。持配置变更。技术运营全生命 周期的容量和成本 的管理。有规则和 流程支持,以满足 有规则和流程支 不同场景的需求。 应用服务间调用关系治理 整体 RTO 达到平台,支持应用服务级别的 99.90%。 监控报警。 至少半年进行一次灾IT系统有效打通,故障快备测试演练。 速定位。 详尽的应急响应预案,数据库读写分离,主备实 充分考虑外部舆情和 时同步,同城多机房备份。 客服的信息反馈。 端到端全链路
10、事件埋点;全链路的体验告警,用户 体验优化效果可衡量、可 视化体验管理能力联合内部,主要场景的用 户体验优化领先级: 三级 系统化/平台化精细化和平台化, 通过标准化的管理和 自动化工具,强化技 术运营过程中的功能 细节管控。面向应用场景实现 告警管控和可视化管 理。平台化。 完善的可视化管理,对过程和团队做到 度量。平台,支持灵活符合技术运营场景的需求。 各个维度有精细化扩展,能够与其他 灵活的容量与成技术运营流程打通, 自动化配置管理 本管理规则与流程,所得数据指导技术扩展和关联分析, 运营活动,为企业提供数据支撑和优 化建议。 自动化动态扩容。分布式缓存,分表分库, 跨库事务。异地数据备
11、份。 整体 RTO 为 99.95% 主动模拟注入故障, 2分钟响应,5分钟找 同城多机房实时数据备份,到原因启动预案,10分钟完成问题解决。 自动跟踪及用户改善工具。用户体验类的指标基线,并被快速定位和解决。 并能联合外部建立优化工具,驱动整体的用户体验 指标的改善。 5分钟发现质量数据异常重叠能力项的说明重叠能力项的说明持续交付 技术运营技术运营评估首批通过企业技术运营评估首批通过企业-华泰证券华泰证券2级 华泰证券股份有限公司华泰证券股份有限公司涨乐财富通交易服务项目华泰证券为投资者研发的集热点财经 新闻、股市行情报告、委托交易、产品商城为一体的全功能免费手机理财 软件,目前用户规模千万
12、级,并发用 户数几十万。 涨乐财富通月活数超750万,注册、下载 量超4800万,稳居行业第一,公司客户通 过涨乐财富通APP进行交易的人数占比已 超过87%。 多次获得重量级奖项,如“2018年度券商 优秀APP奖”、“2017年度最佳金融APP” 等。技术运营评估首批通过企业技术运营评估首批通过企业-北京移动北京移动2级中国移动通信集团北京有限公司中国移动通信集团北京有限公司CRM订单中心项目面向北京移动业务运营及运营支 撑,可独立部署并对外提供一组,标准化订单服务的载体,已拥有 1000+容器实例数,千万级用户量 并发用户十万级。 应用场景:北京移动CRM订单中心系统功能主要 完成订单模
13、板管理、流程编排、订单审核、订单 创建、订单分解、订单变更、订单调度、订单 撤销、订单竣工和订单查询等流程化管理功能。 技术运营评估首批通过企业特点分析技术运营评估首批通过企业特点分析应急演练应急演练应用高可用应用高可用数据高可用数据高可用成本管理成本管理事件管理事件管理变更管理变更管理用户体验管理用户体验管理弱弱 项项强强 项项故障演练场景固化,缺乏重要业 务场景的梳理和沉淀。对变更风险识别暂未有共性规 则抽象,更多依赖经验判断。依赖人为经验进行判断,缺乏客 观量化的判断指标。未和实际的容量数据、业务使用 情况联动分析管理。高可用架构设计清晰, 数据库充 分考虑了数据的分布式和一致性, 运行
14、维护机制完善。应急演练未与CMDB联动分析, 实操环节仍存在人为失误的风险端到端的服务承诺未做明确的规 则要求,流程学习未强制实施。运营配置管理运营配置管理统一配置管理平台较为成熟,实 现了配置对象的全生命周期的管 理可扩展、可自动更新。监控采集监控采集采集服务平台化,灵活性和扩 展性强, 可以自定义采集服务。数据管理数据管理可根据业务需求进行定制化开 发管理,数据处理实时性强。数据应用数据应用统一监控平台,监控指标覆盖面 广泛,可定制化分析与展示。告警与管控告警与管控统一告警管控平台,能根据生产 环境定制统计分析视图, 部分常 见场景已开始尝试智能化运维。 目录目录技术运营标准简介技术运营标
15、准简介1标准的框架与设标准的框架与设计计思路思路2标准的标准的“硬硬”技技术术与与案案例例解解读读3标准的标准的“软软”能能力力与与案案例例解解读读4 标准中的标准中的“硬硬”技术技术监控管理监控管理配置管理配置管理 高高可用管理可用管理容量与成本管理容量与成本管理系统设计系统设计最佳实践最佳实践 架构能力架构能力 数据应用数据应用 案例案例1:应用运行自治的技术运营能力:应用运行自治的技术运营能力配置对象配置数据数据采集数据传输数据接收数据处理数据存储数据服务告警与管控可视化管理弹性能力柔性能力运行与维护数据库高可 用缓存高可用成本合理性预算与核算业务容量基础设施容 量业务配置监控自发现弹性
16、伸缩成本可量化持续交付12435N 过程域过程域过程域过程域 二级二级三级三级 评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)监控 管理监控 采集数据 具备操作系统级监控指标的采集 采集能力,如CPU、内存等 系统日志、应用日志和接口日志等 数据采集上报到多个服务端 统一的数据采集及跨平台兼容 支持提供开放式、自定义的采集上报 发送延迟、数据校验、采集限频等数据 传输 通过标准协议传输数据 单份数据多份订阅及分发传输 支持多种传输及
17、容灾方案 ,如同时具备推与拉 具备平行扩展、数据汇聚和高效传输等架构能力数据 管理数据 接收 仅实现数据接收 支持数据清洗、转发、丢弃、复制等 异构数据源集中接收 统一的数据上报,支持文本、字符串和加密协议等 空值检测、乱码校验、属性校验、过载保护数据 原始数据源预处理 处理 异常数据识别 实时计算数据处理延时小于 1 分钟 自定义日志字段解析,数据校正、持久化、异常告警数据 存储 具备基本的数据存储能力 自定义数据四则运算、分类和聚类等 对外提供数据接口,可扩展的 ETL 能力 异构数据源的处理及关联分析的能力 统一的数据存储,确保完整性和可用性 文本、数值型、位图和时序数据存储 高并发查询
18、,冷热数据分离 半结构化数据、时序数据的快速检索与统计数据 应用数据 服务 提供基础的数据存储服务 可计算最大值和平均值等,数据接口支持 按条件导出、自定义查询 支持复制、同步或传输数据到其他存储介质 在线自定义数据统计分析,如在线 SQL 数据权限、加密或脱敏,接口调用限频、限制访问源告警 与管控 多通道发送告警信息 告警收敛,告警触达率和准确率统计 告警关联运维操作提示,自动告警升级 告警关联收敛,自定义告警关联自助分析工具 告警关联自动化工具,常见场景下的故障自愈可视化 管理 在线数据图表展示 自定义图表,场景化的在线数据查询 业务监控指标重点展示 基于业务拓扑架构或调用关系的可视化及异
19、常展示 多维度的数据下钻与展现,全业务级的可视化监控架构能力的演进监控架构能力的演进数据来源AgentSDK HTTPKafka文件导入 传输通道应用场景日志查询 日志告警多维下钻分析 多维监控告警 业务数据大盘 实时报表调用链查询 依赖分析数据管理数据管理接入层解析校对 聚合ES筛选分组 转发Hive数据接收数据处理数据API数据存储过滤过滤 翻译数据库统计格式化 吞吐量Druid 数据采集数据采集数据应用数据应用过程域过程域过程域过程域二级二级三级三级评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3
20、级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)配置 管理运营配 置管理配置 对象 记录基础设施级配置对象 全生命周期管理,状态更新及时通知 支持业务、应用级配置对象 自动发现、可关联,支持自定义扩展字段 变更关联技术运营事件,如运维告警关联返回码配置 数据 依靠文档记录配置信息 统一配置管理,实时反馈运行状态 支持变更回溯、日志审计、API 接口等 关键配置数据自动纠正,单一可信数据源 权限与组织相关联,多用户视角的统计与展现配置管理能力阶梯式提升配置管理能力阶梯式提升1.有配置记录的实践,纳管部分配置对象2.配置记录能够为运营活动提供支持3.配置对象间的关联,触发规则
21、完成运维操作 高可用管理解读高可用管理解读过程域过程域过程域过程域 二级二级三级三级评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)高可用 管理应用 高可用 管理弹性能力 根据监控性能指标或计划,进行应用的自动化动态扩容 多应用相关联的自动化同步横向扩展柔性能力 软硬件故障不易产生业务中断梳理应用调用关系,负载均衡支 持多种算法能流量切换,应用发布对业务影 响小基础的健壮性,硬件故障能及时 恢复在较短时间内完成应用扩容的上 线运行与维
22、 具备常用信息系统 护管理 主机、进程端口监控 结合配置管理系统实时更新状态信息 集中展示能力,信息全面准确缓存 高可用 针对热点数据使用缓存加速数据 高可用管理数据库 备份可靠,保证数据一致性 高可用 主从同步及切换应用服务间调用关系治理平台,支持应用服务级 别的监控告警应用节点可快速横向扩展,支持分批发布,且发 布过程对生产无影响良好的健壮性,无单点,硬件故障不易出现业务 中断或异常 失效转移、限流 IT系统信息有效打通业务层监控,易于查看业务调度和性能,支持故 障快速定位 持久化有缓存的备份节点,主备节点保持实时同步,能 主从切换 主备实时同步,读写分离 使用数据库本地事务保障数据一致性
23、 有同城多机房的数据备份 主节点宕机可自动切换备份节点并保持数据一致 具备分布式,可快速平滑横向扩容 分表分库横向扩展,跨库事务有同城多机房的实时数据备份,有异地数据备份可按照RPO 要求恢复至2分钟内的数据 数据库变更不影响业务正常运行1、应用的非功能设计要求2、数据的高效应用与可用性管理过程域过程域过程域过程域二级二级三级三级评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)容量与 成本管 理容量 管理基础设 按相关维度聚合 施容量
24、 容量监控与告警 实时容量查询,支持 API 查询接口 特征管理、基线管理、单机承载的量化管理 动态容量平衡的架构 容量预警、容量预测业务 容量 按相关维度聚合 容量监控与告警 特征管理、反馈指标管理 自定义业务容量计算方法 与基础设施容量关联分析 决策业务调度、柔性服务、容量预测成本 管理成本 合理性 基础的成本意识与管理 基础设施及软件的全生命周期成本管理 准确记录成本相关数据的预算 与核算 基础预算、基础核算 体系化的预算管理、核算管理 主动成本分析,全局技术运营对象的核算 多维度、精细化成本管理 成本数据与容量数据关联分析 成本换算、主动成本优化 成本分析与预测 成本数据自动化校对容量
25、和成本管理的阶梯式提升容量和成本管理的阶梯式提升1.客观量化2.关联计算、场景化使用 - (关联监控管理)3.主动管理、驱动优化- (关联配置管理) 目录目录技术运营标准简介技术运营标准简介1标准的框架与设标准的框架与设计计思路思路2标准的标准的“硬硬”技技术术与与案案例例解解读读3标准的标准的“软软”能能力力与与案案例例解解读读4 标准中的标准中的“软软”能力能力业务连续性管理业务连续性管理用户体验管理用户体验管理 事件变更管理事件变更管理流程设计流程设计文化运营文化运营 组织协同组织协同 数据度量数据度量 案例案例2:重大活动保障机制:重大活动保障机制被动响应故障影响标准化管理变更流程管
26、理部署管理建立机制事前管理 事件处理事后管理体验数据管 理业务优化管 理定义价值业务认知管 理容灾容错灾备管理 组织机制应急管控应急预案 应急演练组织机制业务影响分 析业务风险分 析度量测算RTO RPO 用户体验管理解读用户体验管理解读过程域过程域 二级二级过程域过程域 三级三级评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)用户体验 管理业务认 知管理重视业务运营指标,未涉及对核心用 户群的体验分级管理基本的业务认知,定期体验业务及产 品 能使用常用诊断体验问题的测试工具 拥有衡量用户体验质量的体验类
27、指标 团队定期的业务培训,并有上岗资质考试具备能主动挖掘用户痛点需求的产品能力,并能 以用户单场景化系统性解决问题能够联动内部产品、客服等团队,丰富统一的用户 体验类的知识管理系统团队定期产品岗培训,主动优化团队考核及创新性 团队管理模式体验数 据管理采用基础采集工具,全面收集及丰富 业务程序、网络等类型的采集维度能按用户到业务端全链路用户事件的数据埋点 规划。 拥有大数据实时计算分析的技术解决方案能定期review及更新用户体验指标的数据维 度收集竞品及外部相关业务口碑数据,并能够在5分 钟内发现数据质量异常 能按业务核心体验指标的动态基线进行数据管理基于多维度数据的实时可视化,支持用户链路
28、的 关联数据查询及追踪体验优 化管理依靠用户体验的场景监控及业务突发 预案,快速解决用户体验问题能够精细化监控及下探用户全链路的体验问题 并形成可视化体验报告能依靠与外部团队的合作丰富用户端的体验触 达工具基于用户体验管理系统,整合工具、周边系统、 解决方案,具备自动跟踪、联动处理的事件闭环的 线上用户体验管理能依靠外部资源合作,引入行业优秀的解决方案 或新技术,完善体验的解决方案库或触达用户的决 策库业务认知管理业务认知管理 体验数据管理体验数据管理体验用户管理体验用户管理事件与变更管理解读事件与变更管理解读过程域过程域过程域过程域 二级二级三级三级评估维度评估维度1级级(平均级:部分自动化
29、)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)事件与 变更管 理事件 管理事前管理基本的分类,被动受理和处理系 统故障 值班接口人实时响应 问题和事故进一步分级,主动的事前流程宣导 重大故障应对预案,事件组织与工具基本具备 达到架构和运营要求 场景和组织进一步扩展 平台化,平台间信息共享和协同 高可用和连续性规划事件处理 故障后快速处理和恢复 应急响应和故障处理时效合理、止损意识 服务台统筹、预案一站式脚本执行能力 高效决策能力、合理止损、标准化管理流程 平台化,操作可授权
30、和可视化等、强容错事后管理 基本的纪录、分析和通报学习改善机制,定位客观,正确找到原因和责任 归属 事后流程和质量文化 事故分析透彻、度量改进、改善验收、知识库沉淀 度量关联绩效考核,平台反哺变更 管理变更流程 变更操作周知管理 突发场景下的变更能力部署管理 具备部署能力 变更操作规范化和流程化 评审组织、变更工具定期部署、应用和数据库分离、各环境支持自动 化部署 具备工具能力,部分过程自动化 可回滚,影响可控 变更管理和发布规范完善覆盖完整,重视变更质量和效率 变更顾问委员会,变更管理平台化打通 灵活和可控的策略、应用和配置分离、所有环境标准化 精细化的部署及灰度策略控制风险 平台统一,全部
31、自动化、标准化 高质量、度量管理用标准化流程规范事前、事中、事后 的事件变更管理并形成闭环事前事前流程流程规范规范事中事中事后事后仪式感仪式感 业务连续性管理解读业务连续性管理解读过程域过程域过程域过程域 二级二级三级三级评估维度评估维度1级级(平均级:部分自动化)(平均级:部分自动化)2级级(先进级:自动化(先进级:自动化/脚本化、小范围)脚本化、小范围)3级级(领先级:系统化(领先级:系统化/平台化、大范围)平台化、大范围)RTO RPO 基础的RTORPO标准 RTO 达到99.90%(525分钟/年) 同城跨机房RPO (5分钟/年) RPO 达到99.95%以上(260分钟/年) 同
32、城跨机房 RPO 2分钟,异地10分钟/年 基础的业务影响分析 具备业务影响和风险评估 按周评估业务变化及相关风险,落实改进风险业务影响管理分析业务风险 分析 基础的业务风险分析 无严重影响安全运行的隐患 按月对运行风险进行分析和评估业务连续性危机管理管理灾备管理 灾备演习间隔超过半年 间隔小于半年,预期时间内完成且结果符合预期组织机制应急预案 基础的危机管理组织 基础的应急响应预案应急应急演练管理 基础的应急演练 组织完备,角色划分清晰,职责明确 详尽,准确说明启用条件、操作人和操作步骤 定期应急演练 监控准确,报警可升级 容量合理且满足业务的增长需要 按周上报风险评估,评估和预防法律及监管风险考虑外因和多机房架构,短时间快速切换且对业务影响最小 化 管理层重视且参与 集中管理且及时更新,方便检索及协同模拟硬件或操作系统异常,主动注入故障,快速排查定位问 题并解决组织机制 基础的应急管理组织架构 及时更新的应急组织,应急上报机制完善 考虑外部舆情和客服信息反馈2分钟快速响应,5分钟找到问题原因并启动预案,10分钟 完成问题解决业务连续性管理风险 管理保障业务持续稳定运行的保护伞危机 管理应急 管理 谢谢