1、演讲人202X-06-08服务治理服务治理01.02.03.04.05.目录运维治理管理治理业务治理研发治理测试质量治理运维治理运维治理01运维治理应用基础信息服务基础信息度量指标治理维度服务管控运维治理应用基础信息应用ID应用名称负责人应用描述服务数量服务列表运维治理服务基础信息0103基础信息SLA提供者02040506消费者(调用它的服务)关联应用配置变更运维治理服务基础信息路由访问规则维护历史基础信息服务ID01服务版本04服务名称02所属应用05服务接口列表03所属部门06基础信息服务级别01部署模式04线上版本02负责人05服务状态03负载均衡06基础信息所属应用应用ID应用名称(
2、例如:用户中心)基础信息服务状态ABCD待上线在线待下线下线基础信息部署模式单机集群基础信息负载均衡随机等轮询维护历史服务上线信息服务维护信息(列表)服务下线信息维护历史服务上线信息申请人申请时间申请执行内容审批人审批时间执行人维护历史服务上线信息执行时间01上线版本02执行结果03维护历史服务维护信息(列表)申请人申请时间申请执行内容审批人审批时间执行人维护历史服务维护信息(列表)执行时间执行结果维护历史服务下线信息申请人申请时间申请执行内容审批人审批时间执行人维护历史服务下线信息执行时间执行结果运维治理度量指标系统度量指标01服务度量指标02JVM指标03系统度量指标CPU内存系统负载磁盘
3、IO线程数服务之间调用单次调用指标一分钟汇总小时、天、月、季度、年汇总单次调用指标u 调用者u 被调用者u 调用接口u 调用时间u 调用动作u 调用结果u 调用耗时服务之间调用一分钟汇总u服务维度u接口维度服务之间调用服务与资源之间调用01数据库Redis其他单次调用指标02数据库Redis其他一分钟汇总03 小时、天、月、季度、年汇总JVM指标GC类型A新生代收集次数B新生代收集时间C老年代收集次数D老年代收集时间E内存使用FJVM指标内存使用新生代老年代survivor元数据区永久代CodeCache运维治理治理维度服务关系应用关系服务性能服务异常服务资源服务健康度运维治理治理维度服务依赖
4、01服务分布02服务容量03服务关系治理目标315避免深度调用避免循环调用优化资源配置426梳理冗余服务梳理集中调用根据服务的重要性,进行分级运维单服务调用关系视图被哪些服务调用 服务名称调用量错误率调用耗时调用的服务 服务名称调用量错误率调用耗时服务关系整体服务调用拓扑视图服务关系闭环检测是否是有向无环图(DAG)01是否有服务分层02服务关系最长调用深度检测服务关系集中调用检测服务关系清除冗余服务应用关系治理目标梳理应用调用关系01梳理应用重要性,运维分级保障02清理冗余应用03勾画微服务架构下以应用为中心的运维统一视图04单应用调用关系视图被哪些应用调用 应用名称调用量错误率调用的应用
5、应用名称调用量错误率应用关系整体应用调用拓扑视图2服务性能治理目标01梳理资源占用,降低单点负载02梳理集中调用,避免调用瓶颈03优化调用性能04提高线上服务的健康度及稳定性治理手段调用耗时分区分布统计(接口)调用量/并发量分时分布统计(接口)性能纵比(接口)调用耗时分时分布统计(接口)性能横比(接口)综合性能分析治理手段动态阈值趋势预测性能横比(接口)u性能排序TopN横比图表u调用量排序TopN横比图表u计算资源排序TopN横比图表治理手段性能纵比(接口)u基于时间序列的串联比较u连续指标段的指标突变分析治理手段服务异常治理目标故障定界定位,解决线上问题01故障根因分析,消除系统隐患02通
6、过业务异常排查用户痛点,改进业务设计质量03通过业务异常排查系统业务漏洞,防范灰产攻击04治理手段实时异常报表异常分布报表异常列表查询业务异常分析实时异常报表u系统错误最多TopNu最近1个月、1天、1小时系统错误最多TopN治理手段异常分布报表u整体错误分布(错误类型的饼图)u总量最多TopN错误在服务中的分布治理手段异常列表查询u查询条件u查询结果治理手段业务异常分析u业务质量监控u异常行为监控治理手段服务资源治理目标基于应用视角的网络性能度量01基于应用视角的资源性能及容量优化02治理手段01 网络资源02SQL分类统计SQL执行时长TopN慢SQL耗时分布(散点图)(x=时间序列,y=
7、时长(s)慢SQL分布统计(x=慢SQL次数,y=时间序列)数据库资源03 其他资源服务健康度性能监控指标基础资源监控指标治理事件监控指标架构合理性指标服务健康度性能监控指标服务负载水位01服务调用延时03请求成功率02告警率04服务健康度基础资源监控指标CPU负载01网络负载03内存使用率02磁盘使用率04服务健康度治理事件监控指标限流熔断降级服务健康度架构合理性指标外部服务依赖度1内部代码冗余度2运维治理服务管控鲁棒性架构保障A服务上下线B服务路由C服务限流D服务降级E服务熔断F运维治理服务管控服务授权集群容错鲁棒性架构保障服务节点冗余弹性伸缩单点无状态不可变基础设施故障传导阻断鲁棒性架构
8、保障故障传导阻断切换流量服务降级服务限流服务熔断超时控制重试阻尼故障传导阻断u幂等操作鲁棒性架构保障服务限流单点限流集群限流屏蔽降级 容错降级静态返回值降级备用服务降级Mock降级 熔断降级 服务降级服务授权自主授权注册中心授权第三方授权132456聚合调用广播调用失败转移重试阻尼防止级联重试重试降级 失败重试 快速失败 失败安全 集群容错管理治理管理治理02管理治理DevOps协同管理敏捷模式管理治理DevOps治理目标过程度量治理目标通过本地、开发、测试、预生产环境的建设和环境间的有序协同来解决抢占问题研发流水线为研发的协同效率提升提供工程能力保障,减少运维的重复工作指标体系局部指标 效率
9、指标质量指标整体指标 效率指标质量指标过程度量流程架构管理治理协同管理010203治理目标小步快跑,高频发布通过数据驱动的精益看板优化协同管理治理目标通过敏捷模式构建以“周”为单位的研发周期,优化研发团队之间的配合,减少等待时间,形成良好的“节奏感”,加快价值交付速度引入精益看板方法,对敏捷迭代周期进行全面度量。通过梳理发现研发管道中的阻塞点,通过价值流的改进实现需求的快速流动业务治理业务治理03业务治理治理目标业务指标采集框架业务指标实时监控与分析风控与反欺诈业务治理治理目标0102构建完整、成体系的业务指标采集和度量框架基于系统指标的聚合分析开展风控与反欺诈活动业务治理业务指标实时监控与分析指标展示01指标聚合02指标对比03业务治理风控与反欺诈切换风险算法异常风险一致性风险控制性风险配置风险研发治理研发治理04研发治理测试质量治理测试质量治理05测试质量治理感谢聆听感谢聆听
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。