从救火”走向防火”商业平台业务运维实践课件.pptx

上传人(卖家):三亚风情 文档编号:3349596 上传时间:2022-08-22 格式:PPTX 页数:37 大小:5.14MB
下载 相关 举报
从救火”走向防火”商业平台业务运维实践课件.pptx_第1页
第1页 / 共37页
从救火”走向防火”商业平台业务运维实践课件.pptx_第2页
第2页 / 共37页
从救火”走向防火”商业平台业务运维实践课件.pptx_第3页
第3页 / 共37页
从救火”走向防火”商业平台业务运维实践课件.pptx_第4页
第4页 / 共37页
从救火”走向防火”商业平台业务运维实践课件.pptx_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、从从“救火救火”走向走向“防火防火”商业平台业务运维实践救火救火防火防火时间都去哪儿了时间都去哪儿了救火救火防火防火 越是做到高级阶段,防火的工作所占的越是做到高级阶段,防火的工作所占的比重就会越高。比重就会越高。从救火到防火,不是一蹴而就的事情,从救火到防火,不是一蹴而就的事情,应该是个逐渐演进的过程应该是个逐渐演进的过程思考点思考点发生发生发现发现响应响应全部恢复全部恢复时间时间故障发现故障发现故障响应故障响应故障修复故障修复开始处理开始处理故障定位故障定位提升故障提升故障发现率发现率提升故障处理速度提升故障处理速度降低故障率降低故障率目标目标故障预防故障预防过程过程Agenda如何提升故

2、障处理速度如何提升故障处理速度如何提升故障发现率如何降低故障率123故障响应规范应急处理预案这些都做了,还有提升的空间吗?这些都做了,还有提升的空间吗?准确识别准确识别故障响应时间故障响应时间目标与措施目标与措施快速判断快速判断故障定位时间故障定位时间快速执行快速执行故障修复时间故障修复时间7*24值班规范 分析数据及图表 流量切换工具 报警内容 服务降级工具职责与分工 故障运维手册 数据修复工具故障预演 任务修复工具 回滚工具 数据提取工具 主要受哪些影响因素主要受哪些影响因素影响因素影响因素1、新手、新手2、故障处理步骤繁杂、故障处理步骤繁杂应对方法应对方法优化报警内容优化报警内容,使报警

3、内容变得可依赖。报警内容除了报告问题,还将故障的判断和处理方法附在其中。利用数据任务调度管理系统,对数据任务进行统一管理数据任务进行统一管理优化报警内容优化报警内容该报警对应的运维专员联系方式该报警对应的开发人员联系方式减少对运维人员经验的依赖,使得新人和值班人员都可以快速处理灵活配置报警内容灵活配置报警内容降低维护成本,提升工作效率繁杂数据故障处理繁杂数据故障处理存在的问题:存在的问题:不能快速识别哪些任务失败了,影响了谁 一个任务失败会导致多个任务失败,每个任务的任务都会发一个报警 处理多个任务失败时,需要人工确认修复顺序,还要等待每个任务执行完成后再人工执行下一个 如果所需数据源存在短暂

4、延迟到位,会导致任务执行失败并报警,有时会对运维人员产生干扰ABCDEFGHIJKLM繁杂数据故障处理繁杂数据故障处理数据任务调度管理系统数据任务调度管理系统:实时自动的可视化数据任务关系图 能快速识别哪些执行失败及影响范围 父节点任务失败后报警,子任务节点不再执行(也不会报警)恢复关键路径节点任务时,只需选择带依赖执行,后续子节点任务会自动执行,无需人工干预,等待 支持每个任务自定义重试次数和间隔,如果任务所需数据源存在延迟提供现象,不会马上报警,直到达到最大重试次数为止,降低对运维人员的干扰ABCDEFGHIJMLK繁杂数据故障处理繁杂数据故障处理Agenda如何提升故障处理速度如何提升故

5、障发现率如何提升故障发现率如何降低故障率123网络连通性机器存活远程可达丢包检测容量监控磁盘故障磁盘坏道内存条检测基础资源类基础资源类完善监控指标完善监控指标常规业务类常规业务类自定义业务类自定义业务类端口进程Curl工作日志任务始止类关键组件监控一致性类跨界类监控数据流监控超时/延时类失败率/成功率自定义业务类监控自定义业务类监控监监控控项项低位警界线低位警界线业务系统健康度趋势业务系统健康度趋势高位警界线高位警界线监监控控项项加强关注!加强关注!加强关注!加强关注!导致导致全面全面短信报警过多短信报警过多产生产生麻木麻木心理心理降噪降噪监控的系统:监控的系统:300+监控的实例:监控的实例

6、:20000+运维人员短信接收:人均每天运维人员短信接收:人均每天6条条报警策略报警策略报警分层报警分层精准下发精准下发取得的效果取得的效果采用的手段采用的手段报警分层报警分层网段可用网段可用机器存活机器存活远程可达远程可达业务类业务类ABCDEFGHIJMLK数据依赖任务数据依赖任务报警精准下发报警精准下发运维值班运维值班1运维值班运维值班2运维专员1运维专员2运维专员3运维专员4运维专员N开发人员1开发人员2开发人员NAgenda如何提升故障处理速度如何提升故障发现率如何降低故障率如何降低故障率123它山之石,可以攻玉它山之石,可以攻玉数据说话数据说话有针对性的推动改进!有针对性的推动改进

7、!避免重复性故障!避免重复性故障!代码发布是故障的导火索代码发布是故障的导火索上线次数趋势图上线次数趋势图异常处理趋势图异常处理趋势图推动开发人员有针对性解决推动开发人员有针对性解决 程序Bug 设计缺陷 代码配置 部署问题变更操作是故障的导火索变更操作是故障的导火索业务模块新增机器机房迁移,变更IP机器故障更换下线业务模块维护系统配置部署相关监控维护应用环境及配置维护访问控制关系更新代码配置(研发人员)常见运维变更常见运维变更涉及哪方面的操作涉及哪方面的操作涉及大量的涉及大量的IP、访问关系等信息,操作繁杂!、访问关系等信息,操作繁杂!机器机器1机器机器2机器机器N系统系统配置配置监控监控策

8、略策略访问访问关系关系其他其他操作繁杂,易出错操作繁杂,易出错某个业务某个业务抽象运维对象抽象运维对象减少人工干预减少人工干预优化技术架构优化技术架构抽象运维对象抽象运维对象机器机器1机器机器2机器机器N系统系统配置配置监控监控策略策略访问访问关系关系系统系统配置配置监控监控策略策略访问访问关系关系AppID机器机器1机器机器2机器机器N其他其他运维运维人员人员之前之前之后之后级别级别等等配置策略服务服务管理管理报警策略监控策略自动自动机制机制机器列表新机器发现自动生成监控项基础监控部署App1机器1 机器N策略变更嗅探通用配置分发私有监控部署App2机器1 机器N自动生成配置策略树私有配置分

9、发自动更新发布目的地AppN机器1 机器N机器规模越大效果越明显机器规模越大效果越明显1.当某App中有新机器到位时,会对该机器自动部署相关的系统配置、监控项,同时自动更新对应App的代码发布地址列表2.当某个App有系统配置更新、监控策略更新时,会下发到所有相关的机器减少人工干预减少人工干预只需针对只需针对Appid设置一次相关策略,设置一次相关策略,其他工作全部自动完成其他工作全部自动完成机机器器11机机器器12机机器器1NApp1机机器器21机机器器22机机器器2NApp2机机器器31机机器器32机机器器3NApp3机机器器41机机器器42机机器器4NApp4机机器器51机机器器52机机

10、器器5NApp5机机器器61机机器器62机机器器6NApp6机机器器71机机器器72机机器器7NApp7机机器器81机机器器82机机器器8NApp8应用间复杂且不透明的访问关系应用间复杂且不透明的访问关系服务端要确认被哪些客户端访问,才能保证正确的开通访问白名单:机器+接口+方法机器11、机器12机器1N机器31、机器32机器3N机器61、机器62机器6N客户端需要访问服务端:机器11、机器12机器1N机器21、机器22机器2N规范化后的开发架构规范化后的开发架构客户端客户端(服务使用者)(服务使用者)服务端服务端(服务提供者)(服务提供者)1.2.3.4.5.人工在管理界面中进行服务注册与维

11、护,管理服务端及接口,以及客户端对哪些接口访问等客户端启动时获取服务端机器及URL列表服务端启动时获取访问控制列表服务端及接口发生变更时自动推送给客户端,更新调用服务器的机器及URL列表客户端及接口发生变化时自动推送给服务端更新访问控制列表RPC协议客户端代理RPC协议客户端代理RPC协议服务端代理客户端代理负载均衡器并发访问拦截器白名单拦截器服务对象代理3524管理UI1服务注册中心服务治理框架层服务治理框架层RPC协议层协议层业务层业务层机机器器11机机器器12机机器器1NApp1机机器器21机机器器22机机器器2NApp2机机器器31机机器器32机机器器3NApp3机机器器5NApp5机

12、机 机机器器 器器5 51 2机机器器6NApp6机机 机机器器 器器6 61 2小范围试点,效果显著,推广使用小范围试点,效果显著,推广使用访问控制、自动路由、负载均衡访问控制、自动路由、负载均衡如果如果App1有新机器到位:有新机器到位:框架会自动通知App5、App6的所有机器,App1已有新机器为他们提供服务,各机器自动将请求均衡落到App1的各台机器上 同时,自动通知App2的所有机器,有新机器需要纳入到他们的访问白名单自动容错、负载均衡自动容错、负载均衡如果如果App2有机器宕机:有机器宕机:框架会自动通知访问它的App1、App3、App6的所有机器,App2有机器故障已不能提供

13、服务 各机器的访问请求不再向故障机器发送,并自动将请求均衡落到App2存活的机器上WarOrRPM标准化发布方式标准化发布方式App1机机器器1机机器器1机机器器N机机器器N机器分组A机机 器器2机器分组B机机 器器2自动部署重启 回滚检查一致性安装 卸载启动 停止主主任任务务子子任任务务WarOrRPMApp2从救火走向防火从救火走向防火发生发生发现发现响应响应全部恢复全部恢复时间时间故障发现时间故障响应时间故障修复时间开始处理开始处理故障定位时间提升故障发现率提升故障发现率(及时全面准确)(及时全面准确)提升故障处理速度提升故障处理速度(快速有效)(快速有效)降低故障率降低故障率(有效防御

14、)(有效防御)数据修复工具流量切换工具服务降级工具回滚工具数据提取工具职责与分工7*24值班规范故障响应规范故障处理预案故障预演量化问题管理抽象运维对象减少人工干预优化技术架构目标目标措施措施预防故障发生 完善监控指标 建立业务健康度分析体系 降低误报率,提升准确度 故障运维手册 分析数据及图表 报警内容可依赖准确识别准确识别快速判断快速判断快速执行快速执行后续努力方向后续努力方向 更智能 智能监控 智能故障修复 智能健康度评估 更轻量 简单易控 随时随地严禁隐瞒、虚报生产安全事故。22.8.1022.8.10Wednesday,August 10,2022推行ISO9000不走样,企业生存发

15、展有希望。14:42:3514:42:3514:428/10/2022 2:42:35 PM质量出效益,点滴成江河。22.8.1014:42:3514:42Aug-2210-Aug-22厕所卫生要注意,干净清洁常保持。14:42:3514:42:3514:42Wednesday,August 10,2022人人讲安全,安全为人人。22.8.1022.8.1014:42:3514:42:35August 10,2022今日的质量,明日的市场。2022年8月10日下午2时42分22.8.1022.8.10树立自我信心,把握各工段流程;消灭疵点起因,管理操作是关键。2022年8月10日星期三下午2时

16、42分35秒14:42:3522.8.10安全是增产的细胞,隐患是事故的胚胎。2022年8月下午2时42分22.8.1014:42August 10,2022我们极度鄙视一切乱丢乱吐等不文明行为。2022年8月10日星期三14时42分35秒14:42:3510 August 2022清洁拥有清爽明亮的工作环境。下午2时42分35秒下午2时42分14:42:3522.8.10贯彻ISO系列标准,树立企业新形象。22.8.1022.8.1014:4214:42:3514:42:35Aug-22老兄!品管不是空想,而是起而行的工作。2022年8月10日星期三14时42分35秒Wednesday,August 10,2022幸福是棵树,安全是沃土。22.8.102022年8月10日星期三14时42分35秒22.8.10谢谢大家!谢谢大家!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(从救火”走向防火”商业平台业务运维实践课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|