1、 GOPS2016 全 球 运 维 大 会 深 圳 站 GOPS2016 全 球 运 维 大 会 深 圳 站金山云云计算高可用之路眭聚磊 金山云 GOPS2016 全 球 运 维 大 会 深 圳 站 云计算高可用面临的挑战 高可用的需求与目标 金山云做如何应对概要 GOPS2016 全 球 运 维 大 会 深 圳 站挑战 快速发展规模与增速设备异构设备老化 GOPS2016 全 球 运 维 大 会 深 圳 站挑战 问题永远存在0:计划外&硬件:CPU cat error,UE等1:计划外&软件:内核panic2:计划内&硬件:设备升级3:计划内&软件:核心软件升级 GOPS2016 全 球 运
2、 维 大 会 深 圳 站高可用SLA:服务等级协议,高可用的一种衡量标准用户需要的是什么?平均不可用时间:20分钟/月1.0.66分钟/天 X 30次?2.20分钟 X 1次?目标:降低频率 减少单次时长 降低影响 GOPS2016 全 球 运 维 大 会 深 圳 站如何应对计划内(0影响)热升级 在线迁移计划外(持续降低)Auto Failover共享存储 减少宕机时间本地存储 Auto Backup GOPS2016 全 球 运 维 大 会 深 圳 站热升级 内核ksplice&kpatch核心问题:如何降低高频函数调用频率?1.Hrtimer2.Cpu调度相关3.Kvm进程中的死锁4.金
3、山云:解决高频函数问题处理线上bug数 30涉及到的内核小版本 10涉及到大版本2.6.32+3.10 GOPS2016 全 球 运 维 大 会 深 圳 站热升级 Hypervisor 热升级 在线迁移本地热升级核心问题:如何降低downtime?金山云:优化内存页分配Downtime 300ms GOPS2016 全 球 运 维 大 会 深 圳 站在线迁移共享存储本地存储核心问题:如何降低downtime?核心问题:1.如何降低downtime?2.如何降低本地数据传输时间?GOPS2016 全 球 运 维 大 会 深 圳 站在线迁移-本地存储ksc_inc:金山云开发的增量磁盘格式数据传输时间=增量数据/网络带宽ksc_inc GOPS2016 全 球 运 维 大 会 深 圳 站Auto Failover针对共享存储 GOPS2016 全 球 运 维 大 会 深 圳 站减少宕机时间Kdump 重新定义Kdump内存转储内容 转储时间控制在3s以内 GOPS2016 全 球 运 维 大 会 深 圳 站Auto Backup本地数据核心问题:1.如何快速完成备份?2.如何快速恢复数据?金山云基于增量磁盘,备份增量数据到共享存储 GOPS2016 全 球 运 维 大 会 深 圳 站谢谢