1、夯实海量运营质量的三个运维实践经验海量业务的特征大流量,高并发亿级用户、数据过万服务器分布式高可用架构容灾调度,异地多活弹性资源,柔性有损网络、安全环境复杂架构庞大,分布广业务形态和功能分支多快速迭代,频繁发布渐进式发展海量运维从深圳大会说起技术价值观技术手段运营意识有损服务动态运营容灾过载保护负载均衡柔性可用分SET部署灰度发布立体监控大系统小做先扛住再优化干干净净边重构边生活天津813大调度故事背景:海量用户业务-天灾人祸-分SET部署-异地容灾-7000w用户调度目录 SET:化零为整1 效率:运维提速2 质量:计划性事件3什么是SET?定义:一组独立实现特定业务功能模块的集合,这些模块
2、组成的运维管理单元称为SET。运维对象的提炼单机模块SET收益:放大管理单元减少运维对象用户就近接入容灾调度运维效率提升依赖:逻辑解耦名字服务数据一致性为什么要SET?业务价值效率成本速度质量异地分布,容灾能力提升就近接入,访问延时降低移植性强、调度迅速减少穿越、成本降低SET架构示意图接入层逻辑层数据层PC专区专区接入层逻辑层数据层手机专区手机专区1接入层逻辑层数据层手机专区手机专区2接入层逻辑层数据层手机专区手机专区3接入层逻辑层数据层手机专区手机专区4接入层逻辑层数据层PC专区专区接入层逻辑层数据层手机专区手机专区1接入层逻辑层数据层手机专区手机专区2接入层逻辑层数据层手机专区手机专区3
3、接入层逻辑层数据层手机专区手机专区4建成可靠的数据建成可靠的数据同步机制,实现同步机制,实现异地多活异地多活华北地区华北地区华东地区华东地区华南地区华南地区西部地区西部地区多读单写,用户就近接入按业务量部署,异地互备,数据安全性高实现接入智能调度,容错架构SET运维的5个角度调度精细度监控颗粒度容量冗余度风度与速度架构复杂度化零为整:减少运维对象模块资产配置硬件配置软件配置运营配置分布信息资源配置权限配置流程配置测试用例变更记录SET组成模块统一命名地域分布核心指标容量配比柔性工具调度策略应急预案化零为整:条带化.核心模块流量在线用户量实时交易量可度量化零为整:命名规范SETSET类型地域信息
4、SET序号朋友:F直播:ZSNS:S相册:P日志:B深圳 0上海 1天津 2南京 3杭州 4接入SET A数据SET D基础平台 B信息中心 I第一个 1第二个 2第三个 3第四个 4For产品信息框架接入代理SET_W01Q接入cmdsvrSET_W01Q逻辑SPPwebappSET_W01Q逻辑SPPfeedsSET_W01Q逻辑SPP重要bitmapSET_W01Q存储关系链oidbSET_W01QCMEM化零为整:一致性SET_W01组成模块统一命名地域分布核心指标容量配比柔性工具调度策略应急预案SET_W02组成模块统一命名地域分布核心指标容量配比柔性工具调度策略应急预案SET_W1
5、1组成模块统一命名地域分布核心指标容量配比柔性工具调度策略应急预案目录 SET:化零为整1 效率:运维提速2 质量:计划性事件3SET的运维效率全自动是不现实的!SET模型化PC 用户移动用户PCSETWNS SET数据SET信息中心SET数据存储同步中心同步中心写svr业务写请求落地存储深圳IDC1深圳IDC2上海IDC1天津IDC1读读读读12345定义SET大小物理隔离服务独立SET间同构条带化服务SET的复制无状态模版复制,配置差异有状态单写多读,异地同步,追齐流水一键部署SET的维护自动化流程化配置化标准化传承标准协作掌控灵活成本智能织云ISP负载均衡接入服务B接入服务A逻辑服务A逻
6、辑服务B数据服务客户端路由服务接入层逻辑层数据层框架化组件化无状态分布式SET的监控用户体验ISP负载均衡接入层接入层逻辑层逻辑层数据层本地网络运营商网络企业内网用户端客户端基础设施服务端OS/服务器数据层(redis/MySQL)中间层(SPP/SF2)WEB层(Qzhttp/proxy)TGW/LVS自研服务 WNSCKV/CDB/CMEMIDC自建CDNGSLB客户端(用户端)TEG服务监控:N:网络质量监控C:CDN监控D:数据层监控SNG服务监控:Y:业务染色监控R:返回码监控S:测速系统A:自动化测试M:模块间调用C:组件监控移动端监控:T:舆情监控K:卡慢监控D:多维监控LFPM
7、F基础监控:L:容量管理P:进程监控F:特性监控NCNDAMMMRASDCYCYCYCLFFKT目录 SET:化零为整1 效率:运维提速2 质量:计划性事件3SET日常巡检核心指标可度量模块自动化能力资源一致性监控容量水位管理容灾调度预案柔性策略SET的容量管理优化点容灾调度天灾人祸,核心服务必须异地容灾!2015.8.12天津爆炸天津IDC断电2008年圣诞晚会深圳IDC核心链路光纤被挖断调不调?调哪个?怎么调?调多少?谁来调?制定调度方案W01I01W02I02W11I11W12I12W21I21W22I22深圳上海天津XX同城调度简单粗暴异地调度简单粗暴深圳50%深圳50%中国功夫的领悟
8、社交业务的高峰520零点零分5201314春节跨年第一秒3倍峰值!堆设备扛住1分钟?柔性削峰预拉取(5%)20秒重复刷(8%)刷新但无新内容(20%)Push引入(7%)首页打开18w关键路径(关闭非关键拉取)调小请求等待超时(避免请求挂住)减小消息队列大小(防雪崩)红点、计数引入(50%)首页打开9w技术层面体验层面体验有损:10s的好友动态变更无感知 Feeds变更不实时 PUSH、计数推送不及时柔性策略柔性类别柔性等级目标效果具体策略作用域用户体验FEEDS系统效果基础数据效果对其它子系统效果读柔性一级柔性30%关预拉取好友动态/个人档无预拉,翻页稍不顺畅下降5%下降5%无304.二级柔性60%.三级柔性90%.写柔性.相册柔性.WNS柔性.SET运维小结:QQ空间的SET运维实践集中与分散三地六活无脑调度一点调度指标唯一纵横度量一致性管理木桶原则45%阀值尾巴推导防范未然拒绝突发效率建设峰值演练定义SET大小服务独立物理隔离SET间同构架构复杂度调度精细度容量冗余度监控颗粒度风度与速度