1、京东数据中络监控实践京东云-王泳、京东络的现况2络服务单元3数据中组4互联接5络规模变化6、络临的挑战7户眼中的络问题-络不通了-接调百毫秒-机房间超过1ms法忍受-不证明络没有问题,怎么确定应有没有问题-络结构太复杂,不透明-不清楚络规划,没有创新8较低下的运维效率-操作-多商环境-复杂的结构与配置-低效率的设备交互式-追求快速交付下的技术债务9已有监控系统的局限-将络设备正常,等同于络服务正常-只感知络局部,难体现络服务整体-志和报警,缺少有效的聚合和收敛-问题的定位,严重依赖经验和熟悉程度-监控系统,没有解决最核的运维需求维护管理过于复杂-不符合络管理习惯-不能反映络可性10关键问题-络
2、到底有没有问题?故障定性-如果有,是什么问题?-对业务,有多影响?11三、京东的络监控12京东络监控结构13JoyEye监控项14整体络的可性-带宽与流量-互联出,总流量环-专线,总流量环各IDC出带宽,峰值+实时使率-各POD上联带宽,峰值+实时使率质量和健康度-ISP和IDC的全国互联质量-DCI可性,直联+fullmesh-络设备存活数、志数、CRC数-各IDC主机存活数15域名和IP的质量查询16局部主机的质量-操作简单-次录,后续全部点击-查询便捷可通过域名、VIP、主机IP任意查询三者关系-并给出ISP、机房、POD、TOR等属性信息-同时标识相关属性的状态是否正常-直观展示-通过拓朴,展示域名、IP等的逻辑关系-通过拓朴,展示主机络的物理关系以及TOR络质量、同TOR下主机络质量-17公质量矩阵18监控管理后台19络带宽与流量20监控实现tips-主开发-SNMP,Ping,络信息抓取,监控前端界-使go,python,shell-期维护-SNMP第1版已使3年第2版已使1.5年-Ping-想法法重要效利已有数据-Pingmesh21为了络,尽微薄之交换机管理https:/