1、京东EB级全域大数据平台建设和治理之路Agenda数据的价值数据的价值行业大数据平台现状行业大数据平台现状京东全域大数据平台的建设历程京东全域大数据平台的建设历程未来的发展方向未来的发展方向数据的价值The worlds most valuable resource is no longer oil,but dataThe Economist(经济学人期刊),2017年,5月版数据的价值数据的价值数据洞察助力业务增长(数据洞察助力业务增长($billion)全球市值前十公司变化全球市值前十公司变化 科技公司成主流科技公司成主流19902000201020202000150010005000日本
2、电信电话公司微软中国石油苹果东京三菱银行日本兴业银行三井住友银行丰田汽车通用电气NTT Docomo思科埃克森美孚微软沙特阿拉伯国家石油微软亚马逊工商银行沃尔玛沃尔玛谷歌日本富士银行日本第一劝业银行IBM英特尔建设银行必和必拓汇丰银行巴西国家石油苹果阿里巴巴脸书日本电信电话公司埃克森美孚朗讯2016/12/30 2017/12/30 2018/12/30 2019/12/30 2020/12/30 2021/12/30腾讯上市公司初创公司日本联合银行埃克森美孚伯克希尔哈撒韦VISA德国电信Forrester报告显示,数据洞察驱动业务发展,领先者相比落后者:1.78倍倍业务增长能力、2.28倍倍
3、客户响应速度、2.40倍倍维持竞争优势金融投资通讯及硬件互联网软件石油大众消费国内大数据行业趋势国内大数据行业趋势 国家国家“大数据大数据”政策相继出台政策相继出台大数据市场规模呈稳步上升态势,从大数据市场规模呈稳步上升态势,从19年年8000亿元增长至亿元增长至23年的年的1.57万亿万亿大数据首次写入政府工作报告,为政策元年十三五规划纲要“实时国家大数据战略”十九大报告提出“推动大数据与实体经济结合”大数据连续6年写入2015-2023年中国大数据市场产值预测(亿元)政府工作报告2014.032016.032017.102019.03预热起步落地深化2015.082016.122017.1
4、2国务院印发大数据发展 工信部发布大数据产业行动纲要 发展规划2016-2020中央政治局就实施国家大数据战略进行集体学习行业大数据平台现状行业大数据平台发展阶段行业大数据平台发展阶段数据平台发展阶段数据平台发展阶段中大型企业相继建设数据中台,数据中台由概念向应用落地转变。众多细分领域产品上线,市场头部企业初现,资本市场高度关注。数据中台市场相对成熟,市场热度逐渐消退,市场开始洗牌,技术不成熟、发展规模较小的厂商将被兼并或淘汰。数据中台逐步受到市场关注,互联网企业率先将数据中台应用落地。与之相关的创新性企业相继发布典型产品和服务。行业标准、监管规范等已建立,各细分领域发展稳定,开始走向差异化竞
5、争,数据中台被广泛应用,行业趋于稳定。市场认知加深,企业用户不断增加,细分市场涌现。探索起步期来源于:公开资料整理快速推进期规模发展期产业消化期应用成熟期行业大数据平台架构行业大数据平台架构服务层即席查询实时分析度数据服务元数据服务数据质量平台数据目录离线/流式开发算法平台数据集成埋点管理数据安全平台层计算层数仓平台数据治理ETL管理中心离线调度流式调度HiveClickhouseDorisFlinkSpark StreamingStorm离多实线维时SparkMR计分计算析ES算传输层数据层KafkaScribeDataXFlumeMySQLOracleMongoDB日志系统行业大数据平台建
6、设的挑战行业大数据平台建设的挑战数据规模增加:服务器增长的边际效益越来指数级数据增长下的永无止境的高时效性需求,0102030506越低从分钟-秒-毫秒如何对不断累积的海量数据去芜存菁,形成正向循环传统的规则化大数据分析无法满足更精准的需求实时数据的需求越来越多,开发门槛高、周期长、落地难疫情、新基建激发大数据建设诉求,政企数字化转型迫在眉睫07缺少“中台”统筹导致烟囱式开发,带来业务困扰和资源浪费04京东全域大数据平台的建设历程京东大数据平台数据指标京东大数据平台数据指标京东大数据平台总体规模京东大数据平台总体规模集群规模集群规模计算能力计算能力存储能力存储能力峰值能力峰值能力服务器规模数万
7、数万日计算任务数百万数百万级别总存储EB+级级日增几十PB每秒处理消息数数十亿级数十亿级处理延时秒级秒级京东大数据平台支撑的业务体系京东大数据平台支撑的业务体系海量的存储计算、分析的需求、多业态的业务场景京东大数据平台建设历程京东大数据平台建设历程 数据规模增加:服务器增长的边际效益越来越低体系化 缺少“中台”统筹导致烟囱式开发,带来业务困扰和资源浪费 数据的标准和质量建设滞后,数据价值被埋没 如何对不断累积的海量数据去芜存菁,形成正向循环商业化智能化实时化 疫情、新基建激发大数据建设诉 传统的规则化大数据分析无法满足更精准的需求 指数级数据增长下的永无止境的高时效性需求,从分钟-秒-毫秒求,
8、政企数字化转型迫在眉睫规模化:业务增长带来的挑战规模化:业务增长带来的挑战无论是堆机器、堆集群、堆人力,堆机器、堆集群、堆人力,无法在数据的快速膨胀、业务的高速增长和平台的稳定、易用、高效上取得比较好的平衡规模化:高效的计算存储引擎规模化:高效的计算存储引擎跨层计算优化存储计算分离 0104调度层:数万台超大集群规模、自适应资源超分计算层:深度定制的内存计算引擎、云原生的存、算分离架构定制存储与计算机型,降低单位成本实现更精准的容量规划应用层:任务千人千面优化、自助诊断系统03大集群和EC存储 02数据生命周期管理单存储集群规模从数千提升至数万节点结合业务特点定义热、温、冷数据分层,实现分层数
9、据优化存储数万台节点集群全面落地EC技术规模化:自动化的运营管理系统规模化:自动化的运营管理系统自动化运维运营,通过系统化来解决平台规模化可靠性易用性,达到低碳降本和业务提效,支持业务快速布局和起量电商全业务域数据体系统一数据标准和口径资产治理产品化提供自动化工具端到端全链路资产分析诊断资产ROI评估 年节约机器和人力成本数十亿元体系化:业务快速并行发展带来的挑战体系化:业务快速并行发展带来的挑战野蛮生长,管理成本急剧增加数据烟囱:数据烟囱:重复建设,缺乏连接、无法形成合力数据腐化:数据腐化:随着时间流逝,数据价值流失缺乏治理:缺乏治理:高数据价值甄别难来源繁杂:来源繁杂:结构化、非结构化数据
10、、多种异构数据源业务复杂:业务复杂:需求扩张速度与应接能力矛盾体系化:数据中台的核心目标体系化:数据中台的核心目标12345构建生产标准构建生产标准统一数据集成统一数据集成全域模型体系全域模型体系全场景数据服务全场景数据服务统一资产管理统一资产管理Easy Model/EasyLabelEasy Data/EasyOlap/Easy AudienceData Schema SysEasy DTSData OS通过标准化SQL开发,打通异构数据源到应用的链路瓶颈,提供安全可靠的统一数据服务层建设数据资产盘点、分析、治理的全链路管理和评估体系,保持平台良性发展 从源头规范数据技术标准和业务语义 支
11、持全业务体系、多种异构数据源统一集成,打破数据孤岛 建立企业统一的公共数据层,保障数据规范和口径的统一金融物流营销电商保险实时化:速度是永恒的诉求,快速响应市场变化实时化:速度是永恒的诉求,快速响应市场变化基于海量数据的秒级决策,高时效性需求:天-分钟010203-秒-毫秒大促洪峰压力实时计算技术开发推广实时化:解决方案实时化:解决方案 Easy Realtime实时计算平台实时计算平台低延迟低延迟高可用高可用易用性易用性“零代码”开发 全方位深度定制的实时计算引擎 全链路的实时采集、传输、计算分析一体化计算框架 云原生资源调度、多租户资源隔离、自适应的跨机房容灾 全链路的实时监控自愈,实现分
12、钟级故障恢复 一站式融合数据服务平台一站式实时解决方案523数据采集数据采集 SQL/Flink SQL多维分析引擎多维分析引擎可视化应用可视化应用数据库1业务系统业务系统数据产品数据产品4数据查询服务数据查询服务数据流系统智能化:对数据的深度理解是业务再增长的动力源智能化:对数据的深度理解是业务再增长的动力源打造以高效精准业务决策为目标的数据智能化服务Deep Data统计分析数据智能化数据算法平台大数据平台智能化智能化01 大数据下的超大规模机器学习算力挑战大数据下的超大规模机器学习算力挑战 高性能的算法平台九数研发,提供了一套成熟的工业级解决方案数据安全背景下的跨业务实体数据跨融合分析数
13、据安全背景下的跨业务实体数据跨融合分析挑战挑战02 研发联邦学习数据交换平台,为京东生态合作提供数据交换避难所数据多模态的大量涌现,组织越来越复杂,应用数据多模态的大量涌现,组织越来越复杂,应用越来越灵活越来越灵活03打造伽利略图计算框架,支持异构多数据类型的组织分析,可支撑数十亿节点、数百亿边的数据规模智能化:智能化:九数九数(9N)商业分析和业务智能化平台商业分析和业务智能化平台京东零售京东健康京东数科京东物流全渠道 赋能业务赋能业务9N服务平台9N算法诊断平台 服务京东全业务场景,助力业务高速发展精准匹配趋势分析时序预测关联分析仿真系统效果诊断 典型案例典型案例 助力京东广告从规则化到数
14、字化智能化的转型,加速无人投放广告高速发展,已经成为京东广告核心收入来源9N核心算法引擎9N-Deep(模型训练引擎)Galileo(图计算引擎)开源回馈社区开源回馈社区9N-FL(联邦学习引擎)9N-RL(强化学习引擎)9N-OL(在线学习引擎)9N-FL已开源 Galileo图计算框架即将开源 9N算法平台整体开源计划中9N-Cloud算法资源云化管理系统一站式算法解决方案京东全域大数据平台架构京东全域大数据平台架构 Easy JData数据操作系统服务层可视化分析(Easy BI)数据服务(Easy Data)统一元数据服务用户洞察(Easy Audience)(DataOS)Easy RealTime离线数仓九数算法平台(9N)数据质量平台埋点管理数实时数仓数据目据安全平台层数据建模平台(Easy Model)数据集成平台(Easy DTS)录数据资产管理管理中心离线调度实时计算(JRC)流式调度计算存储层离线计算多维分析(Easy OLAP)离线调度全域数据存储数据湖(Easy DataLake)传输层数据层数据总线(JDQ)MySQL日志系统未来发展方向未来的发展方向未来的发展方向全域大数据平台全域大数据平台技术升级开放行业赋能云原生,批流一体化以Paas,Saas为抓手,建设大数据商业生态深度业务赋能Deep AI