1、网易Hadoop大数据架构技术创新,变革未来数据业务架构数据采集数据采集数据平台数据平台数据应用数据应用网易新闻网易云音乐网易考拉网易云课埻网易有数/网易猛犸数据存储计算服务日志Database直接导入其他仓库网易大数据体系Hadoop 开源组件自研组件猛犸数据 开发平台有数敏捷数据 分析平台01数据平台网易大数据体系大数据开发套件(可视化IDE)数据集成数据开发任务运维自劣分析数据管理统一资源管理与调度 Yarn离线计算Hive流式计算 Sloth内存计算 Spark分布式文件系统HDFS和Kudu分布式数据库 HBase全量/非实时接入Sqoop实时/增量接入NDC和DataStream结
2、构化数据 如RDBMS备库半结构化数据 如JSON非结构化数据 如音频文件大数据应用开发层数据加工数据计算资源管理数据集成数据存储数据源作业流开发权限管理多租户管理元数据管理数据质量校验 DQC秘钥管理Kerberos运维监控 Amber自研系统与开源组件的结合Sloth流计算服务化平台通过增量计算的方式,来完成流计算任务使用SQL作为开发方式,完全与离线SQL兼 容,支持window/join/subquery/having/retracting等复杂SQL功能流计算服务统一元数据服 务流计算服务一站式数据安全与权 限一站式的数据平台,数据地图基于ambari开发的一站式的统一部署,监 控,
3、运维体系一站式Hive,spark,impala,hbase元数据打通数仓体系内,用户无需在不同的系统一之间 做元数据同步不同组件组件之前,数据全增量同步统一元数据服务HDFS/Hive/Impala/Spar等组件自劢 权限 同步支持到列级别的权限控制,支持数据自劢加 密,即使被拖库,也不用担心敏感数据泄露数据安全与权限自研系统与开源组件结合kafla服务 化精细化的yarn调度器Spark高可 用多租户扩展 Ranger 统一授权Sloth流计算服务化平台Sloth 特点DDL UDFHaving Join SubquerySQL开发与离线SQL兼容执行引擎 扩展Flink增量计算模型Wh
4、ole Stage CodeGen与离线统一平台SQL解析 扩展CalciteSloth 增量计算考拉要对所有商家按销售额做分类统计,销售额在0,100区间内的归为一类,100,200区间的的归为一类,以此类推,通过计算输出每个区间内的商家个数。这个任务可以用SQL定义为:-stage1:计算每个商家的销售总额计算每个商家的销售总额INSERT INTO tmpSELECT seller_id,sum(payment)as total FROM source GROUP BY seller_id;-stage2:计算每个销售额区间内的商家个数计算每个销售额区间内的商家个数SELECT coun
5、t(seller_id)as num,total/100 as range FROM tmp GROUP BY(total/100);Sloth 增量计算输入数据离线计算流式计算增量计算Sloth 增量计算输入数据离线计算流式计算增量计算Sloth 增量计算输入数据离线计算流式计算增量计算Sloth 增量计算输入数据离线计算流式计算增量计算SlothPyhsicalPlan02数据开发平台猛犸数据开发平台可视化 数据集成元数据 和数据地图数据权限与安全猛犸数据集成猛犸元数据和血缘猛犸细粒度的权限控制猛犸总结覆盖全网易互联网业务场景十万级任务调度能力业务验证可视化模型开发和 调度灵活数据管理行业
6、标准经过多个不同领域业务的考验,行之有效完备的产品化机制完善的服务与培训机制业务验证灵活数据管理可视化数据集成元数据管理,数据地图,血缘分析细粒度权限控制灵活数据管理可视化数据集成元数据管理,数据地图,血缘分析细粒度权限控制支持常用的Hadoop组件,兼容行业标准降低学习门槛灵活部署,适合大、中、小各种规模业务 应用行业标准03敏捷数据分析平台敏捷可视化分析:常见流程数据明确问题探索与分析知识可视化感知初步分析图像新想法进一步分析假定数据可视化用户可视化循环模型(Wijk&D.Keim)敏捷可视化分析:解决方案需求易用性:简单易懂的交互操作,缩短数据建模,查询,可视 化的时间高性能:高速的数据提取能力连贯性:尽可能在一个场景下完成这些工作敏捷可视化分析工具网易有数网易有数目标保证分析的时效性让更多的人能够完成可视化分析04未来技术规划网易大数据平台未来规划Tensonrflow on Yarn得益开源 回馈开源全面Spark内存计算新硬件(GPU,FPGA)加速计算实时算法平台统一计算平台Flink为基础的实施计算体系Thanks!