1、实时工业大数据平台设计技术创新,变革未来I have a dream!有梦想固然是好的,但是任何不以落地为目的的梦想都是空想。在明确实际的立足点之后,围绕着目标就要分清Want与Need了。Want是梦想,而Need是需求,是可以落地可以成为目标的实体。大数据的挑大数据的挑战战.立足于制造行业来看,直接影 响到大数据成功与否的因素大 致如左图所示。数据集成,也可以说是多方数 据平台化的汇总吧。对于制造行业的数据质量往往是不能得到足够保证的。大数据的挑大数据的挑战战.看到的现象表面原因表面原因过渡原因过渡原因根本原因根本原因大数据平台待建数据库计算能力不足数据量大个性化平台业务数据孤岛实时海量存
2、储计算人力不足成本过高技术沉淀不足如何解如何解决决.4数据湖的概念数据湖的概念多元化数据源接入多元化数据源接入 多元化数据格式 低成本存储简单模型弹性扩展引流出多元化功能性支流引流出多元化功能性支流 可便捷构建数据仓库 数据分析与科学计算松耦合全量数据松耦合全量数据更易于发掘数据本身的潜在价值精细化规范体系建设精细化规范体系建设避免数据湖沦为数据沼泽什么是数据湖(什么是数据湖(Data Lake)数据湖并不是一个纯技术概念,而是 数据管理的一种方法论。数据湖实际上是一种利用低成本技术 来捕捉捕捉,提炼提炼,储存储存和探探索索大规模的 长期的原始数据的方法与技术实现。数据湖特征数据湖特征数据存储
3、:大容量低成本;数据保真度:数据湖以原始的格式保 存数据,具有高保真度;数据使用:数据湖中的数据可以方便的被使用,进而引流到外围应用;延迟绑定:不需要提前定义数据模型。数据湖的发展阶段数据湖的发展阶段3蛮荒期蛮荒期6企业各类数据分析通过 传统数据仓库来实现1萌芽期萌芽期2企业引入了大数据平台企业的应用数据和大数 据平台有交互新的系统直接支持大数据平台大数据平台成为缺省配置数据仓库只在特定场景下使用外部的数据也引入数据湖泊中成长期成长期成熟期成熟期4数据湖和应用组件完善大数据平台大量采用加强其可靠性和安全性对外提供丰富的应用接口做到多租户的云服务1423数据库数据实时接入 异构数据库数据融合 每
4、秒百万级数据接入数据备份及容灾功能 数据快照及数据回溯 百亿级数据亚秒级查询单位格级别统一权限管理 金融级自动化数据加密 敏感数据脱敏海量数据机器学习及数据挖掘系统 海量小文件存储及检索无间断动态扩容5高压缩比文件储存标准SQL接口,灵活扩展湖平台7集团集团数据湖产品数据湖产品数据数据湖湖建设目的建设目的集团数据平台在统一规统一规划划和运和运营营的基的基础础上上,可根据用户的能力和需求,提供灵灵活活、多、多样样、敏、敏捷捷的服的服务务, 协助企业建立自身大数据应用能力。目前,集团数据平台技术已经逐步产品化,并计划向合资企业和外 部企业输出。同时,在数据应用项目的过程中平台将积累共性需求,形成数
5、据产品、算法服务。 数据湖产品数据湖产品数数 据据 产产 品品/ 算算 法法 服服 务务数据湖产品框架数据湖产品框架9采用开源软件架开源软件架构构,构建的实时大实时大数数据集据集成成平台平台。降低企业使用大数据技术的成本,为数据分析师、业务分析师 们提供更高效易用的工具,加速数据应用的建设和推广,并提供全字段金融等级3DES加密,自动无感知的密钥更 新,防止密钥泄露。单元格级别权限控制和数据脱敏访问。为为集集团大团大数数据平据平台台一体一体化化打下打下基基础。础。数据湖产品框架数据湖产品框架整个数据湖体系分为三个部分:多源数据接入、中心湖群、外围流域。多源数据接入:可分为结构化数据(需保证强一
6、致性的数据库数据)、半/非结构化数据(不需要保证一 致性的日志、音频数据)。中心湖区:由核心业务对应的中心湖区和其他功能湖组成。集团湖与企业湖之间通过统一的数据交换层实现数据交换。中心湖的数据受到严格监管,包括:数据资产管理、数据审计等。外围流域:从中心湖区通过统一的数据交换层,将数据引流到多元化的数据载体中,提供各类型的数据分 析与科学计算应用服务。数据湖物理架构数据湖物理架构11结构化数据结构化数据湖湖概览图概览图分布式涓流传输集群,完美融合存量数据高速并发导入与增量数据导入。任务总线控制涓流数据加密后入库到HBase数据库分片数据存储,同时记录metastore。基于Hive和Spark
7、 的定制版Handle提供HiveSQL和SparkSQL接口,同时完成数据出库的解密。在定制化工作台内,植入汽车行业相关业务的智能算法库,实现拖曳式智能算法应用。新增文件湖和日志湖 的架构,以支持车联网数据的承接与应用。日志湖与文件湖概览图日志湖与文件湖概览图日志湖区和文件湖区往往数据量非常大,且价值密度较低。对于这类数据不要求强一致性,故而可不进行数 据审计和定期数据一致性校验。日志湖和文件湖多以半/非结构化数据为主,需要进行关联分析的进行模型转换,并将其导入到集团湖的HDFS或HBASE中。TBOX数据和用户网页行为分析的数据,数据产生并发度高,数据流量大,需要用Kafka集群进行数据承
8、接, 承接过程中需要进行一定比例的数据压缩,之后直接存储到HDFS中,通过HIVE外部表的形式进行访问,以降 低集群负载。对于文件中心的音频文件,推荐进行语音识别,将其转换为文本之后,再行入库。13BigData on Docker14性能测试性能测试涓流复制传输平均速度:3万行/min。数据湖在查询性能上,约为Hive(Parquet)的1020倍,且与Spark(Parquet)相差无几。如下图所示,完成数据湖主页面装载;成功接入Oracle、MySQL、SQL Server三个数据库的实时。数据湖平数据湖平台台UI 看板看板16数据安全管理页面,可以完成加密方式、脱敏控制、列访问权限、行查询权限的设置。以表INVOICE_DOC为例,针对INV_TYPE列,组合四种安全选项的设置,达到单元格级别的加密和权 限控制。数据湖平数据湖平台台UI 安全管理安全管理17生产环境用户遍布生产环境用户遍布集团集团1821