金融大数据解决方案最新PPT课件.ppt_163文库

资源描述

1、金融大数据解决方案汇报 Content 1 大数据发展趋势 2 3 4 大数据平台关键技术大数据平台行业实践大数据平台案列详述未来银行：客户更加移动化、个性化、社交化，实时化未来银行：客户更加移动化、个性化、社交化，实时化随时随地获取服务分析、创造数据寻找有意义的体验审视细节固定时间地点获取服务互动参与内容、产品和体验的创建新客户新客户运营客户全渠道全渠道传统客户传统客户寻求更多资源被动接受数据信任市场信息被动接受传播关注场景关注场景标准化和产业化提供服务关注过程和步骤被动接受信息且信息来源单一通过客户经理联系客户固定渠道单一交互营销客户

2、效率效率个性化的个性化的灵活服务灵活服务传统银行传统银行新银行新银行服务客户第二数据平台成为驱动业务创新的新平台第二数据平台成为驱动业务创新的新平台 POS ATM 柜面电话银行网上银行第一数据平面：交易核心单次、事务性统一历史明细实时营销精准营销在线征信大数据业务：大数据业务：实时在线性业务持续性跨多元数据实时第二数据平面：大数据平台并发、查询/分析或有金融资产金融脉络关系互联网批量对大数据平台的要求：对大数据平台的要求： ?企业级质量标准：企业级质量标准：金融等保、可靠、易用；支持现有系统的对接。 ?开放性：开放性：多分析引擎统一

3、管理，满足多样化的数据分析场景 ?挖掘能力：挖掘能力：支持机器学习、深度学习等新的数据挖掘能力，实现更精准的洞见 3 数据：存量数据：存量 . 增量增量 . 行内行内 . 行外行外历史数据越来越多历史数据越来越多数据分析数据分析信用业务系统业务系统非结构化数据越来越多非结构化数据越来越多帐户社交日志影像帐户行外数据行外数据明细交易交易行内数据行内数据明细社交、网购数据社交、网购数据企业数据平面企业数据平面 “在大数据领域，不能充分形成大数据使用能力在大数据领域，不能充分形成大数据使用能力的竞争者将被淘汰的竞争者将被淘汰” -McKinsey Global

4、 Institute 混合型数据平台混合型数据平台-体系架构体系架构操作型数据区新核心系统数据交换区集成型数据区基础数据平台基础数据平台大数据平台大数据平台技术缓冲层贴源模型层基础模型层共性加工层分析型数据区监管报送平台传统平台传统平台应用集市层应用服务区应用服务器 W E 服务器老核心系统客户系统外围系统渠道系统外部系统数据采集和交换平台数据标准统一报表平台管理会计系统报表工具即席查询数据挖掘工具历史数据访问应用流动风险系统市场风险系统数据挖掘平台

5、实时事件处理平台历史数据区国家审计平台历史数据平台历史数据平台元数据数据质量数据管控 ETL调度数据交换混合型数据平台混合型数据平台-数据区域数据区域操作型数据区操作型数据区对应系统对应系统：客户管理系统、各类产品系统、帐务处理系统、各类渠道系统、管理流程系统。功能定位功能定位：主要承担面向客户的交易、帐务处理，面向内部的流程、事务管理等功能。数据特征数据特征：存储业务处理和流程管理过程中产生的客户、协议、账户、交易等原始数据，数据基本为当前状态，保存一定周期的交易流水数据。集成型数据区集成型数据区对应系统对应系统：基础数据平台、大数据平台和实时事件处理平台

6、。功能定位功能定位：实现全行关系型结构化数据、非结构化数据的处理，包括离线分析和实时事件数据的集中管理和加工，为业务运营和决策分析提供数据支持。数据特征数据特征： 1.利用大数据技术，实现ODS、EDW、汇总层数据统计等一系列的离线数据分析功能，而传统数据库则实现复杂的交于和事务处理逻辑。 2.大数据平台同时可以实现非结构化数据的集中管理，结构化及非结构化数据的初加工为主； 3.实时事件处理平台以实时事件数据的集中管理和加工为主。分析型数据区分析型数据区对应系统对应系统：统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位功能定位：主要获取数据集成平台提供的汇总

7、数据，按照应用主题进行数据的高粒度汇总加工、图形化分析和展现。数据特征数据特征：存储汇总、聚合类数据，主要以星型结构、宽表等形式存储，存储周期较长。历史数据区历史数据区对应系统对应系统：主要是历史数据平台。功能定位功能定位：根据数据生命周期管理，承担对操作型系统、分析型系统的历史数据，以及数据集成平台部分历史数据的在线归档保存，为客户交易明细历史查询、公检法查询等应用提供支持。数据特征数据特征：状态类数据采用全表历叱拉链存储，交易类数据保留长期历史。数据处理技术分布式演进趋势：数据处理技术分布式演进趋势：Hadoop成为开放的事实标准成为开放的事实标准 SMP SMP+M

8、PP混合混合 MPP Hadoop 特点：单机、特点：单机、 Scale up ?性能存在瓶颈 ?扩展性差特点：特点：Share Everything ?结构化、关系型 ?Flash Cache+分布式块存储+IB 特点：特点：Share Nothing ?结构化、关系型 ?通用的硬件特点：特点：Share Nothing ?开放,、全球生态 ?结构化、半结构化、非结构化 ?高性能、实时内存计算兴起，内存计算兴起，Hadoop生态系统持续壮大生态系统持续壮大 Hadoop生态系统持续扩大生态系统持续扩大实时化：内存计算兴起实时化：内存计算兴起 Integration Batch Pro

9、cessing Interactive Analytics Search Machine Learning Sqoop 融入融入 Flume Pig Hive Complex Event Process 3rd Party or customized wordload Impala Solr MLLIB MapReduce YARN/Zookeeper HDFS Spark Storm ?AMPlab开发的Spark，提供迭代式内存计算模型，非常适合用于数据挖掘算法的并行化 ?预计Spark将成为编写和分享数据挖掘算法的标准平HBase 台 ?Spark目前已经成为 Apache顶级项目 H

10、adoop Hadoop 2.0发布支持多种计算模型调度的Yarn，实现多种计算模型在同一个集群中并存，将帮助 Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建，不断吸收更多组建集成到 Hadoop。混合负载的统一计算平台，满足数据多样化 Content 1 大数据发展趋势大数据平台关键技术大数据平台行业实践大数据平台案列详述 2 3 4 大数据：提供大数据存储、处理、分析和服务平台大数据：提供大数据存储、处理、分析和服务平台行业应用电信电信银行银行详单查询、经分分析、精准营销全生命周期分析、历史明细、精准营销、在线征信与风控等

11、政府政府交通、公安情报分析、人口管理数据洞察/数据服务特征/模型/挖掘/可视/服务数据集成数据集成平台平台数据处理平台数据处理平台海量数据存储，批处理，流处理、交互式分析收集清洗转换 Manager 统一管理大数据基础设施分布式存储通用X86服务器大数据软件平台大数据软件平台FusionInsight 应用服务层 OpenAPI/SDK REST/SNMP/Syslog DataFarm Data Porter Information Miner Knowledge Farmer wisdom Manager 系统管理元数据管理 Hadoop API Plugi

12、n API Hadoop HIVE/Impala/Elk M/R Spark Storm Solr Yarn/ Zookeeper HDFS/HBase MPP DB 安全管理 ? FusionInsight的Hadoop层提供大数据处理环境，基于社区开源软件增强基于社区开源软件增强，按照场景选择业界最佳实践 ? FusionInsight的DataFarm层提供支撑端到端数据洞察提供支撑端到端数据洞察，构建数据到信息到知识到智慧的数据供应链，其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer ? FusionInsight Manager是一个分

13、布式系统管理框架，管理员可以从单一接入点操控分布式集群管理员可以从单一接入点操控分布式集群，包括系统管理（OM/NTP/灾备）、数据安全管理和数据治理 FusionInsight Porter：大数据全能搬运工：大数据全能搬运工 Porter RM DB FTP/SFTP/NFS SFTP Server Porte r 目标系统 HDFS /Hive HBase FTP Server Hadoop ?HDFS ?HBase 数据文件服文件服务器务器 JDBC DB 数据 MR/spark/Hive 任务提交 Other Data Source RDMS Porter用来简化大数据的数据

14、集成 ?除了开源的Sqoop2支持的DB和HDFS外, porter还支持从SFTP, FTP和NAS进行数据导入和导出 ?除了Sqoop2支持的HDFS外, porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制 ?Sql请求和响应可以通过SFTP和FTP提交, 实现和现有系统的无缝集成 ?轻量汇总的Sql和结果可以通过 SFTP和FTP提交, 并且能够自动调度按天/按月调度。 FusionInsight Miner：基于分布式内存计算的数据分析平台：基于分布式内存计算的数据分析平台典型数据分析流程模模型型应应用用模型模模型型评评估估模型模模

15、型型构构建建应应用用效效果果评评估估 FusionInsight Miner 行业应用使能器（行业应用使能器（Enabler）通用使能套件金融行业模型电信行业模型（标签管理、推使能套件使能套件荐引擎）特特征征提提取取数数据据预预处处理理模型评估好应用效果好数据探索数据探索特征工程特征工程建模分析建模分析可视化可视化数数据据理理解解并行化机器学习算法库并行化机器学习算法库(Mahout/MLlib/HiGraph) 业业务务理理解解数据处理平台数据处理平台 14000 Dimensions 结束开

16、始 2000 Conversion 1500 主要特点：主要特点： ?端到端分析平台：端到端分析平台：一站式平台支撑数据分析全流程 ?特征工程特征工程/社交化：社交化：特征复用；支持 1,000万维度 ?建模算法：建模算法：自研自研HiGraph 算法, 比MLlib快35倍 ?开放性：开放性：对Operator 的扩展性；与R无缝对接；与SAS、SPSS等对接； ?业务驱动：业务驱动：基于业务问题驱动的闭环解决方案，比如推荐引擎使能套件 40 x 专家系统学习系统 1000 500 0 Top1000 Top10000Top60000 FusionInsight Farmer：大数据应用

17、使能器：大数据应用使能器大数据实时应用使能器，支撑企业快速开发基于大数据平台的应用。客户开发的应用 Farmer SDK REST MQ Register Access Load Balance & MQ REST:REQ/RESP BLU1 Farmer SDK 1、分布式大数据服务框架和标准服务（如推荐） ?二次开发SDK，透明化访问 Hadoop，聚焦业务逻辑 ?高可靠的分布式处理框架，去中心化的负载均衡能力，和服 BLU2 BLU3 Redis Manager 务实例的弹性伸缩能力 ?基于Activiti的服务编排 ?支持应用的灰度发布 Hadoop API ?隔离的轻量级应用容

18、器 Deploy on Container Deploy on Server or VM PaaS Hadoop 2、多协议接入和缓冲简化应用集成 ?高性能的多协议接入部件，通过ALB隐藏内部拓扑细节 ?高性能、高可靠消息队列部件 ?热点数据redis加速为行业业务负载优化的统一大数据处理平台为行业业务负载优化的统一大数据处理平台开源轻度增强开源孵化特性开源深度增强自研 IDE DSL Integration Batch Processing Hive Pig Interactive Query Elk Impala Search Machine Learning HiGrap

19、h Streaming Calculation Event Stream Process Online Query Loader Flume CTBase Spark Streaming Solr MLLIB CQL Phoenix 分布式计算框架 MapReduce/Tez YARN/Zookeeper Spark Storm 分布式存储 HDFS/HBase MPP DB 基础设施 Standard Server IMC Server Storage Server Network Pluggable Accelerator ? FusionInsight用100开源的核心支持混合负载，从批

20、量、交互查询、数据挖掘，到实时流和查询等各种场景 ?开放式存储格式（Rcfile/ORCfile/Parquet），以避免锁定私有文件格式 ?所有的组件都通过Manager提供的插件框架来按需安装 SQL能力支持（能力支持（SQL-on-Hadoop）架架构构模模型型模式模式定义定义主要应用场景主要应用场景产品产品类作业时间秒级左 MPP 架构交互查询右，并且返回结果集很小，一般在万条记录以内作业时间超过分钟级别，中间结批处理果或最终结果集每一种SQL on Hadoop 产品都在尽量满足某一类应用的特征，典型需比较大类求： MR 作业时间超过分架

21、构 ?interactive query （ms3min）钟级别，数据计 ?data analyst，reporting query （3min20min）数据挖掘算量比较大，内 ?data mining，modeling and large ETL （20 min hr day）存消耗比较多的场景作业时间小于秒在线查询级有查询要求的场景，响应几乎是实时的小数据的查询场景，如报表展示、数据钻取等 Phoenix(HBase), Elk、Impala、 MPPDB(OLAP) 对作业时间要求不敏感场景，主要以后台长时间作业为主，如 Hive、Spark 系统每天、每

22、周、每 SQL 月定时处理汇总的业务作业对内存和CPU要求比较高的场景,如迭代计算的场景，主要 Spark SQL 应用于数据挖掘、科学计算等场景基于应用场景选择最适合的流处理技术基于应用场景选择最适合的流处理技术 Batch Mini -Batch Streaming Kevent/s Storm Spark Streaming 1460 500 Spark-Streaming ?Storm 1 node，Mini-batch is set to 5s Spark Streaming：微批流式计算：微批流式计算适用于在Spark集群上同时提供更低时延要求的微批流处理处理，如KP

23、I统计等 Storm：事件驱动模式的实时计算：事件驱动模式的实时计算适用于更低时延要求（毫秒级），高并发的实时事件处理场景可靠、安全、易用、高效可靠、安全、易用、高效 -所有业务和管理节点HA -跨数据中心容灾、备份 -第三方备份系统集成 -在线更换硬盘 -HBase容灾业界最早推出 -代码基线是Apache 开源可靠安全安全 -经过系统STRIDE 分析加固 -完善RBAC 和多租户体系 -与现存AAA系统标准协议对接 -全方位数据审计功能 -STRIDE+ 电信系统安全红线 -易安装，集成NTP等 -易运维，增加图形化运维 -易开发，标准接口+实用案例 -易定位，日志收集搜索 -H

24、Base 可视化建模 -平台核心代码性能优化 -高性能分析挖掘算法（ Miner）易用高效高效 -存储效能提升（ EC，ARM） -高性能网络优化（ RDMA） -新型存储优化（大型SSD）高效高效-SparkSQL：平易近人，快速上手：平易近人，快速上手 ?SQL parserSQL parser ：实现插件式的：实现插件式的 SQL ParserSQL Parser ，基于插件接口实现，基于插件接口实现 SQL99SQL99语法解析。语法解析。 ?Logical PlanLogical Plan：新增：新增SQL99LogicalPlansSQL99LogicalPlans，支持，支

25、持SQL99SQL99逻辑计划。逻辑计划。 ?元数据管理：使用元数据管理：使用 Hive metastoreHive metastore 进行元数据管理，与社区演讲发现对齐。进行元数据管理，与社区演讲发现对齐。 ?性能提升：原则上重用社区的优化器，必要时增加性能提升：原则上重用社区的优化器，必要时增加SQL99OptimizerRulesSQL99OptimizerRules，新增，新增 and/orand/or 优化，优化，inner joininner join优化，优化，hive indexhive index 优化优化 ?应用场景价值：SQL是一个常用的分析语言，客户接受度较高，各

26、种业务场景对SQL诉求也较明确。语法增强 H Q L ?解决方案 R el a t i o n E xe c u t o in O p e r a t o r s ?方案： S Q L Pa r se r U n re s o v le d Lo g i ca l Pa ln L og i c al Pa ln O p t mi z ie d L o g ic a l P a ln P h y sica l P a ln s 基于插件式方案构建基于Spark SQL 框架的差异化语法解析器和性能优化器 Na t v ie R D D s S Q L S c h e m a Ca t

27、alog ?用户价值 ?实现标准SQL的TPC-DS用例99个全部通过。满足客户常用的标准SQL诉求。高效高效-Spark Carbon ：提升查询效率：提升查询效率 Spark OLAP Planner Spark Core Spark Core Spark Core 特点： ?分布式，多维索引，物化视图，分布式入库，Schema固定存储： RDD Partition RDD Partition DataSource API Cube Engine RDD Partition ?CubeFile，一种按多维Key排序的文件格式 ?HDFS + Shortcut Cube Process

28、or Cube Processor Cube Processor 计算： ?基于Catalyst框架新增OLAP Planner，对Cube支持过滤下压、计算下压等优化 ?Cube Processor: Cube数据读取，跳转，聚合计算语言： ?使用SparkSQL DML ?DDL：新增CREATE CUBE, LOAD INTO CUBE Distributed Data Store (HDFS) Cube File Cube File Cube File Spark Application (Cube Load) Encoding Encoding Encoding 23 Elk:

29、交互式交互式SQL on Hadoop 全面超越Impala，大部份指标是impala两倍 BI PL/SQL jdbc/odbc/ Web SQL99 ETL Data Explorer HQL 700 600 SQL2003 500 400 Elk Sql Parser Sql Eexcute HDFS HBase Impala ELk Hive Metadata 300 200 100 0 1 2 3 4 5 6 7 8 9 10111213141516171819202122 Elk与Impala性能对比，TPC-H（单位：秒/查询N） ?采用通用的SQL标准接口，全面兼容传统的数据库

30、SQL和Hadoop的HQL ?全面支持传统应用的接口JDBC、ODBC，并提供丰富的扩展接口如PL/C， PL/Jaca，PL/Python ?交互式查询性能达到或超越Impala ?灵活的存储格式HDFS(ORC、Parquet)，HBase（KV）测试环境: 4 节点: 2 *8 core CPUs, 96GB RAM, 6 7200rps SATA 盘, 10GE网卡, HDFS 3副本. 智慧智慧 HiGraph,高性能优质算法库高性能优质算法库 Mahout：基于MR Cloudera Hortonworks 的并行算法库性能提升性能提升2-32-3倍倍 MLlib：基于Spa

31、rk的并行算法库 HUAWEI HiGraph：超过60种算法,半数由研发及优化 HiGraph 线性加速线性加速 Huawei FusionInsight 优质算法优质算法网络平面隔离网络平面隔离集群业务平面 APP-Server APP-Server OMS-Server ?Hadoop是全分布式计算系统，要求业务节点之间全互联。为应对由此带来的可靠性、安全性风险， FusionInsight支持将网络划分为三级：集群业务平面、集群管理平面和集群外维护网络，彼此之间实施物理隔离。 ?实施网络隔离，可以避免业务平面的高负载阻塞集群管理通道，也可以阻止外部攻击者通过管理通道入

32、侵实际业务数据。网络类别网络类别集群业务平面集群管理平面信任程度信任程度高中低说明说明 Hadoop集群核心部件，业务数据在其中存储、流转。仅具备集群管理功能，不接触实际的业务数据。仅能访问OMS Server提供的Web服务，除非连续攻破 OMS Server 和 APP Server，否则无法访问业务数据。集群管理平面 WebUI-Client 集群外维护网络集群外维护网络电信级可靠性电信级可靠性业务可靠性：业务可靠性： 1 1 1 1 系统无单点：系统无单点： OMS，HDFS，HBASE，YARN， HIVE，OOZIE，HUE，ZO

33、OKEEPER， BOOKEEPER 采用主备，负荷分担方式实现服务无单点故障数据可靠性：数据可靠性： 1 3 2 1 1 3 管理节点管理节点 HAHA：OMS节点及所有业务组件中心管理节点实现 HA 1 4 5 跨数据中心数据备份：跨数据中心数据备份：HBase集群通过 HLOG准实时复制， HDFS/Hive 集群通过 BackupAdmin 异步复制实现跨数据中心灾备硬盘热插拔硬盘热插拔: :支持在线集群硬盘更换不影响业务. OSOS层可靠性加固层可靠性加固: : RAID/OS 写缓存保护实现掉电数据保护 RaidRaid 策略策略: : OS，OMS，NameNode，

34、ZK 及 HDFS数据节点采用不同硬盘分区及Raid策略，兼顾性能情况下保证数据可靠性第三方备份系统集成第三方备份系统集成: :数据可以灵活的备份在外部系统如 NAS、磁带库，只是和NBU等备份软件集成 2 4 3 6 6 5 7 8 6 7 8 数据备份与集群容灾数据备份与集群容灾本地备份本地备份支持库级别本地备份、批量导出和数据恢复，支持全量、增量两种模式。用于集群故障、人为误操作导致的数据丢失数据恢复 HBase 批量导出 Hadoop cluster 本地备份 RS HM HM RS HLog Sync HBase HM HM 异地灾备异地灾备表级别集群在线备份，

35、用于在线业务故障灾备 LdapServer Authentication Data Sync LdapServer RS RS RS NAS RS RS HDFS HDFS 敏感数据加密存储敏感数据加密存储 Hive/HBase 敏感数据写入敏感数据读取非敏感数据 Hive 加密/解密 HBase 非敏感数据 HDFS *(&#$%!%$#$!(*&*5!$! %$!$!%#$%#!$#! ?技术特点 ?保密性高保密性高：采用业界流行的算法加密。除业务接口外，其他手段读取文件均为乱码（如通过shell、或HDFS接口查看）。灵活灵活：加密算法插件化，支持 AES、SMS4 等

36、，允许用户自定义。非敏感数据可不加密，不影响性能（加密约有5%性能开销）。业务透明业务透明：上层业务只需指定敏感数据（Hive表级/列、HBase表/列族/列级加密），加解密过程业务完全不感知。 Content 1 大数据发展趋势大数据平台关键技术 2 3 4 大数据平台行业实践大数据平台案列详述大数据应用场景大数据应用场景业务价值营销支持营销支持灵活深专业化入的客的营销户细分与销售整体解决方案与个性化服务定制安全可靠的渠道风险控制产品运营产品运营风险集成的业高效的运营效务运营率风险管控风险管控实时的风险决策内部管理内部管理优

37、化管理流程，提升运作效率降低管理成本应用场景事事件件营营销销客客户户画画像像舆舆情情分分析析获获客客客客户户挽挽留留交交叉叉销销售售个个性性化化理理财财小小微微贷贷智智能能客客服服账账务务追追溯溯网网站站分分析析知知识识管管理理产产品品绩绩效效评评价价实实时时风风控控实实时时征征信信反反欺欺诈诈客客户户风风险险报报告告运运维维日日志志分分析析信信息息安安全全分分析析员员工工挽挽留留客户标签客户标签商机挖掘信息商

38、机挖掘信息客户贡献度客户贡献度产品运营产品运营KPI 黑名单黑名单品牌美誉度品牌美誉度知识图谱知识图谱用户位置用户位置第三方资信第三方资信用户消费倾向用户消费倾向数据对公客户细分对公客户细分零售客户评分零售客户评分客户风险测评客户风险测评账户账户/流水流水/产品产品/组件日志组件日志行内业务数据行内业务数据运维日志运维日志/对内服务系统数据对内服务系统数据行内非业务数据行内非业务数据移动应用移动应用/微信微信/呼叫中心呼叫中心/微博微博新型数据新型数据互联网互联网/电信电信/医疗医疗/交通交通/咨询报告咨询报告第三方数据第三方数据大数据平台参考架构大数

39、据平台参考架构商业智能（BI）报表多维分析引擎数据可视数据探察数据多维展示实时查询数据服务批量查询分布式缓存访问框架平台管理元数据管理作业调度数据安全管理数据集市交互式探索应用计算数据聚集实时计算多维关联结构化数据挖掘分类预测聚类关联半/非结构数据挖掘文本分析互联网分析分词搜索语义 NLP 社交网络推荐引擎多媒体分影像析分析音频分析视频分析流式数据处理 RTD ESP/CE P 流处理数据存储应用数据区公共访问区基础数据区实时查询区数据转换数据采集结构化数据客户数据结构化转换统计/关联过

40、滤/匹配非结构转换 XML/JSON 文本多媒体转换视频摘要语音转文本非结构数据日志呼叫中心语音网站点击流第三方数据微信微博流式数据刷卡事件账务数据大数据平台总体框架大数据平台总体框架-技术视角技术视角商业智能（BI）报表多维分析引擎 Cognos 数据T探3.js a察bleau 数据多维展示数据可D视数据服务实时查询平台管理访问框架元数据管理批量查询分布式缓存数据集市多维关联交 S Q L互o式n 探索分布式 GP Hadoop I应M用DB计算数据聚集实时计算结构化数据挖掘分类SAS 聚类预测半/非结构数据挖掘文本分析

41、分词互联网分多媒体分析Solr 搜索影像析分析推荐引擎流式数据处理 RTD 作业调度数据安全管理 Minerh o义ut/MLLib/HiGraph频）音分析社交网络关联（Ma语 NLP HIVE/Impala M/R Yarn Spark 公共访问区基础HDF数S据区实时查询H区视频分析 CEP 数据存储应用数据区 Storm BASE 流处理结构化转换数据 HIVE/Impal联a 过滤/匹配统计/关转换非结构转换多媒体转换 /SRXMML/J ON 文本 Spar语k音转文本视频摘要流式数据数据采集结构化数据客数据 F户TP账务数据Sqo

42、 op 非结构数据日志 F呼叫中心语音 lume网站FT点P击流第三方数据微信Crawler 微博 MQ刷卡事件 kafka Content 1 大数据发展趋势大数据平台关键技术大数据平台行业实践大数据平台案列详述 2 3 4 Content 4 大数据平台案列详述 TDTD数仓卸载数仓卸载 HDSHDS 运维日志实时分析运维日志实时分析影像存储影像存储智能运维业务智能运维业务现有数据仓库应用负载卸载现有数据仓库应用负载卸载-现状和挑战现状和挑战下游应用下游应用 CRM 信用评级绩效考核精准营销管理报表现状现状 ?一般采用贴源层+基础层+应用层三层数据数据仓库数据

43、仓库应用层一体机基础层贴源层架构 ?数据贴源层存放贴源数据 ?数据贴源层数据除了用来加工为基础层数据外，一般很少被下游应用直接用到，可视为冷数据 ?数据贴源层占据EDW宝贵存储资源 ?贴源跑批占据大量EDW系统资源挑战挑战 ETL平台平台 FTP 卸载加载作业管理数据转数换据转换 ?伴随业务的增长，数据增长快，扩容压力大 ?通常采用国外厂商一体机，存储成本高，扩数据源数据源核心信贷中间业务信用卡网银成本大 ?跑批占用数据仓库时间窗口越来越长，可使用时间窗口越来越少，给数据仓库的使用带来巨大压力容现有数据仓库应用负载卸载现有数据仓库应用负载卸载联合创新方

44、案联合创新方案卸载平台要求卸载平台要求下游应用下游应用 CRM 信用评级绩效考核精准营销管理报表 ?卸载平台能够满足一定的处理时间窗口要求 ?卸载平台具有较低的每 TB数据成本 ?卸载平台具备非常好的水平扩展能力 ?卸载平台支持通用X86服务器 ?卸载平台能够提供较好的企业级特性（可靠性数据仓库数据仓库应用层基础层贴源层体机 FTP 卸载平台卸载平台基础层、易管理性、易用性），满足一定的性能SLA X86 服务器联合创新方案联合创新方案 ?与金融机构一起联合创新，将数据仓库系统中贴源层 ETL ETL 的贴源批处理过程迁移至基于通用X86服务器的使用大数据技术

45、的 Hadoop或MPPDB 平台注：方案过程见动画客户价值客户价值数据源数据源核心信贷中间业务信用卡网银 ?开放，不被单一供应商锁定；提高数仓体系拓展能力、降低拓展成本降低数据存储成本减少数仓跑批时间窗口，提高数仓使用效率 Content 4 大数据平台案列详述 TDTD数仓卸载数仓卸载 HDSHDS 运维日志实时分析运维日志实时分析影像存储影像存储智能运维业务智能运维业务历史数据应用四种模式历史数据应用四种模式应用模式应用模式数据归档用户群体用户群体行内用户应用场景应用场景组件内生产数据清理后，在历史数据区进行归档保存历史数据在线快速查询；查询条件

46、比较精确；响应时间比较紧迫；在线查询在线同步（访问数据库）（响应时间：60（秒）在线异步（访问文件）（响应时间：300 （秒）访问频率：=50次/天）行内用户行外用户查询条件比较精确；响应时间不是非常紧迫；访问频率比较高；查询条件比较宽泛；响应时间不是非常紧迫；访问频率比较低月末/季末的银监会、外管局、审计署的外部监管数据需求；数据需求比较确定、供数操作频率比较固定、供数格式比较固定数据需求不确定、供数操作频率不固定、数据结果集不确定。批量供数零星供数外部监管（部分包括行内用户）行内用户 HDS区整体视图区整体视图数据源源数据区主档全量

47、主档增量明细增量主档全量 HDS区归档集群接入数据区主档增量明细增量组合计算区批量供应数据区多表关联 Hbase装载表截面文件加工数据文件归档数据区(Hive) x系统.x表归档数据 x系统.x表归档数据应用加工计算区(Hive) HQL数据加工 MR数据加工归档数据源源数据区主档全量主档增量明细增量主档全量 HDS区归档集群接入数据区主档增量明细增量应用计算区批量供应数据区表截面文件加工数据文件指标计算区归档数据区(Hive) x系统.x表归档数据 x系统.x表归档数据应用加工计算区(Hive) HQL数据加工 MR数据加工批量供数

48、数据源源数据区主档全量主档增量明细增量主档全量 HDS区归档集群接入数据区主档增量明细增量 HDS区查询集群在线同步查询区在线数据 (HBASE) 查询服务区统一在线查询在线同步查询服务在线异步查询服务组合计算区多表关联 Hbase装载归档数据区(Hive) 应用加工计算区(Hive) HQL数据加工 MR数据加工在线查询 x系统.x表归档数据 x系统.x表归档数据关键技术：关键技术：HBase二级索引二级索引+Phoenix+Spark UserTableUserTable ColumnFamily RowKey colA colB colC a00

49、001 * a00002 * a00003 * a00004 * a00005 * a00006 * 数据扫描区域特性描述 HBase二级索引特性支持在非 RowKey列上建立索引，大幅提高检索速度。使用Phoenix为HBase提供基础SQL能力，在使用 HBase高速查询能力的同时，降低系统的学习使用成本。构建统一的混合结构数据存储平台，通过Spark支持全量业务数据+ 外部数据的挖掘分析。目标行无索引：无索引： “Scan + Filter”，扫描大量数据，扫描大量数据特性价值高性能、高并发：HBase规模可达到数十亿行以及数百万列，同时读、写访问可以达

50、到实时级别。提供SQL支持：降低学习成本和系统改造成本。 UserTable_idxUserTable_idx RowKeyRowKey a00001coluA*a00001 a00001coluA*a00002 a00001coluA*a00003 a00001coluAxxxxxxxxxxa00004 a00001coluA*a00005 a00001coluA*a00006 CF UserTableUserTable ColumnFamily RowKey colA colB colC a00001 * a00002 * a00003 * a00004 * a00005 * 4 4 a

展开阅读全文