1、大数据技术大数据技术应用实施方案建议应用实施方案建议信息技术管理部2013年6月1目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 我行大数据技术的应用策略2新一代管理分析类应用需求3运营与信息安全运行日志存储与分析安全日志存储与分析营销支持加强客户洞察分析,实现灵活深入的客户细分;科学的客户行为及渠道经营分析报告与决策全面的计划预算管理 价值导向的管理会计;流程化的财务会计体系 集成高效的财务运作 及时、准确的财务报告风险管理 满足新协议合规和内部管理需要的全面风险管理体系市场风险、信用风险、操作风险等全面的风险计量;风险建模监管合规支持全面整合的反洗钱和欺诈风险管理;监
2、管合规长时间保存数据需求;审计供数;非结构化数据保存数据管控支持数据完整、全面(广度、深度);数据可信;数据易用;数据生命周期管理应用需求新一代管理分析类应用对于大数据处理分析技术提出了高要求新一代数据集成平台数据特点与挑战4Volume数量大 数据内容丰富(账户信息、账户明细、流水信息等)数据存储周期长(监管要求保存20年)PB级的海量数据Variety种类多 数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等Velocity速度快 近实时数据处理(即席数据分析)实时访问(如历史数据查询)流式数据计算(如反欺诈)大数据时代,技术面临着Volume、Var
3、iety、Velocity 3V的挑战目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略5大数据技术一览图6大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。重点调研的相关大数据存储技术产品调研基于商用硬件的分布式数据库技术HADOOP技术对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于X86的MPP技术为代表,后者以HADOOP技术为代表大数据技术特性研究结论8分析维度X86 MPPHADOOP数据特性仅支持结构化数据支
4、持非结构化、半结构化、结构化数据扩展性可扩展至数百节点可扩展至数千个节点数据可靠性每份数据只有一个备份每份数据可有多个备份产品成熟度介于传统关系型数据库与HADOOP之间新技术,产品与技术均不成熟易开发性相对容易与传统数据库差异较大,开发复杂运维管理缺少统一的运维管理工具复杂,缺少统一的运维管理工具人员技能要求一般,仅需熟悉传统关系型数据库高,需要对产品、技术及程序设计有深入理解基于X86的MPP技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点目录 我行
5、新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略9美国银行大数据技术应用情况10技术类型产品系统/机柜数集群容量(PB)数据量(PB)应用领域使用案例专有一体机Teradata2453.1数据仓库企业/集中式数据仓库Netezza80+2.81.1数据集市OLAPExadata10+10.08数据集市(OLAP 和 OLTP混合)全球人力资源部、CRC(客户报告中心:22TB)、AMT基于商用硬件的分布式数据库Vertica20.570.34数据集市OLAPHadoop技术Cloudera Hadoop若干1.61.6ETL集团D
6、W、电子商务、信用风险数据暂存与归档银行卡系统过期数据归档;集团数据仓库数据归档信息安全数据库、防火墙、应用程序等日志存储与分析风险分析定量风险技术(最大的Hadoop应用集群,173台机器,1.6PB未压缩数据)、欺诈检测沙箱分析美国银行在数据集市领域大量使用X86 MPP技术,HADOOP主要用于ETL、数据归档、日志分析及风险分析等应用美国银行未来大数据技术应用11产品美国银行的最佳定位战略性产品IBM Netezza 纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比 Exadata 或 Teradata 更容易进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型
7、部门的数据仓库。是Oracle Exadata 适用于 I/O 要求极为严苛并需要 20 TB 以上的交易/分析混合工作量。能够处理同一系统中的多种工作量。也可视为适用于 20 TB 以上的分析数据库(目前运行的是标准 Oracle 数据库),因为它比 Netezza 更容易移植是Vertica(HP)作为一种新兴的主要候选方案,可替代 Netezza 和 Exadata,为大型数据市场或部门数据仓库(20 TB 以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的 PB 级别,扩展架构。在美国银行进行了两项重大且成功的实施。是Sybase IQ(SAP)列存储的首个商业实
8、施。稳定、成熟的产品。许可交易使部署不受任何限制。通过标准的 x86 服务器和 SAN 运行。以前不属于扩展解决方案,且在这方面仍未经过验证。计划作为 5-20 TB 数据市场的首选商品方案。是Teradata行业标准,适用于大型、要求高和复杂的企业数据仓库,此类数据仓库需要复杂的工作量管理和其他高级功能。高度专有化、昂贵且不易获得支持。美国银行的使用应仅限于 W 数据仓库,以及可能需要与 W 进行极高水平集成的某些数据市场。是SAP HANA 最佳用途是为运行 SAP 软件的应用程序实现加速。对于一般的非 SAP 工作量,不必采用此解决方案。亦没有证据证明,HANA 在 SAP 前端之外的市
9、场广受欢迎。否ParAccel产品的发展速度非常快。供应商声称自己在 POC 方面无人可及。创新的架构和光纤通信。这是此表中唯一一个仍归小型独立供应商所有的解决方案。需要考虑供应商的规模、稳定性和长期生存能力。尽管技术令人印象深刻,但目前没有计划将 ParAccel 作为战略性产品。否结构化数据分析领域,Netezza、Exadata、Vertica、Teradata及Sybase IQ是美国银行未来的战略产品国内银行同业 中国银行 采用HADOOP实现系统日志的分析 中国农业银行 进行历史数据的归档 中国银联 历史数据归档12目前中行、农行、银联等都已经开始了基于HADOOP技术的应用探索及
10、规划淘宝大数据技术应用情况13应用领域n 批处理:ETL数据分析,OLAP大数据量分析主要使用Hive 点击流日志分析;搜索排行榜和其他搜索相关的业务 机器学习n 数据生命周期管理:归档存储:n 历史订单明细查询n 应用规模 3000多个节点,36PB数据,20多个事业群,150多用户组,3000多用户。Hadoop应用发展历程淘宝数据服务平台架构淘宝采用HADOOP技术构建了完整的数据仓库及处理分析平台大数据技术应用研究结论14关系型数据领域非关系型数据领域Teradata主要用于数据仓库X86 MPP技术在数据集市中得到广泛应用HADOOP技术在如下领域得到广泛应用数据归档存储ELT半结构
11、化数据分析随着HADOOP技术快速发展,其对关系型数据的处理支持也越来越强,关系型与非关系型数据的处理技术边界已经日渐模糊,后续应用HADOOP技术可能实现统一的数据处理分析平台目录 我行新一代数据集成平台能力要求 业内大数据技术的发展及应用研究 我行大数据技术的应用策略15我行大数据技术应用规划建议我行大数据技术应用规划建议技术应用领域建议技术应用领域建议ORACLE满足OLTP类应用需求X86 MPP在某些非关键应用领域作为TERADATA的替代技术,降低应用成本;复杂的历史数据查询(如:多表关联,查询条件可自由组合的查询)Teradata核心数据仓库应用海量、多维度的复杂数据分析HADO
12、OP技术历史数据归档;简单历史数据查询(查询条件固定的单表查询);半结构化数据分析;RDW区(ORACLE Exadata)SOR区(X86 MPP)ADW&CM区(TERADATA)LDS区(X86 MPP+HADOOP)HDS-归档区(HADOOP)HDS-访问区(HADOOP+X86 MPP)Staging区第三阶段引入基于X86平台的商用硬件的分布什数据库产品,以较合理的性价比,提高海量数据的计算能力与时俱进、积极应用总体规划、分步实施制定计划、稳步推进第二阶段第一阶段引入遵行HADOOP技术标准的HADOOP技术产品,实现:海量结构化历史数据的归档保存信息安全日志的存储与分析扩展HA
13、DOOP技术的应用范围:电商数据分析其他场景我行大数据技术应用实施路径建议不断丰富大数据技术上的应用功能,形成我行完善的大数据技术应用体系。17HADOOP技术选择方案比较18详细见:比较项 方案方案一:采用免费开源发行版Cloudera Hadoop方案二:采用商业开源发行版(如Cloudera、Hortonworks)方案三:采用闭源的HADOOP技术产品(如Intel Hadoop、IBM BigInsights、EMC Pivotal HD)是否关键指标成熟度与稳定性高高中是应用案例与规模多多少是产品和服务成本低中高是运行维护成本高中中是行内技术储备要求高中中是国内支持力量弱一般稍强是
14、服务支持响应时间长较长一般是运行风险高中中是厂商依赖程度低中高否开放程度高高低否产品按需定制的灵活度高中低否大数据技术应用初步实施计划19阶段主题开始时间结束时间第一阶段引入X86分布式数据库,分担Teradata批量数据处理压力,合理降低成本已完成第二阶段HADOOP测试案例准备与实现2013年6月13日 2013年7月26日HADOOP产品选型测试2013年7月29日 2013年12月30日历史数据归档应用基于HADOOP构建2014年初2014年底信息安全应用日志存储与分析基于HADOOP构建2014年中2015年中第三阶段电子商务大数据分析2015年初2015年底持续应用阶段 不断丰富
15、大数据技术上的应用功能2016年-Q&AQuestions?Questions?20每一个优秀的人,都有一段沉默的时光。那一段时光,是付出了很多努力,忍受孤独和寂寞,不抱怨不诉苦,日后说起时,连自己都能被感动日子。22.8.222.8.2Tuesday,August 02,2022企业的出路在于产品更新换代。15:17:0815:17:0815:178/2/2022 3:17:08 PM在企业内部,只有成本。22.8.215:17:0815:17Aug-222-Aug-22人人是人才,赛马不相马,给每一个愿意干事的人才以发挥才干的舞台。15:17:0815:17:0815:17Tuesday,
16、August 02,2022旁观者的姓名永远爬不到比赛的计分板上。22.8.222.8.215:17:0815:17:08August 2,2022我不理解这句话的意思。2022年8月2日下午3时17分22.8.222.8.2渐进思想是创新的最大敌人。2022年8月2日星期二下午3时17分8秒15:17:0822.8.2无须匆忙,该来的总会来,在对的时间,和对的人,因为对的理由。2022年8月下午3时17分22.8.215:17August 2,2022人在得意时须沉得住傲气;失意时则要忍得住火气。2022年8月2日星期二15时17分8秒15:17:082 August 2022学而不厌,诲人不倦。论语。下午3时17分8秒下午3时17分15:17:0822.8.2管理就是把复杂的问题简单化,混乱的事情规划化。22.8.222.8.215:1715:17:0815:17:08Aug-22金钱损失了还能挽回,一旦失去信誉就很难挽回。2022年8月2日星期二15时17分8秒Tuesday,August 02,2022自知之明是最难得的知识。22.8.22022年8月2日星期二15时17分8秒22.8.2谢谢各位!谢谢各位!