某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx

上传人(卖家):三亚风情 文档编号:3418233 上传时间:2022-08-29 格式:PPTX 页数:27 大小:4.54MB
下载 相关 举报
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx_第1页
第1页 / 共27页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx_第2页
第2页 / 共27页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx_第3页
第3页 / 共27页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx_第4页
第4页 / 共27页
某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、1使用说明文档名称工商银行FusionInsight LibrA成功案例(一页案例+详版案例)目的给客户讲解工商银行成功使用FI LibrA打造下一代新数仓的成功故事受众一页版:客户CXO,战略规划部、市场部等早期拓展交流详细版:客户的技术,规划等部门交流关键信息1.工行背景和存在的问题2.华为FI LibrA方案设计3.项目实施效果版本记录版本描述作者审批人V1.0LibrA 上市营销材料,首次版本上线.党张波 00330169詹才华 00255073 行销;MKT;研发如客户需要提供此材料,请以PDF格式提供请务必删除敏感信息,例如数字,客户名称,后面隐藏的备份页面等部分信息放在了每个页面

2、的备注里面,供讲解人员参考2工商银行借助FusionInsight LibrA打造新一代融合数仓 扩容成本高:TD一体机架构,价格昂贵,计算存储扩容成本高。时效性差:要求476个业务处理时间从10降到6小时 易用性差:只支持两代设备兼容,无法跨代;扩容业务需停机将近一周时间工行的痛点和挑战:华为提供的解决方案:统一架构:通用x86服务器,设备利旧和高效水平扩容 统一SQL接口:通过LibrA on Hadoop特性直接访问Hadoop上的数据 在线扩容:支持夸代硬件兼容,扩容不停机等特性工行的收益:成本优势:软硬件解耦,基于通用X86服务器避免Lock-in,支持跨代设备共存,最大化保护硬件投

3、资 融合平台:Hadoop 与 MPP 完全融合,一套系统支持处理批量和联机查询混合负载 架构演进:Cloud Ready,支持面向未来混合云演进一页案例Security Level:工商银行FusionInsight LibrA新数仓成功案例华为大数据营销团队30/04/2017详版案例4工商银行背景介绍中国工商银行向全球532万公司客户和万公司客户和4.96亿个人客户亿个人客户提供广泛的金融产品和服务。连续三年位列银行家全球1000家大银行和美国福布斯全球企业2000强榜首榜首。中国工商银行是中国五大银行之首中国五大银行之首,世界五百强企业之一,拥有中国最大的客户群,是中国最大的商业银行。

4、中国工商银行是中国最大的国有独资商业银行,基本任务是依据国家的法律和法规,通过国内外开展融资活动筹集社会资金,加强信贷资金管理,支持企业生产和技术改造,为我国经济建设服务中国工商银行(全称:中国工商银行股份有限公司,Industrial and Commercial Bank of China)简称ICBC,成立于1984年年1月月1日日。5领导决策业务分析监管报送营销理财渠道日志交互控制层大机平台对私存贷款业务1千万笔交易/天对公存贷款业务2-3千万笔交易/天基金开放平台网上银行手机/电话银行金融市场(债券、票据)日志、文本、(大数据加工处理)文档索引(信息检索平台)非结构化数据Hadoop

5、平台PCRM个人客户管理管理客户关系管理CCRM法人客户管理管理下游数据集市GSIS全球统计信息系统风险/审计报送CRA信用风险分析CS2002综合报表报表CAP资本报表MOVA绩效系统绩效HDM(Oracle,280TB)历史数据管理系统独立分析平台数据服务总线(账务数据)ETL平台工行自建结构化数据日志、网页、影像、扫描等非结构化向下游直接供 数据信用卡3-4亿笔/结息日外部审计新型分析型业务客户画像/精准营销实时营销反欺诈消费信贷电子商务ATM柜员用户网上银行手机银行1亿笔交易/天电子商务数据仓库是工行核心分析处理系统EDI(XX TB),XX个月的数据,准实时ODS(操作型数仓)批量加

6、工集群EDW 1(XXX TB),7年的数据,批量JobEDW 2(XXX TB),7年的数据,交互查询Job分析挖掘集群ISFC(半配Exadata,25TB)信贷统一查询系统6批量EDI与批量EDW对比批量 EDI批量 EDW数据量/作业数XX TB/XXX 个作业XX T/XXXX 个作业业务特点批处理系统,每天新增数据 XX G,不保留历史原数据;批处理系统,每天新增数据 XXG,保留历史原数据(最长7年)业务窗口数据随到随加载,0:009:00,业务繁忙期约4小时数据随到随加载,18:00T+1 22:00,业务繁忙期约1214小时数据特征贴源(和业务系统采用基本一致的结构);数据每

7、年自然增长约6%;面向主题的范式模型;数据每年自然增长约6%;SQL特点典型场景:1015张表关联、聚集、复杂表达式、Insert/Select为主,写入比例占比较大,读写比例2:13:1典型场景:2030张表关联、聚集、复杂表达式、Insert/Select为主,写入比例占比较大,读写比例2:13:17工行的需求与挑战灵活性差批量任务与联机交互任务分离,业务分析灵活性差时效性差EDI与EDW混合运行,时效性差。工行要求EDI 85个核心作业从4.5小时降低到3小时完成,476作业端到端时间从10小时降低到6小时扩容成本高400TB数据,扩容需求强烈,Teradata节点扩容成本高(20万/T

8、B)易用性差1)跨代设备兼容:TD只支持两代设备兼容2)在线扩容:TD扩容业务需停机将近一周时间;8FusionInsight LibrA+开放硬件解决方案4P4P4P4P管理节点ETL服务器计算节点EDW主要使用列存,IO隔离性更好,每个RAID部署2 DN节点故障后4*2 DN方式可以在安全组内均分DN,即安全组大小=节点RAID数+1将来SSD/ADIO等特性会更好的隔离IO并节省内存,更适合多DN部署EDI(70TB),13个月的数据,准实时ODS(操作型数仓)批量加工集群EDW 1(400TB),7年的数据,批量JobEDW 2(310TB),7年的数据,交互查询Job分析挖掘集群T

9、eradata 平台DATA LAKEFusionInsight HD9系统组网方式80GE80GE简简化化汇汇聚聚层层接入接入层层10GE10GE汇汇聚聚层层接入接入层层1 1、该方案本质是、该方案本质是FATTREEFATTREE组网方式,为实现收敛比组网方式,为实现收敛比1 1:1 1,交换网络层级每提高一层,带宽增加一倍;,交换网络层级每提高一层,带宽增加一倍;2 2、左图中每根加粗连接线代表、左图中每根加粗连接线代表80GE80GE带宽,即带宽,即8 8台物理机带宽上限之和。接入层每单台交换机下行带宽台物理机带宽上限之和。接入层每单台交换机下行带宽160GE160GE,上行带宽,上行

10、带宽160GE160GE;汇聚层每单台交换机接入带宽汇聚层每单台交换机接入带宽320GE320GE;3 3、右图是简化的、右图是简化的FATTREEFATTREE本质;本质;10计算节点ETL/管理节点成本EDI批量库标准x86服务器4*30:(2016年底扩容到42台)30台 标准x86服务器2*12核(Intel Xeon CPU 2.3GHz*2)512GB RAM900GB SAS硬盘 x 20(本地盘)2个万兆网口OS:SUSE11.2标准x86服务器4*2:2台标准x86服务器2*12核(Intel Xeon CPU 2.3GHz*2)128GB RAM160 T(SAN存储)软件

11、成本:FusionInsight LibrA软件报价模式:X万元/TB硬件成本:XX标准x86服务器4 XX万/台*30,华为5885V3 XX万/台*60EDW批量库标准x86服务器*60 CPU:4*15Core,2.8GHz内存:1024G硬盘:20*900G SAS(本地盘)网卡:10GE标准x86服务器4*2:2台XX标准x86服务器2*12核(Intel Xeon CPU 2.3GHz*2)128GB RAM15 T硬盘 x 3(SAN存储)华为LibrA+开放硬件解决方案FusionInsight LibrA搬迁成本远低于TD扩容成本两个集群:外高桥30节点集群和嘉定60节点集群

12、数据增长:EDI批量库+EDW批量库:400TB;EDW分析库:300TB,每年自然增长6%扩容单价:20万/TB2014年一次扩容12节点,耗资 XX 亿RMB工行20052014年采购Teradata总共耗资 XX 亿RMBTD 扩容解决方案11FusionInsight LibrA 满足客户的要求,并超出了客户的期望作业名TD生产环境(秒)华为生产、列存20台(秒)华为/TD生产运行时间比率(%)E01_CUST_BELONG_INFO_A11702387633%PBM_CUST_PERMEABILITY_SUBSALY_A6350129320%PBM_CUST_PERMEABILITY

13、_ALL_A16449237914%C01_INDV_CUST_LOAN_INFO_A444585319%CST_CUST_STRU_A15380433828%生产环境部分复杂作业处理性能对比(超过2000秒的作业)华为(列存,20台)TD 工行要求EDI 85个核心作业的处理时间2.5小时4.5小时4小时476 作业端到端的处理时间5.8小时(684个作业)10小时6小时EDI 核心作业处理性能对比12FusionInsight LibrA方案亮点总结2 高性能SQL引擎数据仓库核心作业性能超越TD30%3 高时效数据复制单节点外表导入速度700MB/S5 高效作业迁移一键式,图形化,自动化

14、SQL迁移,迁移后零调优6 在线快速扩容110T数据,20-32节点扩容耗时仅需8小时4 Hadoop融合与Hadoop深度融合,透明访问1 跨代设备兼容兼容通用x86硬件服务器Copyright2016 Huawei Technologies Co.,Ltd.All Rights Reserved.The information in this document may contain predictive statements including,without limitation,statements regarding the future financial and operati

15、ng results,future product portfolio,new technology,etc.There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements.Therefore,such information is provided for reference purpose only and constitutes ne

16、ither an offer nor an acceptance.Huawei may change the information at any time without notice.Thank You.14工行大数据应用范围绩效管理行内多维度绩效支持仓库报表系统信贷业务统一查询平台提供单一产品线、渠道和各种业务关联、客户关联的信贷查询功能分析师平台基于数据仓库的即时查询分析师支持系统银监会监管数据采集按照银监会的数据结构规范,向银监会(局)报送监管数据大数据服务企业数据集成(EDI)基于数据仓库的批量计算系统全球统计信息系统汇总统计业务明细及指标生成的报表系统15EDW集群部署方案设计说

17、明设计说明30台5885(4P/1TB/20*900GB),后续会扩展到60台每个节点4个RAID(4D+1P),每个RAID 2个DNDN数=2*4*30=240(后续会扩展到480 DN)每个安全组(圈)包含5个节点,共6个安全组节点宕机后其上8个DN飘移到组内另外4个节点上,每个节点接收2DN,分别落在两个RAID上设计理由设计理由EDW主要使用列存,IO隔离性更好,因此每个RAID部署2 DN节点故障后4*2 DN方式可以在安全组内均分DN,即安全组大小=节点RAID数+1将来SSD/ADIO等特性会更好的隔离IO并节省内存,更适合多DN部署16基于FusionInsight优化数仓源

18、系统数据交换平台集成型数据区集成型数据区分析挖掘平台汇总区基础数据区集市区企业数据集成批量加工平台企业数据集成基础数据共享数据区历史数据区临时数据区非结构化数据流处理平台批量调度系统批量调度系统实时类 应用数据集市(混合负载)绩效信贷FusionInsight HDFusionInsight HDFusionInsight MPPFusionInsight MPPCDC集市区GoldengateStormFlume上层应用(BI类、监管类)分析师展现平台SAS123417FusionInsight LibrA仓库1:XX标准x86服务器4*32CPU:2*10Core,2.8GHz内存:512

19、G硬盘:20*900G SAS网卡:10GE仓库2:华为5885V3*60CPU:4*15Core,2.8GHz内存:1024G硬盘:20*900G SAS网卡:10GE仓库1:30+2+2管理节点ETL服务器计算节点1GE管理网10GE业务网仓库2:60+2+22P2P2P2P4P4P4P4P物理部署架构18日志、文本、行为(大数据加工处理)文档索引(信息检索平台)大数据大数据平台区(FusionInsight HD平台)结构化数据EDW历史库(7年)分析挖掘集群(310TB)批量加工集群EDW批量库(7年)EDI(70TB)1EDW数据仓库区(X86+FusionInsight MPP D

20、B平台)个人客户管理客户关系管理法人客户管理境外客户管理全球统计信息系统风险/审计/报送风险权重计量信用风险分析利率管理系统综合报表报表CAP资本报表前台对账类报表MOVA绩效系统绩效DM数据集市区(Oracle平台50+)历史数据查询HDM(280TB)历史数据管理系统ISFC信贷统一查询系统EDI批量加工系统:u数据预汇总、整合,向下游数据集市供数u数据量:70T,20 50+亿级别大表joinu运算量:468+批处理任务新型互联网应用客户画像精准营销.批量加工集群2EDW分析挖掘系统:u模型数据来自批量加工集群,少量数据预汇总、整合,数据供查询分析、挖掘u数据量:300T+u运算量:50

21、0+批处理任务,并发查询3SAS分析师平台DASTDTD数仓卸载数仓卸载 (批量加工批量加工)(大额资金流动监控,绩效考核(产品)渠道日志交互控制层主机平台对私存贷款业务对公存贷款业务基金理财信用卡开放平台网上银行信贷台账系统手机/电话银行营销系统保险电商/互联网金融45uEDW批量加工系统:u数据模型整合,大量汇总运算,支撑向下游数据集市u数据量:400T,20 50+亿级别大表joinu运算量:20000批处理任务采用大数据技术优化数仓19工行原有数据仓库架构 源 系 统(100+)数据交换平台集成型数据区集成型数据区分析挖掘平台(300TB)汇总区基础数据区集市区批量加工平台(400 T

22、B)ODS分析师展现SAS、DAS数据集市数据集市运营管理财务管理风险管理监管报表客户管理绩效考核汇总区基础数据区集市区临时区 集市区作业调度管理TeradataTeradata作业调度管理EDIEDWEDW临时区 下游集市(50+)生产系统生产系统数据数据20EDW数据流图MainFrame/开放平台110+源系统UDSGFT交易型数据区交易型数据区渠道日志交互控制层交互控制层主机平台主机平台对私存贷款业务对公存贷款业务基金对公客户信息理财信用卡对公客户信息开放平台开放平台网上银行信贷台账系统手机/电话银行营销系统保险金融市场(债券、票据)ETL服务器General File Transfe

23、r,点到点文件传输和交换文件大小:100MB GB数据峰值窗口:每天9点前数据增量:800GB/天SAS灵活查询数据挖掘批量加工平台Teradata批量加工平台EDIPDMStage缓存层300GB/天,存7天SUM企业数据集成 50 TB基础数据管理/模型整合4000+张表,142.8 TB数据存放7年汇总层 35.8 TB数据存放13个月Teradata分析挖掘平台SUMStage缓存层300GB/天,存7天PDM汇总层 35TB数据存放13个月基础数据管理/模型整合172 TB,数据存放7年MART同步服务器集市 72TB库内集市区 142.6TBPCRM个人客户管理管理客户关系管理客户

24、关系管理(3)CCRM法人客户管理管理境外客户关系管理GSIS全球统计信息系统风险风险/审计审计/报送报送(40+)RWA风险权重计量CRA信用风险分析ALM利率管理系统PCCM信用评级外部审计CS2002综合报表报表报表(5+)境外报表CAP资本报表前台对账类报表MOVA绩效系统绩效(绩效(1)2套满配Exadata下游数据集市(下游数据集市(50+系统,系统,Oracle平台,平台,20TB/个)个)用户数:500(总行、分行数据分析师)业务特征:灵活查询,直接写SQL,对优化器智能要求极高查询量:每月10万次,高优先级15个,中优先级7个,低优先级5个,需要具备运行时优先级的负载管理资源

25、控制机制,按CPU分配队列资源响应时间:95%的查询在5分钟之内响应,对性能要求高兼容性:要求数据库与SAS系统兼容数据量:400TB+数据表:5000+批处理作业:20000+作业并发:作业并发:60+业务特征:20+50+亿级别大表join,10分钟跑完,对优化器、执行器性能要求极高资源控制:高并发并发响应时间:1、EDI时效要求高,在T日6-9点跑完。2、EDW在T日12点T+1,月末要T+2/3。文本接口ETL调度交换United Data Switch,共享数据交换200+应用系统接入每天50万文件,5TB容量级别,超过7天数据归档文件大小:80%10M以下文件;20%10M以上文件

26、数据峰值窗口:每天9点前ETL工具:自研,集成了TD的TPT,FastloadETL服务器:4台,外接共享存储DAS灵活查询用户数:2000+(总行、分行IT部门)业务特征:灵活查询,直接写SQL,对优化器智能要求极高并发数:10%响应时间:基于查询数据量大小,秒级、分钟级、小时级都有分析挖掘平台文本接口百MB GBBI工具:Cognos用户数:10000+(业务人员)业务特征:报表查询展示EDIEDWMARTMART21EDW生产系统组网方式58855885588558855885588558855885汇聚交换机(主)管理网络58855885588558855885588558855885

27、接入交换机(备)汇聚交换机(备)管理网络接入交换机(主)58855885588558855885588558855885管理网络588558855885588558855885ETLETL接入交换机(备)管理网络接入交换机(主)30节点方案组网部署示意图(60节点方案需要增加4台接入交换机,2主2备,接入汇聚交换机)40GE40GE40GE40GE10GE10GE10GE10GE10GE10GE10GE10GEGEGEGE汇聚交换机(主)汇聚交换机(备)汇聚交换机:接入交换机(主)接入交换机(备)接入交换机:40GE接线(业务网):主备10GE接线(业务网):主备GE接线(管理网):22EDW

28、基础层算法Page 22算法类型算法含义针对源表类型APPENDINSERT明细类F1全删全加参数类F2UPDATE&INSERT明细类F3标准型历史拉链(支持每日增量数据)分户帐以及有需要拉链的表F4经济型历史拉链(支持数据信息为0或”)分户帐以及有需要拉链的表F5全量型历史拉链(支持每日全量数据)分户帐以及有需要拉链的表F6全主键历史拉链分户帐以及有需要拉链的表F7自拉链分户帐以及有需要拉链的表典型历史拉链表算法典型历史拉链表算法1、采集当日全量数据到ND(NewDay)表;2、可从历史表中取出昨日全量数据存储到OD(OldDay)表;3、(ND-OD)就是当日新增和变化的数据,也就是当天

29、的增量,用W_I表示;4、(OD-ND)为状态到此结束需要封链的数据,用W_U表示;5、将W_I表的内容全部插入到历史表中,这些是新增记录,start_date为当天,而end_date为max值;6、对历史表进行W_U部份的更新操作,start_date保持不变,而end_date改为当天,也就是关链操作;23财务财务 资产资产当事人当事人区域区域地理区域,物理的或电子的地址单个人或一组人事件事件会导致同客户达成合同的金融或非金融的事件内部组织内部组织金融机构或保险公司内部的业务单元协议协议在客户和金融机构之间达成的关于特定产品的协议产品产品一种可以在市场上交易的产品或服务,包括条款或条件行

30、销活动行销活动为了获取、挽留客户或提高用户的使用率而采取的战略、计划或促销活动渠道渠道客户和金融机构或保险公司进行接触的途径企业内部的会计系统当事人所有的具有价值且能够获得受益的事物模型按第三范式进行设计,按主体模型组织,先划分10个主题:协议、渠道、地域、机构、客户、产品、营销活动、事件、财务、客户资产保存周期:按照巴塞尔协议的要求,结合工行数据实际情况,制定的数据保留周期最长为7年EDW基础层模型-区域主题模型24EDW汇总/集市层作业范例汇总计算汇总计算作业作业(汇总层):CST_CUST_STRU_A作业步骤:-插入逾期客户全部扣款情况的记录-插入逾期客户联动部分扣收的记录-插入逾期客

31、户未成功扣收的记录-插入逾期客户还款失败的记录-插入逾期客户还款账户为空的记录-插入借记卡-借记卡介质表-网点-逸贷目标客户-逸贷额度使用率单独对逸贷总额度-星级客户主要目标:逸贷客户结构情况统计指标计算指标计算作业作业(集市层):M01_CRDT_CUST_CAP_TRAN_LOAN_A作业步骤:-取当月放款贷款信息-取当月放款账户往来户明细数据-累加每个账号的交易金额-抽取有效流失明细:不足部分、超额部分、超额部分最后一笔、超额部分非最后一笔、超额第一笔为行内情况、超额第一笔为行外情况-生成信贷客户资金流失率表主要目标:计算信贷客户资金流失率25EDW作业调度方式1、批量运行使用工行自主开

32、发的automation调度工具2、调度工具由用户界面、后台调度脚本和本地数据库组成,安装在独立的调度服务器上。3、本地数据库存储作业的状态,如停止、运行、报错等4、后台脚本根据作业进程和日志维护作业状态5、用户界面以图形化方式显示作业进度及状态26批量加工EDW业务体系架构个人银行账户预处理 个人银行合同预处理卡预处理其他预处理其他轻粒度汇总指标层基础区集市层汇总区数据接口行内系统接口行外系统接口ACRM/PVMS/OLAP多维立方固定报表/KPI/DashBoard灵活查询数据挖掘分析型应用系统业务数据量:400 T作业数:20000+作业并发数:60数据表数:5000+作业概况:基础层:

33、数据量为60T+100T;数据导入作业为3000+,耗时约为5小时汇总层:数据量30T;汇总作业数200+,耗时约为5小时,12小时与基础层并行.每天12点前必须完成集市层:数据量100T+,作业数6000+;日批时间从12点到晚8点;数据校验:作业数4000+;数据导出:作业数3000+应用区27数据仓库面临的问题挑战数据交换平台数据保留时间短,对历史数据的重算过程非常复杂 成本高,一体机封闭架构数据集市层批量、联机分离,灵活性差 实时数据处理能力弱,无法满足业务的实时性要求原有架构主要问题原有架构主要问题1,成本高:Teradata 一体机架构,价价格昂贵,数据存储成本高,扩容成本格昂贵,数据存储成本高,扩容成本高;高;2,数据集市层批量、联机分离:,数据集市层批量、联机分离:Oracle集市扩展性无法满足大数据时代的分析加工需求,只能承载集市的联机查询部分负载;批量加工和联机批量加工和联机处理分离带来了时效性和灵活性不能处理分离带来了时效性和灵活性不能满足要求满足要求;3,实时数据处理能力弱:,实时数据处理能力弱:基于Teradata的数据仓库的负载过大,负载过大,无法处理实时数据流。4,数据交换平台数据交换平台保存的数据周期太短,进行历史周期批量计算难度大。工行对数仓关键诉求:低成本,高性能SQL引擎,线性扩展。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(某FusionInsightLibrA案例(工商银行MPPDB新数仓)课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|