1、大数据技术重构数据仓库应用架构目录1平台建设背景2数仓应用体系建设3风控领域创新应用4取得成果与未来展望烟囱式应用现状存在的问题应用野蛮生长 数仓地位尴尬01硬件资源分散峰值服务能力和大数 据量处理能力受限04数据治理目标难实 现:企业数据模型、 数据标准统计口径03跨应用数据共享困 难,大量的数据冗余02大数据技术助力构建大规模数据处理平台1高性价比1.相同计算与容错能力,基础 环境软硬件成本只需原来的 1/3-1/5,大幅降低项目预算2.分布式并行计算技术解决传 统数据库架构海量数据的加工 能力难题2弹性伸缩1.构建大规模计算与存储资源 池,用个平台承载以数据仓库 为核心的大部分数据应用;
2、SSD 介质加速随机读写速度2.在线横向扩容,实现资源弹性 分配与隔离,快速满足应用需求 变化3开放便利1.开源技术促进平台快速升 级迭代,提升核心技术自主 掌控能力 2.整合存储、加工、实时流 处理、机器学习等多样化能 力,降低集成难度基础数据平台技术选型性能优异1. 兼顾大数据批量处理和小样本数据精确查询统计的性能需2. 优化的数据存储与访问技术,支持 索引、分区、行列混合存储3. 尽量避免GC引发的性能抖动,避免大数据量广播4. 计算资源有效管控容易开发1. 支持SQL2003标准和存储过 程,原有应用迁移成本低2. 编程接口与开源主流兼容, 支持ODBC/JDBC标准接口运维简单1.
3、高度容错,无单点故障2. 完善的运维监控管理,开 放的监控输出接口3. 支持在线弹性扩容支持到位1. 厂商掌握核心技术2. 有经验的运维支持团队3. 晌应及时的产品开放团队24.11.2015构建统的数据管理平台释放软件开发生产力构建统的数据管理平台释放软件开发生产力强化数据仓库核心地位促进数据应用开放协同统规划企业信息模型从全局视角规划设计,整合提 炼多应用共性需求,构建公共 数据模型层01应用轻装上阵削减基础数据加工任务,应用 数据集市瘦身,共享融合的企 业级信息视图03份数据,直接共享统调度,集中授权,直接访 问,统计口径致,实现数据 标准化目标02数据服务专业化聚焦专业领域数据价值提炼
4、, 开放专业数据视图与应用服务04拓展数据仓库新能力业务数据开放能力业务数据开放能力开放高时效性的业务主题应用集市,提供 自主数据探索与业务建模的可视化工具多样化数据整合能力多样化数据整合能力内外部结构化与非结构化数据的整合加 工与共享,构建更全面的客户信息视图准实时数据应用能力准实时数据应用能力全渠道数据实时整合,实现客户营销、风险管理、业务分析等领域的实时智能 应用技术平台规划海量数据海量数据 实时智能实时智能A数据管理平台B应用服务平台D高性能计算平台C数据探索平台1.海量数据高效采 集、存储、加工2.数据标准化治理、 数据生命期管理3.多租户数据服务资源管理1.高并发低延迟的微 服务架
5、构2.大数据技术集成1.业务数据可视化2.交互式数据分析3.图形化的挖掘建模 工具1.CPU/GPU混合并 行计算架构2.并行挖掘算法和深 度学习框架3.并行处理语言、实时流与图计算构建企业级数据应用能力决策支持决策支持数据探索与业务预测数据探索与业务预测统计分析统计分析数据存储与联机查询数据存储与联机查询自主学习自主学习 无监督深度学习 自适应进化演算 产品差异化定价 业务数据探索 模型测试验证 即席业务统计报表 生产数据实时与T+1复制 作业数据直接存储 事件触发式自动推理引擎 自然语言理解与虚拟机器人 区域行业规划 业务趋势预测 客户行为预测 客户细分统计分析支持历史数据在 线查询离线批
6、 处理准实时实时目录1平台建设背景2数仓应用体系建设3风控领域创新应用4取得成果与未来展望数仓基础应用架构历史数据平台文件交换区FSA历史数据服务接口非结构化数据接入半结构化/ 非结构化数据源系统结构化数据非结构数据区社交媒体信息第三方数据.统 一调 度数 平据 台运 维 体 大 系 数据 管 理 平 台在线数据平台源数据数据 接入数 据 存 储公共数据模型层CDM公共数据模型层CDM源数据基础数 历史层据模型HDM层FDM源数据基础数历史层据模型HDM层FDM源数据缓冲区ODM/结构化数据接入数据服务数据集市客户关系管理集市综合监管集市数据分析集市审计、反洗钱等其他数据服务接口DSI数据应用
7、总体技术架构Far far away, behind the word mountains, far from the countries Vokalia and Consonantia, there live the blindtexts. Separated they live in Bookmarksgrove right at the coast of the Semantics, a large language ocean.Sign核心系统理财系统渠道支付系统内部内部 数据层数据层微服务AkkaMQ-Kafka缓存RedisSkyline大数据应用服务平台大数据实时流处理平台非结构
8、化数据服务平台实时智能 决策引擎知识图谱与 认知计算平台互联网数据采集与与文本分析平台数据挖掘工 具Discover/Midas可视化报表工 具Tableau数据库基础工具Waterdrop公 共公 共 技 术技 术 服 务服 务 组件组件数据数据 库工具库工具分行数据集市各应用集市部门分析集市Spark企业级数据模型/公共数据模型贴源层数据集市应用应用 服务服务 技术技术 平台平台数据数据 仓库仓库Hadoop+Spark TDH数据库内存数据库Voltdb半结构化数据库SDB数据库数据库 平台平台应用应用 系统系统关联关联 应用应用 系统系统数据数据 应用应用 服务服务ESB手机银行微信网
9、银信贷评审贷后管理柜面系统智能顾投服务客户营销服务家庭金融服务信贷平台风险预 警服务实时反欺诈非结构化数据应 用服务CRM系统系统财富管理系统家庭金融精准营销平台统一绩效统一绩效 考核考核平台平台客户生命周期管理系统业务发展规划台大数据资讯平台全面风险预警全面风险预警运营风险监测系统“恒丰足迹恒丰足迹”银联数据舆情数据工商数据司法数据外部外部 数据层数据层.公共数据模型层设计 面向主题 覆盖银行分析决策的各个方面 满足维度模型的高效性和易理解性采用维度建模为主数据的准确性数据的准确性模型的稳定性、可扩展性模型的稳定性、可扩展性数据的整合性数据的完整数据的完整性性模型的可用性模型的可用性 数据具
10、有可逆性,能够真实地反映 原始数据的面貌 数据具有可回溯性,能够准确地反 映历史数据清况 结构上应该是稳定的、灵活的、可扩展的 足够的灵活性才能适应复杂业务清况以及业务的变化 高抽象化的模型能便于扩展 便于最终用户理解 统的规范、规则定义、业务语言 层次、关系清晰 数据无二义性 文档完备 能涵盖银行现有的业务范畴以及数 据范围 重要实体、重要关系、重要分析维 度属性均保持完整 Single Source, Single View 数据共享平台 为各种分析应用提供单的、整合的数据来源 统的数据定义标准和编码规则采用维度建模为主采用维度建模为主数据的整合性数据的整合性数据的完整性数据的完整性模模模
11、型型型设设设计计计原原原则则则公共数据模型主题成果交易产品协议银行银行客户客户客 户 信 息财务 绩效汇总层汇总层明细层指标层指标层财务绩效资产主要是科目总账和统 计科目信息主要是银行持有资产 和押品信息交易主要是交易、传票以 及特定业务、渠道的 交易产品协议主要是通用产品信息 以及特定产品信息主要是容器账户、结 算账户、授信业务和 国结业务客户信息主要是客户基本信息、客户关联信息和客 户分类信息实施过程遇到的问题与对策技术支持工具问题:跨集群数据自动复制,系统监控、SQL性能分析诊断等技术工具尚不完善。 对策:与平台厂商合作,自开发技术工具 作为补充避免复杂的SQL编写问题:编译器难以判断嵌
12、套SQL在每个节点上的初始 结果集是否可以驻留直接使用,结果往往需要汇聚后 再广播给每个节点,增加大量的网络IO成本对策:尽可能把过滤条件放到嵌套SQL内部执行,减 少中间结果集大小,降低数据广播带来的处理延迟跨节点的数据网络传输带来 的IO成本问题:IO成为性能瓶颈对策:客户号存在并作为分片键,并且在表关联 操作中将客户号相等的计算条件作为必要条件; 元数据表尽可能设计为复制表;避免在分片键上出现空值,导致数据分在过度倾 示分布式计算任务带来的调度协调成本问题:看似较小成本的SQL实际执行成本(时间) 比传统数据库要高很多对策:包括规避存储过程内游标使用,尽可能用聚 合成复合SQL语句或拆分
13、成若干批量数据更新处理 步骤基础数据平台技术优化工作数据权限管理1.多分支机构行级权限管控2.列级权限,用户级数据脱 敏定义服务质量管控1.任务级资源管控避免不良设计 影晌整体性能 2.SQL执行成本、执行时间、排 队时间等多维质量管控策略实时监控预警1.针对实例和组件不同层级的实时监控 搭建2.实时采集组件可用性、资源占用情 况、任务排队数、平台事件等信息 3.配置智能告警规则数据权限管控实时获取数据,缩短数据 获取路径分行数据集市数据权限划分行级权限空制歹级权限空制公共数据模型行级权限行级权限实现数据的行级授权分行用户只能查询该分行数据基础模型统口径加工歹级权限歹级权限实现数据脱敏针对不同
14、用户设定不同的查询结果集群灾备以及数据同步在线数据平台在线数据平台1. 在线跑批集群2. 数据集市3. 对接业务系统4. 提供数据服务灾备在线数据平台灾备在线数据平台灾备历史数据平台灾备历史数据平台历史数据平台历史数据平台1. 历史数据备份2. 提供历史数据服务1. 灾备在线集群2. 可做灾备切换1. 灾备历史集群2. 可做历史集群切换同步同步同步集群间日常增量同步数据 同步1.针对ORC类型表,从在线数据平台每日获取增量数据,同步到其他三套数据平台2.针对Hbase表类型,使用Hbase表同步功能进行准实时同步集群间全表同步集群间区间同步1.从在线数据同步获取需同步区间的增量数据,同步到其他
15、三套数据平台1.针对ORC类型表,从在线数据平台获取表结构及全表数据,同步到其他三套数据平台,并保留历史平台的授权情况2.针对Hbase表类型,使用Hbase表同步功能进行整表数据同步技术实施关键点010204性能优化设计 1.数据模型设计管控2.资源按需弹性分配3.批处理任务集中调度1.建立性能设计规范2.始千开发阶段的性能监控3.分布式数据平台与传统数据 平台性能问题的异同点应用项目管理知识传递1.细分主题多波次培训2.成立技术兴趣小组3.技术反模式案例总结03数据质量管控1.自动化数据质量检核 2.构建加工路径上多个系统3.相对独立的数据质量防火墙目录1平台建设背景2数仓应用体系建设3风
16、控领域创新应用4取得成果与未来展望思路-风险管理的两种思考体系1.需要准确财报数据才能判断企业经营状况2.选取合适的变量和模型,通过对历史数据的拟 合验证,可以预测客户是否将出现信用违约3.评审与贷后环节对人的判断能力非常依赖4.外部环境复杂多变,系统性风险难以防范1.大部分客户财报数据不准确,是否能从公开信息变化辅助判断客 户经营是否正常2.信用违约的原因很复杂,没有足够多数据支撑模型精准预测,但 多个关联信息可以推测违约概率是否在变大3.多个环节引入并更多的客观数据可减少人为判断风险4.可以建立数字化监控体系来对系统性风险感知预警风险管理应用规划大数据风控业务规划 平台移动 信贞 应用信用
17、 风险 预警 系统运营 风险 监测 系统交易 反欺 诈系 统全面的信用风险预警服务全面的信用风险预警服务:1、多维风险视图提升决策效率2、知识图谱技术分析风险传导,提升 风险感知能力3、智能决策引擎汇聚专家智慧,降低人员要求4、信用欺诈检测有效防范道德风险客户交易风险管理客户交易风险管理:1、流处理技术实现实时欺诈风险识别2、自主学习和优化的反欺诈模型3、识别和阻断事中风险业务协作业务协作、风控前置风控前置:1、便捷采集申请信息,提升流程效率2、自动交叉验证外部数据3、减少人为判断,规避人员道德风险柜员操作风险管理柜员操作风险管理:1、智能决策引擎实时产生预警工单2、自动化风险审查作业模式3、
18、提升内审作业效率,防范道德风险行业数字地图行业数字地图:1、自动遴选、组织数据,提升规划效能2、量化分析提升授信决策效率3、感知行业趋势变化,敏捷应对系统性风险风险管理全生命期系统支持业务规划业务规划客户引入客户引入业务办理业务办理客户存续客户存续业务规划平台业务规划平台: 1.区域行业发展 趋势分析 2.行业龙头企业 动态跟踪 3.潜在客户智能 检索4.授信政策制定移动信贷应用移动信贷应用: 1.目标客户信息 采集2.贞前风险排查3.额度测算信用风险预警信用风险预警:1.企业风险视图2.简易评分卡3.风险预警信号信用风险预警信用风险预警:1.客户风险预警2.评分卡3.风险决策树4.模型与策略
19、5.信用欺诈检测 运营风险监测运营风险监测: 1.柜员操作风险 交易反欺诈交易反欺诈:1.客户交易风险信用风险预警信用风险预警:1.客户风险预警2.组合风险预警3.信用违约预测4.风险影晌分析5.风险缓释移动信贷应用移动信贷应用:贞后检查业务规划平台业务规划平台授信政策重评估风险预警系统-业务能力规划基础数据支撑服务基础数据支撑服务统一联机接口服务统一联机接口服务统一风险防控规则配置服务统一风险防控规则配置服务综合风险分析、决策支持综合风险分析、决策支持分区域行业宏观分析客户风险综合分析风险事件跟踪分析历史信息趋势分析风险演变分析风险预测及其跟踪验证分析数据价值挖掘群体信用违约预测模型要解决的
20、问题识别股权、交易、担保网络的系统性风险规避循环担保、过度授信 星化企业违约风险技术实现客户属性、信用行为、关系图谱、社区特征 复杂网络技术挖掘违约风险影晌分子 关系链图特征、客户行为特征建模模型输出关系网络可视化风险监控 高风险预警客户名单输出 授信评审阻断策略因子交易反欺诈系统覆盖全 电子渠 道实时 侦测灵活的 规则配 置站式 管理平 台风险事 件持续跟踪数据价值挖掘交易反欺诈应用流图知识图谱知识图谱异常账户识别异常用户识别戙诈团伙识别实时报警实时报警决策规则引擎更新历史数据存储历史数据存储Inceptor阻止交易阻止交易人工确认诈骗交易加标签存储知识图谱更新直接交易模型更新各渠道交易数据
21、各渠道交易数据手机银行网上银行 刷卡交易其他交易是否匹 配历史数据存储历史数据存储Inceptor人工确认可疑账户、用户、团伙实时交易事件 Y戙诈概 率N小千阔值大千阔值线下图谱建模有监督分类有监督分类深度网络集成学习无监督异常检测无监督异常检测孤立点森林表征学习可疑交易决策规则引擎决策规则引擎专家规则推理规则诈骗账户、用户、团伙实施过程的困难与挑战外部数据成本过高缺乏高度整合的公开市场数据政府、公营事业单位数据时效性差业务团队风险理念转变 高层强力支持风控流程和操作管理办法的适应调整智能技术成熟应用需要时间学术成果的转换成本、试错成本 数据科学人才缺乏、培养需要时间行业知识图谱构建缺乏业务专
22、家 外部信息源、产业标准化信息 实体逻辑关系、风控专家规则目录1平台建设背景2数仓应用体系建设3风控领域创新应用4取得成果与未来展望VS大数据平台大数据平台数据量规模数据量规模 400多多T模型处理个数模型处理个数 2300原数仓原数仓数据量规模数据量规模 6T模型处理个数模型处理个数 1500处理效率处理效率 13个小时个小时处理效率处理效率 2个小时个小时单单 个个 模模 型型 效效 率率 对对 比比 : p处理效率是指,从接入核心系统数据算起到模型数据处理完成的日终时间。 以以 存存 款款 账账 户户 表表 为为 例例 : p数据处理逻辑相近,数据星致p原数仓存款模型 -平均耗时:3小时
23、30分钟p大数据存款平台模型 -平均耗时:39分钟取得成果-提升全行数字化支撑能力创新应用助力业务发展01.32个创新应用,发布1100个业务功能02.全行2500个用户,月均使用6万余次03.335张业务可视化报表,每次支撑6000次统计分析04.月推送实时业务提醒60万条,累积推荐 潜在客户5万户全天候的风险监测体系01.实时跟踪30万行业标杆客户02.300多个信用风险预警规则,年触发风 险预警信号8000次03.各类平台贷风险服务接口23个,月均调 用5万余次04.196个运营风险监测模型,月均生成工 单4500笔实时的大数据平台能力01.13个部门集市、18个分行集市、26个应用 集
24、市管理380TB数据,日实时处理200万交易 数据02.对外发布110个服务接口,月均调用近200万次03.对接26个外部数据源,月采集企业舆情80 万条每天聚合8大行业资讯、23类市场指数、 200多份投研报告工作展望12基千Docker容器技术,建设面向多租户的大数据平台,实现更 细粒度的资源管控与调度融合行内外多样化数据,深度提炼数据价值,优化业务领域模型, 为业务线和客户提供更多场景的智能化数据服务34建立行业知识图谱技术平台,满足客户价值评估,行业风险传导 路径,重大事件影晌分析等业务需求研发面向业务团队、可定制的实时智能业务决策引擎,满足实时 营销、实时风险管理、实时交易反欺诈等多种场景需求。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。