1、南方基金新数据中心介绍数据组小组职责数据组小组职责l 数据组的主要工作 规划建设数据中心平台项目,通过数据中心分期分阶段项目建设,规范统一数据采集清洗,实现统一的数据模型存储,制定主数据和元数据管理的方法和步骤,实现公司ODS/EDW数据仓库;通过数据交换平台、数据总线服务为业务和系统提供标准化的数据接口和服务,为业务提供高可用、准实时的数据服务支持;同时进行数据应用项目开发建设,对数据进行商务智能分析;利用大数据技术工具对客户精准化营销、产品开发提供大数据技术支持。l 数据组职责 数据中心平台项目规划建设 数据标准与质量管理 数据需求与服务支持 数据应用与智能分析 大数据相关研究2数据中心平
2、台项目规划建设数据中心平台项目规划建设l 一期实现数据中心数据仓库基础平台,完成营销数据中心CRM的数据采集、清洗与模型转换,实现客户、产品、销售渠道等主数据管理;l 构建数据交换平台与服务总线,制定向外系统提供数据的接口和服务标准,实现对电商后台数据的高可用性、准实时性数据服务支持;l 规划二期、三期数据中心平台项目内容,制定数据中心平台发展路线图,将数据中心作为公司数据统一存储管理的财富仓库,进而提供高可用的数据服务,支持和推动业务发展。3目录目录l 1、新数据中心大数据平台l 2、现阶段建设实施情况l 3、客户主数据及常态化指标l 4、后续可提供的数据服务4TDH大数据平台介绍5TDH的
3、产品特性l Inceptor完整的SQL支持 99%的SQL 2003支持,唯一支持PL/SQL的引擎(98%),唯一支持ACID分布式事务的SQL引擎;l Spark:高效内存/SSD计算 支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。l 大数据挖掘:完整的分布式机器学习算法库 支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用。l 流处理:健壮和功能丰富的流处理框架 支持真正的Exactly Once语义、支持所有组件的高可用(HA
4、)、支持流式SQL和流式机器学习67数据中心:大数据平台组成8角色用途角色用途开发环境开发环境生产环境生产环境主机名主机名主机名主机名TDH大大数据平台数据平台10.71.21.9510.81.48.10NEWDC-TDH-01管理、数据存储10.71.21.9610.81.48.11NEWDC-TDH-02管理、数据存储10.71.21.9710.81.48.12NEWDC-TDH-03数据存储10.71.21.9810.81.48.13NEWDC-TDH-04数据存储任务调度及采集任务调度及采集10.71.21.9410.81.48.2521NEWDC-ETL-01Control-M任务调
5、度10.71.21.9410.81.48.2722NEWDC-ETL-02采集及数据下载交换Oracle RAC10.71.21.8010.81.48.15NEWDC-ORACLE-01客户主数据及前置库10.71.21.8010.81.48.16NEWDC-ORACLE-02客户主数据及前置库Web中间件中间件10.71.21.8010.81.48.23NEWDC-WEB-01数据服务及HTTPTDH大数据存储与计算平台、数据采集及任务调度平台、客户主数据统一账户管理系统、web应用及微服务。大数据平台架构l TDH大数据存储与计算平台:由4台高性能机器(Node1、Node2、Node3、
6、Node4)构成,承担公司统一的数据存储和数据管理;现在已经扩至8个存储计算节点,配置4个Inceptor Server一个节点运行4个excutor。l 数据采集及任务调度平台:配备任务调度及采集服务器各一台(Informatica Server、Control-M Server),进行核心生产系统数据采集及任务调度;l 统一账户管理系统:实现客户主数据管理,数据库服务器两台(Oracle RAC Server1、Oracle RAC Server2)组成Oracle RAC高可用数据管理方案,支持客户主数据管理及数据服务结果数据库,Web中间件服务器一台(Web Server)支持客户主数
7、据管理应用及对外数据服务。9大数据平台网络拓扑10新数据中心建设背景及总体目标新数据中心建设背景及总体目标l 项目实施周期:2016年12月-2017年6月 电商业务系统:数据查询计算服务 CRM、报表中心:数据采集效率、性能出现瓶颈 客服、呼叫中心:数据一致性、准确性及常态化指标的落地 营销、投研数据中心:统一技术架构及规范服务要求l 总体目标:建设公司级数据中心数据仓库,统一数据技术架构,构建企业统一数据模型,实现对数据的统一管理和服务。在对公司数据实现数据统一存储和管理基础上,对各应用系统提供统一的数据服务;进行客户和产品的数据挖掘分析,并借助于大数据技术和工具实现对客户精准营销和产品开
8、发,支持电商和投研等业务的大数据应用。11一期建设目标一期建设目标l 功能性要求 数据中心一期主要完成数据仓库基础平台;实现面向客户营销数据统一采集、清洗处理和规整入库;加强客户、产品、销售渠道等主数据管理;客户盈亏收益类常态化指标计算与落地;优化现有营销数据中心数据采集、清洗和处理过程;规范基础源数据、数据中心规整数据与业务系统数据接口之间的数据服务和实时准实时的数据交互过程;采用新的技术架构和方案支持电商7*24小时数据服务。l 非功能性要求 数据容量空间:80-100t,目前已经规划120T的空间。采集时间和效率:缩减至半个小时到1个小时以内 响应时间:达到毫秒级12主要数据来源:TA、
9、电商直销l TATA数据源数据源:包括自建包括自建TATA、LOFTALOFTA、ETFTAETFTA、现金通、现金通TATA、电商、电商直销直销 数据内容涉及:数据内容涉及:客户基本信息、基金产品数据、销售机构数据、账号数据(基金账号维表、交易账号维表)、账户申请和确认数据、交易申请和确认数据、份额流水数据、静态份额数据、基金行情数据、日期数据、费率信息、销售服务费收入数据、字典表备注:子公司TA客户、产品、账户、交易、申请、确认及份额流水数据13主要数据来源:FA、FMDCl FAFA数据源:包括年金数据源:包括年金FAFA、社保、社保FAFA、专户、专户FAFA、QDFAQDFA 数据内
10、容涉及:数据内容涉及:基金产品基本信息,包括母基金和分级基金、管理费和销售服务费、托管费信息采集凭证表和估值表(估值2.5升级到4.5后各项费用以视图形式直接提供)l FMDCFMDC数据源:数据源:投资交易数据中心投资交易数据中心 数据内容涉及:数据内容涉及:公司所有基金的基金基本信息公司所有基金的基金当日资产和当日份额、前日资产和前日份额、以及份额变换、混合和股票型基金的基金头寸信息14主要数据来源:OA、CRMl OAOA数据来源数据来源 数据内容涉及:数据内容涉及:基金产品基本信息,包括分类、类型、母基金和子基金关系数据、基金经理信息财务数据:包括公司预算的所有数据,例如科目、预算、预
11、算发生和调整员工基本信息数据:包括姓名、身份证号、部门l CRMCRM数据来源数据来源 数据内容涉及:数据内容涉及:客户数据、基金产品数据,主要涉及到产品分类和一些标签等15一期需求概览 主数据 客户、产品、渠道 常态化指标及标签 数据接口 电商、CRM、客服 营销数据基础模型 统一账户管理平台 数据仓库基础平台 数据查询集市服务业务类:技术类:客户主数据客户唯一标记:参与者类型+姓名+证件类型+证件号码关键信息:关键信息:参与者类型、证件类型、证件号码、姓名、经办人证件类型、经办人证件号码、经办人姓名联系信息:联系信息:移动电话,联系电话,联系地址,单位电话,邮证编码,电子邮箱,传真号码清洗
12、清洗关键关键字段字段:证件号码,移动电话,联系电话,联系地址,单位电话,邮证编码,电子邮箱,性别,生日,传真号码,单位名称,经办人证件类型,经办人证件号码,经办人姓名客户主数据参与者类型参与者类型英文名称登记标准证件号码参与者姓名参与者简称参与者英文名称性别出生日期婚姻状况学历行业,预留职业国籍城市联系地址联系电话移动电话备用移动电话联系方式联系方式类型单位名称工作单位电话邮政编码传真号码微信号QQ号码电子邮箱职位,预留年收入客户等级客户类型首次进入时间经办人姓名经办人证件类型经办人证件号码经办人证件有效期参与者绑定方式对账单寄送标志企业性质公司网址工商登记号注册地址注册日期注册资本法人姓名总
13、经理深交所股东账号沪交所股东账号组织机构代码发证机关参与者身份鉴别类型原始身份鉴别信息鉴别信息生效日期鉴别信息失效日期经纪人是否开通客服失效日期常规密码连续认证失败次数是否开通网上交易登陆成功次数常规密码最后修改时间直代销标志常规密码最后一次登录时间数字密码连续认证失败次数数字密码数字密码最后修改时间变动数据备注产品主数据产品主数据当前以TA的数据为准,特有属性从其他系统补充主数据字段信息如下:字段名称产品代码最高募集份额基金性质运作状态超额申购比例业绩报酬支付方式描述产品名称最低募集份额是否为ETF基金基金状态超额申购_部分确认财顾费说明产品简称产品成立日期是否显示累计净值行情公布方式强赎标
14、志风险准备金计提比例产品全称成立份额规模是否QDII行情公布频率赎回费归基金资产比例管理费计提比例描述英文名称成立净值规模是否指数基金净值精度转换费归基金资产比例托管费计提比例描述英文简称合同备案日期是否量化产品封闭期描述追加认购/申购单位金额销售服务费率描述英文全称合同生效日期(成立日期)是否保本开放日描述认购费率描述其他费率描述支持的份额类型首次开放日期是否参与定增产品简介申购费率描述业绩报酬计提方式默认的分红方式基金成立确认比例是否为资产证券化业务存续期起始日赎回费率描述业绩报酬支付方式初始销售份额面值募集失败日期是否投资单一股票存续期截止日转托管费率描述管理费计提方式发行价格单一客户最
15、低认购金额是否投资衍生品TA代码销售服务费率描述管理费支付方式存续期限单一客户最高认购金额是否挂牌转让清盘日期转换费率描述托管费计提方式管理人单一客户最低申购金额是否存在特殊交易发行日期拟代销规模描述托管费支付方式托管人单一客户最高申购金额是否投资衍生品募集结束日期份额过低期限投资范围描述销售模式单一客户最低赎回份额是否转债基金基金认购期限基金封闭期限投资策略描述收益分配模式单一客户最高赎回份额是否参与打新认购模式最低开户数量投资目标描述收益分配原则描述单一客户最低持有份额是否分级基金发行方式客户过少期限投资限制描述比较基准赎回款到账天数业绩报酬说明认购利息处理方式最低资产要求止赢线信息披露或
16、报告要求巨额赎回比例业绩报酬计提方式描述最小认购单位委托人数量上限止赢线触及处置措施最高募集金额确认天数预警线最低募集金额默认赎回顺序预警线触及处置措施止损线止损线触及处置措施渠道主数据渠道主数据当前以TA的数据为准,属性字段如下:一期主要是完成电商渠道拆分销售渠道代理键TA代码销售机构代码销售商代码销售机构名称组织代理键销售渠道;EC-电子商务,FI-机构理财,DS-直销,SA-代销销售商名称销售机构类型,BNK-银行,SCT-券商,DS-直销,3SALE-第三方销售销售商全称自助渠道;Y-自助渠道,N-非自助渠道总部地址Y-邮编或其他虚拟网点/N-非虚拟网点邮政编码所属行政区划代理键销售商
17、联系人是否为第三方合作渠道;Y/N销售商联系电话渠道状态;1-有效,0-失效销售商传真号码一级渠道名称销售商EMail二级渠道名称销售商银行代码三级渠道名称销售商银行帐号四级渠道名称银行户名五级渠道名称销售商登记日期六级渠道名称TA签约销售商状态省分行代码销售商类型地区代码是否支持份额明细网点代码赎回清算天数工行网点号;8位网点号,其他机构为空值申购清算天数账号预分配分红清算天数当前确认序号认购计息天数对账方式是否支持份额类别认购款到账日期方式认购申购最大折扣是否支持多交易账号支持单步转托管入接口配置版本基金转换确认方式接口模式赎回转换最大折扣常态化指标及标签分类原则:优先级高:基础交易,保有
18、类指标;盈亏;客户状态优先级中:基础客户标签;优先级低:统计类客户标签;报表中心:自定义查询时点类;二期需求:当前算法不明确类总数:92常态化指标调整数据接口总数:111一期各阶段及二期实施内容一期各阶段及二期实施内容24OracleTAOracleFAMy SQLOASQL Server营销主题数据营销主题数据OracleBPMOracleSAP BO报表中心报表中心SQL Server呼叫中心呼叫中心My SQL电商电商APP、网上交易、网上交易Oracle投研应用投研应用ETL贴源转换Oracle投研主题数据投研主题数据EDW:数据平台企业数据模型ODS推数SQL Server电商接口数
19、据电商接口数据基于微服务框架的数据服务系统注册发布服务请求认证结果返回推数推数统一采集统一计算统一推数主数据:客户、产品元数据:系统、业务OLAPOLTPOracle风控应用风控应用DM统一平台技术架构统一平台技术架构 数仓环境 采集调度 推数管控 接口服务项目一期:第一阶段项目一期:第一阶段第二阶段第二阶段项目二期项目二期CRM数据治理数据治理一阶段重点解决的问题一阶段重点解决的问题25OracleTAOracleFAMy SQLOASQL Server营销营销CRM数据中心数据中心OracleBPMOracleSAP BO报表中心报表中心SQL Server呼叫中心呼叫中心My SQL电商
20、电商APP、网上交易、网上交易Oracle投研平台投研平台ETL查询服务贴源转换Oracle投研数据中心投研数据中心电商数据服务问题电商数据服务问题:1)查询计算效率:请求响应处理时间;2)事务操作:增删改操作,资源锁情况;3)时效性:7*24小时在线实时服务支持;营销营销CRM问题:问题:1)数据采集:每日4个TA数据采集3-5小时,串行处理模式;2)接口支持:电商、客服等对数据的需求支持,开放库表,数据直连;3)主数据管理:目前没有统一的管控规则,需要确定客户、产品等主数据以谁为主,以及相应的更新维护策略;报表中心问题:报表中心问题:1)数据采集:与营销CRM数据采集重复,数据不一致;2)
21、主数据:上游系统数据变更影响到报表输出的数据错误;3)历史表的清理:缺少一个有效的管控,增加维护迁移成本;一阶段实施后的价值提升一阶段实施后的价值提升26OracleTAOracleTAOracleTAOracleTAETFLOF现金通自建SQL ServerCRMAm.2hPm.2h晚.3h晚.4-5h采集处理大于10hOracleTAOracleTAOracleTAOracleTAETFLOF现金通自建大数据平台数据仓库Am.20mPm.20m晚.30m晚.40m采集处理1-2h实施前实施前实施后实施后串下执行采集任务借助于大数据工具技术,并行执行采集任务串下执行My SQL电商电商APP
22、、网上交易、网上交易7*24服务SQL Server电商接口数据电商接口数据1、采集效率提高、采集效率提高2、电商独立分库电商独立分库3、避免资源锁情况发生避免资源锁情况发生SQL Server营销主题数据营销主题数据CRMOracleSAP BO报表中心报表中心OracleSAP BO报表中心报表中心4、营销数据源采集统一营销数据源采集统一5、主数据一致性主数据一致性目前的运行时间效率情况系统名称系统名称开始开始时间时间总耗时总耗时结束时间结束时间增量数据增量数据下载时间下载时间 ORACLEHSTAT+1 23:001:310:305-7g0:153-4小时KDTAT+1 0:001:29
23、1:308-9g0:30N/ALOFTAT+1 15:001:0916:102-3g0:102小时ETFTAT+1 21:000:5322:001g0:101小时DC指标T+1 2:001:474:0015-23gDC接口T+1 4:000:455:00272070万客户,算客户的基础盈亏银华跑了40分钟,现在只要5分钟。大多数基于产品、客户的资产规模保有收益都在10分钟左右跑完。数据三层应用架构数据三层应用架构28OracleTAOracleFAMy SQLOASQL ServerCRMOracleBPMEDW:数据平台企业数据模型ODS数据仓库OracleSAP BO报表中心报表中心SQL
24、 Server呼叫中心呼叫中心My SQL电商电商APPOracle网上交易网上交易基于微服务框架的数据服务ETLETL单双交互接口服务业务展示应用基础管理系统统一数据中心主数据源:客户、账户、产品、资产等数据产生统一采集统一清洗统一归并统一模型统一存储统一分类查询汇总关系管理报表展示贴源转换营销主题投研主题财务主题ETL数据集市后续工作l 客户标签l 直销渠道拆分l 代销渠道拆分l 管理费分摊l 定投主题统计分析l 客户行为数据落库l 29开发运维情况l 自有人员4人+2人 数据采集+调度:2人 后台过程开发:2人 前台接口开发:1人 项目管理协调:1人 平台运维:1人l 实施厂商6-8人l 产品厂商1-2人30