1、ArchSummit全球架构师峰会深圳站2020大数据驱动的金融业务创新百分点 首席架构师 未来的银行会是什么样?未来的银行会是什么样?未来的银行未来的银行全渠道柜面自助客服全业务负债资产中间智能电子互联网大数据主动个性化方便“Big Data”之之“BIG”BigBrother1984:TheBig Brother iswatchingBigGovernment政府对社会生活有政府对社会生活有深入干涉深入干涉Big Oil、BigSteel1960年代,指代行年代,指代行业中的超级企业业中的超级企业“Big Data”之之“BIG”大数据是信息化技术的自然延伸,它让我们从另外一种角度认识世界
2、IT时代业务数据生成和存储业务IT系统自动化现实业务DT时代业务IT系统智能化大数据数据化现实世界可穿戴设备 可穿戴设备甚至可植入设备将越来越多的出现在现实生活中 攻壳机动队(Ghost InThe Shell)信息化建设 全社会的信息化程度越来越高,越来越多的业务需要计算机应用,用户与这些应用交互产生大量数据EugeneGoostman信息诈骗人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类人类要学会从比特流中解读他人,更要教会机器从比特流中理解人类个性化推荐个性化医疗RTB智能客服信息网络 无处不在的网络将人和设备连接在一起,认识人、与人沟通的方法将发生本质性的变化大数据时代需
3、要将大数据时代需要将“人人”数据化:数据化:“用户画像用户画像”Big Data=无处不在的数据无处不在的数据理论用户画像感性认识用户画像感性认识身长八尺,面如冠玉,头戴纶巾,身披鹤氅,飘飘然有神仙之概像目标用户画方式组织标准验证用户画像的几个方面用户画像的几个方面描述人、认识人、了解人、理解人 非形式化手段:文字、语音、图像、视频 形式化手段结构化、非结构化常识、共识、知识体系 依据:事实、推理过程 检验大数据大数据+洞察洞察大数据用户画像:定义大数据用户画像:定义用户画像是对现实世界中用户画像是对现实世界中用户用户的的数学建模数学建模用户画像是描述用户的数据数据,是符合特定业务需求特定业务
4、需求的对用户的形式化形式化描述源于现实,高于现实源于现实,高于现实用户画像是通过分析挖掘分析挖掘用户尽可能多的数据信息数据信息得到的源于数据,高于数据源于数据,高于数据大数据用户画像:构建原则大数据用户画像:构建原则用户画像形式化业务知识体系本体本体Wiki:本体是一种形式化的、对于共享概念体系的明确而又详细的说明本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达本体和知识表示本体和知识表示本体实例类个体元素个体的
5、集合关系函数公理类之间的相互作用一种特殊的关系永真断言本体通常采用谓词逻辑作为描述语言(符号表示、形式化表现)朴素的知识表示方法:标签朴素的知识表示方法:标签-模型模型模模 型型经验总结的用户特征经验总结的用户特征标标 签签用户特征的符号表现用户特征的符号表现现现 实实业务涉及的用户特征业务涉及的用户特征用户画像可以用用户画像可以用标签的集合标签的集合来表示来表示化整为零化整为零每个标签都规定了我们观察、认识和描述用户的一个角度化零为整化零为整用户画像是一个整体,各个维度不孤立,标签之间有联系大数据用户画像:大数据用户画像:“标签体系标签体系”方法方法标签是某一种用户特征的标签是某一种用户特征
6、的符号符号表示表示标签体系标签体系用户画像是特征空间中的用户画像是特征空间中的高维向量高维向量化整为零化整为零每个标签都是特征空间中的基向量化零为整化零为整基向量之间有关联,不一定是正交的用户画像和标签的数学描述用户画像和标签的数学描述标签是特征空间中的标签是特征空间中的维度维度特征空间特征空间大数据用户画像:验证大数据用户画像:验证用户画像是对现实世界中用户的用户画像是对现实世界中用户的数学建模数学建模模型是否反应了现实模型是否反应了现实现实是否在模型中体现现实是否在模型中体现逻辑:可靠性机器学习:准确率索:查准率搜逻辑:完全性机器学习:召回率索:查全率搜标签(体系)准不准?标签(体系)准不
7、准?标签(体系)全不全?标签(体系)全不全?大数据用户画像:验证大数据用户画像:验证用户画像是对现实世界中用户的用户画像是对现实世界中用户的数学建模数学建模模型是否反应了现实模型是否反应了现实现实是否在模型中体现现实是否在模型中体现逻辑:可靠性机器学习:准确率搜 索:查准率逻辑:完全性机器学习:召回率搜 索:查全率标签(体系)准不准?标签(体系)准不准?标签(体系)全不全?标签(体系)全不全?无法同时满足无法同时满足大数据用户画像:验证大数据用户画像:验证用户画像是对现实世界中用户的用户画像是对现实世界中用户的数学建模数学建模模型是否反应了现实模型是否反应了现实现实是否在模型中体现现实是否在模
8、型中体现逻辑:可靠性机器学习:准确率搜 索:查准率逻辑:完全性机器学习:召回率搜 索:查全率标签(体系)准不准?标签(体系)准不准?标签(体系)全不全?标签(体系)全不全?无法同时满足无法同时满足大数据用户画像:准确性验证大数据用户画像:准确性验证有事实标准有事实标准数据+学习,可以验证结果 训练集+测试集例示 高、富 家住北京无事实标准无事实标准假设+实现,只能验证过程计算过程是否合乎逻辑例示好人内心强大实践检验实践检验证伪主义试错、A/B Test、数据闭环、自我完善实践数字化洞察数字化洞察风险防范风险防范网点布局网点布局优化设计优化设计网点定位和网点定位和功能规划功能规划运营管理运营管理
9、客户访问客户访问 网点服务网点服务流量预测流量预测 优化改进优化改进柜台资源柜台资源配置优化配置优化.营销活动营销活动策划与支持策划与支持差异化广告差异化广告投放与推广投放与推广跨渠道跨渠道精准营销精准营销搜索引擎搜索引擎关键词优化关键词优化社会关系社会关系营销营销.客户客户微观画像微观画像渠道交互渠道交互分析与支持分析与支持高净值潜在高净值潜在客户挖掘客户挖掘数字化渠道数字化渠道客户体验客户体验设计优化设计优化多维度多维度客户细分客户细分.休眠客户休眠客户唤醒唤醒跨界跨界产品研发产品研发客户流失客户流失预测预测数字化创新数字化创新产品产品优化改进优化改进.申请过线率申请过线率提升提升实时实时
10、反欺诈反欺诈客户信用客户信用风险评价风险评价客户客户个性化定价个性化定价押品价值押品价值自动评估自动评估.电子银行部分行个人金融部信用卡中心分行产品管理部门渠道管理部门运营管理部分行风险管理部授信审批部信用卡中心应用部门应用部门个人金融部以客户为中心的数字化战略以客户为中心的数字化战略数字化营销数字化营销大大数数据据底底层层平平台台科技部/信息中心大数据时代的金融应用框架:银行版大数据时代的金融应用框架:银行版人口统计学 姓名 身份证号 手机号.生活信息用户基本生活类标签 用水、用电 天然气使用信息.位置信息 家庭、单位地址 一般生活半径 日常打车路径 航空航班记录自定义信息不同属性的自定义标
11、签 白领 高收入人群.生活关联关系 家庭关系 是否有子女 同事关系 朋友关系 社区生活圈子.金融关联关系用户在本行的业务关联 资金关联 雇佣关联 买卖关联 担保关系.社交网络关联关系用户社交网络图谱 粉丝数量 是否加V 微信朋友圈 社交网络影响力.金融产品偏好用户在我行的产品偏好 产品持有比例 产品持有金额.非金融产品偏好用户的兴趣爱好 喜欢高尔夫 经常看财经类新闻.行内渠道偏好用户对我行渠道使用 手机银行使用频率 微信银行使用习惯.行外渠道偏好用户全网渠道偏好 上网习惯 上网时长.用户自身价值用户自身的价值 是否有车 车的品牌型号 是否有房 房的大小、位置 年收入区间 是否企业高管 是否他行
12、VIP.用户对我行贡献用户在我行的金融资产、交易为我行带来的贡献EVA客户综合价值钱包份额综合成本业务紧密度业务支持度.近期需求信息客户近期的需求(包含金融+非金融)近期是否准备结婚 近期是否生小孩 近期是否换工作 近期是否出行 近期是否想买理财.营销活动信息用户对营销活动、以及我行各类产品服务的关系忠诚度用户满意度用户流失概率营销活动接受程度营销活动活跃度.用户风险评价从行内、行外不同的维度对用户的风险进行评价 人行征信评分 百分点征信评分 信用风险等级 洗钱风险等级 综合授信额度 信贷违约记录 拖欠缴费记录 还款能力 违约概率.黑名单信息信用卡逾期黑名单小贷逾期黑名单欠费用户名单保险骗保用
13、户名单最高法失信人名单公安欺诈名单.事事实实标标签签模模型型标标签签预预测测标标签签第一维:业务层次划分第一维:业务层次划分第第二二维维:标标签签应应用用深深度度金融业用户画像体系:银行版金融业用户画像体系:银行版支持应用场景支持应用场景用户基本属性用户基本属性 用户关联关系用户关联关系 用户兴趣偏好用户兴趣偏好 用户价值信息用户价值信息 用户风险信息用户风险信息 用户营销信息用户营销信息统一的产品类目和属性体系统一的产品类目和属性体系产品数据集成第三方数据数据源数据采集数据管理统一的用户画像标签体系统一的用户画像标签体系社区论坛2.用户全渠道ID识别用户数据集成3.信息整合4.分析建模5.用
14、户画像企业网站移动App1.数据清洗媒体数据接口数据接口证券服务类应用服务类应用银行分析类应用分析类应用保险营销类应用营销类应用金融行业用户数据接口和应用3.类别识别4.品牌识别5.属性识别6.产品画像1.数据清洗2.文本建模用户画像应用逻辑架构用户画像应用逻辑架构APIWebserviceT+0互联网渠道类系统门户网站手机银行微信银行数据交换系统数据源系统数据源系统数据类系统信用卡核心交易系统信用卡风险关联系统数据中转系统数据中转系统大数据平台大数据平台信用卡中心大数据平台数据应用系统数据应用系统通知类系统短信平台电子邮件营销类系统网上银行手机银行数据仓库OCRM系统ACRM系统第三方数据微
15、信银行-分析类系统数据文件T+1大数据技术大数据管理大数据应用日志文件T+1采集实时接口数据文件实时工具外联应用网关实时OLAP系统报表系统数据类系统数据集市数据仓库数据集成和应用架构数据集成和应用架构构建用户画像关键难题构建用户画像关键难题精准描述精准描述用户特征用户特征多渠道产品多渠道产品信息打通信息打通用户数据用户数据挖掘建模挖掘建模用户多渠道用户多渠道信息打通信息打通实时采集实时采集用户数据用户数据官网商城第三方电商第三方线下渠道体验店/销售专员客服论坛社区微信微博智能产品用户标识会员标识邮箱银行卡邮箱支付宝用户名邮箱手机固话序列号手机固话序列号用户名邮箱手机固话Cookie微信ID用
16、户名邮箱固话序列号MACIMEI手机固话手机固话手机固话序列号手机固话旺旺序列号手机固话用户名Cookie微信IDCookie微信ID微信ID微信IDCookie微信ID微博ID微信ID微信ID手机一定能得到的标识有可能得到的标识企业用户触点举例企业用户触点举例用户A用户B用户C用户全渠道用户全渠道ID打通打通图图 中中 有三类ID ID间有相互联系 相互联系的ID反映出它们很有可能代表同一个用户低密级业务低密级业务 可以仅使用多重ID中的任意一个 最大程度打通,跨平台一致体验高密级业务高密级业务 使用特定ID,或者多种ID的组合 保证数据的准确和安全.客户基本信息客户收入支出信息客户历史交易
17、客户资金往来客户风险等级.事实事实标签标签用户画像标签用户画像标签原始原始数据数据预测预测标签标签模型模型标签标签人口属性资金往来趋势账户历史趋势产品购买次数渠道使用频率投诉次数.人口属性消费能力人群属性违约概率用户流失概率用户近期需求.人口属性产品购买偏好用户关联关系.模型预测模型预测用户价值 用户兴趣爱好渠道使用偏好 用户活跃度用户满意度 用户风险评分建模分析建模分析统计分析统计分析客户持有产品客户渠道使用使用模型使用模型/算法算法预测算法.时间序列 SVR 逻辑回归 产品扩散模型 分层贝叶斯 定价模型 动态模型 CLV模型 流失预警模型 RFM模型机器学习 特征提取建模 EM 特征选择建
18、模 Bagging 预测优化模型 AdaBoost推荐算法 SlopeOne Content-based Apriori NBI二部图 FPTree Heat Diffusion Hybrid CF SVD矩阵分解相似度计算 欧氏距离 皮尔逊相似度 Jaccard相似度 LSH局部敏感哈希 余弦相似度分类、聚类算法 KNN 贝叶斯网络 神经网络 SVM支持向量机文本挖掘算法 TF-IDF TextRank VSM TopicModel CRF条件随机场.LDA产出用户画像标签产出用户画像标签用户性别标签产出流程示例用户性别标签产出流程示例采集用户采集用户互联网行为互联网行为用户采样用户采样页面
19、标签页面标签抽取抽取用户标签用户标签扩散扩散用户行为用户行为建模建模用户行为用户行为建模建模用户标签用户标签生成规则生成规则用户标签用户标签生成规则生成规则应用应用案例:客户流失预警应用案例:客户流失预警模型框架模型框架客户基础数据客户基础数据客户账户客户账户数据变化数据变化记录记录客户业务客户业务变化情况变化情况数据数据客户属性客户属性数据数据流失预警模型流失预警模型现有客户现有客户流失关键指标流失关键指标历史数据历史数据特征函数特征函数选取选取流失预警流失预警模型建立模型建立生成客户生成客户流失概率流失概率流失客户挽回流失客户挽回客户经理对客户经理对可能流失客可能流失客户进行挽回户进行挽回
20、生成可能生成可能流失客户流失客户名单名单根据业务根据业务实际情况实际情况调整阀值调整阀值应用案例:客户流失预警应用案例:客户流失预警分析结果分析结果性别(男)年龄年龄2金卡普通卡钻石卡机关团购支付类型消费天数0.078-0.0670.001-0.3240.310-2.671-0.454-0.110-0.3851.0810.9361.0010.7241.3630.0450.0080.0000.3050.2321.721-8.3766.529-1.0601.3340.069 314.600 -0.0080.635 0.346 -1.3140.896 0.036 -3.0120.680 0.020
21、-19.3260.0850.0000.0000.2890.1820.9930.1890.0030.000Coefexp(coef)se(coef)zPr(丨z丨)男性流失的概率是女性的1.8倍。年龄和流失概率间呈现U型关系,两端易流失。普通卡流失概率白金卡流失概率。金卡、钻石卡、机构团购卡流 失概率白金卡流失概率,应注意白金卡客户的维护。支付类型和流失概率间存在显著负相关系。通过模型可选择易流失群体进行维护,例如:年轻男性白金卡持有者。流失分析流失分析建立一系列可能影响用户流失的指标建模分析导致用户流失的原因应用案例:客户流失预警应用案例:客户流失预警模型应用模型应用流失预警流失预警对高流失概
22、率人群进行标识和提醒结合用户价值筛选出应重点维护的易流失人群休眠用户唤醒休眠用户唤醒对休眠用户进行识别通过营销、促销手段唤醒休眠用户找到高价值潜在客户找到高价值潜在客户 找到精准营销切入点找到精准营销切入点 营销方案制定与执行营销方案制定与执行数据准备与匹配数据准备与匹配数据准备探索性数据分析特征变量选择目标客户选择目标客户分类制定营销方案营销方案执行营销效果分析历史用户指标分析数据匹配样本客户选择用户行为分析引子:高价值潜在客户挖掘引子:高价值潜在客户挖掘(出国金融出国金融)业务目标业务目标通过大数据分析,找到存量客户中潜在的出国金融产品客户(高价值客户),达到潜在客户转化为真正客群的目的。
23、解决方案解决方案找到高价值潜在客户找到高价值潜在客户 找到精准营销切入点找到精准营销切入点 营销方案制定与执行营销方案制定与执行数据准备与匹配数据准备与匹配的客户与百分点数据进行匹配,得到公共用户;2.剔除公共用户媒体关注类标签过少的用户;3.将剩余用户作为分析基础。1.将A银行北京分行 1.选择出国留学类金融产品进行分析;2.对A银行北京分行从2013年6月至2014年6月进行出国金融客户通过生存分析模型,发现91%的客户在申请学校之前就已是A行客户;3.需要在用户申请学校之前先联系到客户。对出国留学金融客户群进行分析,发现:1.出国前6-10个月,出国金融客户较为关注经常逛留学社区论坛;2
24、.出国前3-6个月,出国金融客户的注意力会偏向签证、机票等。1.进一步对客户群进行洞察和细分,了解同类用户的需求和关注重点;学校所在目的地国家,2.与业务人员讨论,确定营销短名单营销短名单,以定制短信广告和柜面人工询问(短名单提前收工录入)的方式进行营销。引子:高价值潜在客户挖掘引子:高价值潜在客户挖掘(出国金融出国金融)解决方案解决方案基于全网海量异构的用户数据,采用基于全网海量异构的用户数据,采用统计(统计(SUMSUM、TopTop N N、)、算法()、算法(ARAR、PageRankPageRank、)、)、建模(建模(CLVCLV、RFMRFM、CoxCox)等方法,生成用户标签及标签值)等方法,生成用户标签及标签值用户标签层次用户标签层次用户数据用户数据商品(内容)数据商品(内容)数据人口属性人群属性消费能力消费意图预测预测模型模型用户价值人口属性活跃度人群属性忠诚度消费能力影响力 消费偏好 上网偏好事实事实人口属性会员信息购物行为上网行为原始原始网站行为会员信息消费行为DSP行为产品手中网站受众产品定价商品画像类目模型标签模型商品信息类目信息 标签信息HTML分类信息商品信息模型预测模型预测建建模模统计分析统计分析模型预测模型预测文本分析文本分析建建模模