1、 基于大数据技术的互联网征信 葛伟平 2015年6月7日拉卡拉联合四大上市公司共同组建 央行首批授权的个人征信机构 同时持有企业征信和个人征信牌照的征信机构 拉卡拉跨行还款转账数据生活服务数据POS交易数据电商数据理财数据小贷数据拓尔思股票代码:300229中国互联网行为数据挖掘领先企业,拥有中国最强的大数据技术及舆情分析数据旋极信息股票代码:300324中国两家营改增服务商之一,拥有企业税务类服务数据蓝色光标股票代码:300068全球第六大传播集团,是大数据营销的代表企业梅泰诺股票代码:300038三大通讯运营商服务数据及全国企业工商服务数据考拉征信公司互联网征信特点基于云大物移智技术,提供
2、互联网征信需要的大数据存储、计算能力、建模平台和访问便利性纳入一切能够反映能力或意愿的数据:信用类数据为主体购物、理财、缴费等数据社交关系位置数据用户上传/提供的有效数据互联网信息以经验为主的专家评分卡转换到以大数据为主的全量数据分析 高频、秒级的信 用评分评级响应互联网征信本质仍然是征信,互联网是渠道和工具!趣味大数据分析记性最差的星座(最容易忘记还钱,贡献了不少额外利息):射手最抠门的星座(最后一天的最后一刻还钱,不愿给利息):双子最土豪的星座(12星座中借钱最少):天秤存在的挑战:数据资源 数据的碎片化 数据的稀缺性 数据的精细化 数据的理解度 数据的高成本存在的挑战:大数据处理 大数据
3、采集 大数据存储 大数据计算考拉征信应对:数据资源引入股东数据提供支撑借助外部合作数据积极牵头或参与制定数据标准和互换数据与中科院合作成立实验室制定模型知识图谱考拉征信应对:数据资源组建数据抓取团队考拉征信应对:大数据处理传统数据平台、Hadoop平台和NoSQL数据平台的结合传统平台存储评分结果离线式计算基于Hadoop分布式处理环境Hive平台R结合Hadoop用于大数据统计分析快速的大量数据勘察基于Impala,从小时级缩减到秒级NoSQL处理社交关系考拉征信应对:大数据处理图数据库在社交关系/朋友圈模式应用可视化效果找到显性特征、显著变量通过“弱关系”找到与征信业务的“强关联”考拉征信
4、模型技术框架考拉个人信用分考拉商户信用分互联网金融行业征信产品信用评分引擎 数据理解模型组合和模型部署 变量选择样本准备模型设计变量处理数据分析模型训练参数调整模型验证模型跟踪与反馈征信产品征信建模ETL数据接口平台(清洗、转换、脱敏)传统数据平台Hadoop数据平台(Hive仓库)数据采集拉卡拉业务数据其他股东数据互联网抓取数据公开数据外部合作单位数据贫困人口征信数据(待接入)数据标准管理数据质量管理数据安全管理NoSQL数据平台考拉职业信用分考拉模型训练数据到最终模型的递进式过程:就业务细节业务特征理解听取业务专家的定性叙述数据异常值处理、聚集处理、数据规范化进行数据的违约关系分析对变量进
5、行变换分组分析对最终选择变量进行建模运用多种模型技术和算法进行训练测试结合可解释性、预测精准性及训练成本权衡后选择适用算法或组合子模型和通用基础子模型组合考拉征信模型的KS值处于合理稳定范围考拉信用分值分布考拉个人信用分特点:上亿数量级客户缴费、理财、购物类信息金融社交关系和位置信息互联网信息考拉商户信用分信用记录商户及法人的过往信用记录及信用账户历史记录等履约能力综合能力体现,尤其指经营能力交易行为交易行为特征、互联网舆情信息等成长能力发展规模和速度能力企业属性基本信息,经营范围、注册资金等经营稳定经营波动状况考拉商户信用分特点:真实、整合、实时的商户运营情况成长能力画像,反映变化交易行为特征和互联网信息现状:中国有1千万以上小微商户传统财务指标无法有效核实小微商户信用状况小微商户贷款难考拉信用分考拉信用分信贷旅游保险租车租房婚介商户促销理财餐饮酒店考拉信用分应用:信用价值的体现谢谢!