1、大数据及在互联网金融中的运用大数据及在互联网金融中的运用 2015/10/9什么是大数据?什么是大数据?全球每秒钟发送 2.9 2.9 百万封百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 2.88 万个小时万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年每天发布 5 5 千万条千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年每天淘宝上将产生 6.3 6.3 百万笔百万笔订单每个月网民在微信上要花费7 7 千亿分钟千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB1.3EBGoogle 上每天需要
2、处理24PB 的数据什么是大数据 1 Byte=8 bit 1 KB=1024Bytes 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 1YB=1024ZB 1BB=1024YB 1NB=1024BB 1DB=1024NB什么是大数据什么是大数据什么是大数据定义: 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大规模巨大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为人类所能理解的信息 在维克托.迈尔-舍恩伯格及肯尼斯.库克耶编写的大数据时代中,大数据是指不用随机分析抽样调查
3、的方法,而采用对所有数据进行分析的方法。1. Volume1. Volume 数据量数据量2.2. VarietyVariety 多变性多变性3. value3. value 价值性价值性4. Velocity4. Velocity 时效性时效性结构化数据、半结构化数据和非结结构化数据、半结构化数据和非结构化数据构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频.,对能力提出了更高的要求沙里淘金,价值密度低沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。数据的价值“提纯”是目前亟待解决的难题实时获取需要的信息实时获取需要的信息
4、大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命什么是Big Data数据量巨大数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量大数据的特点大数据的特性大数据大数据的特性的特性 更关注价值性 主要用于预测 数据量巨大 实时性要求高移动互联网、社交网络、电子商务等极大拓展了互联网的边界和应用范围 facebook社交网络微博淘宝、ebay电子商务手机、Apps移动互联大数据是如何产生的?大数据资源百百度、阿里、腾讯为代表的互联网公司。度、阿里、腾讯为代表的互联网公司。百度作为全球最大的
5、中文搜索引擎,存储数据重量近一千个PB,今年完成的云计算中心将能存贮超4000个PB数据量。阿里约有30万台服务器存储近百PB,腾讯拥有的数据覆盖多个领域,数据存储量经压缩处理后在100PB左右,且月增数据在10%左右。其他领域如杀毒软件,电子地图,影视娱乐类互联网公司等。电信、金融、保险系统电信、金融、保险系统。大数据技术=海量数据+ 分析建模+挖掘过程大数据技术是什么?数据技术思维 大数据技术数据技术思维 大数据技术 CRISP-DM(跨行业数据挖掘标准流程)是一种业界认可的用于指导大数据分析挖掘工作的方法。 CRISP-DM认为在大数据分析中存在一个大数据分析挖掘生命周期模型。在这个生命
6、周期模型中存在着商业理解、数据理解、数据准备、建立模型、模型评估和结果部署这六个阶段。 大数据精准营销此前,淘宝为解决买卖双方退货时的运费纠纷,引入某保险公司提供退货运费险,经统计,淘宝用户运费险索赔率在50%以上。也就是说,10个淘宝用户购买运费险,5个以上将会退换货,该保险公司需要赔付,该产品对这家保险公司带来的利润只有5%左右,仅从保险公司的角度,这个产品并不是很成功。但是该公司仍然坚持在做,并且又有新的保险公司“加盟”。其秘密在于,客户购买运费险后保险公司就可以获得该客户的个人基本信息,包括手机号和银行账户信息等,并能够了解该客户购买的产品信息,从而实现精准推送。假设该客户购买并退货的
7、是婴儿奶粉尿不湿,那么保险公司就可以估计该客户家里有小孩,可以向其推荐关于儿童疾病险、教育险等相关产品,这比5%的利润更有吸引力。利用数据来分析客户的购买倾向,从而实现精准营销,其实国外的电子商务网站早已运用自如,比如亚马逊的推荐系统可以根据客户浏览信息,找到产品的相关性,并快速做出推荐。大数据应用实例精准营销大数据应用实例精准营销 大数据应用实例精准营销 (一)大数据信用体系建设 大数据技术的发展引发对互联网金融的个人和企业身份认证和信用评估的变革,除了对评估对象静态信息的分析外,更重要的是变化中的动态信息的分析挖掘,建立用户的信用评分和增信模型。比如对企业,在供应链的各个环节、如订单、库存
8、、下线、结算、付款等关键环节产生的数据进行清理建库、分析挖掘,进而建立企业的信用等级模型和算法,并根据其信用等级、成长性、未来发展预测等给予不同的信用额度。对于个人用户,除了他们注册登记的实名制静态信息外,他们在网络上的购物、支付、投资、生活、公益等数据形成上百种场景的信息流,将这些静态和动态数据结合起来,就能形成用户的行为轨迹,通过交叉检验,对用户的真实身份进行识别,进而建立信用打分模型和算法,对客户进行分类,再提供针对性服务。互联网信用体系建设对于信用风险的管理的变革有积极的意义。大数据应用信用风险管理(二)以大数据解决信息不对称的问题 以阿里金融为例,其整合了电子商务过程中所形成的各种数
9、据来进行信用分析,包括商户的历史交易数据、信用记录、客户评价等内部数据,以及纳税记录、海关记录等外部数据。这些数据比现实中发布的小微企业财务数据更加真实。阿里金融将所有这些信息进行量化,然后将数值输入网络行为评分模型,从而对小微客户进行评级分层,同时还引入在线视频资信调查模式,以及通过交叉检验技术辅以第三方验证确认客户信息的真实性,最终将客户在电子商务网络平台上的行为数据映射为企业和个人的信用评价,决定是否可以对其放贷,以及贷款的金额和利率,解决了传统金融行业对个人和小企业贷款存在的信息不对称和流程复杂的问题,并实现了良好的风险管理。大数据应用信用风险管理 阿里小贷放贷模型“水文模型”水文模型
10、就是阿里小贷2013年着重搭建的重要数据模型之一,它参考了人们日常所熟悉的水文管理,将特定时间的水位值与历史的水文数据以及周边河道的数据进行比较,就可以对水位的变化情况作出判断。将该模型应用到小微信贷中,一方面可以完善风险管理,在更详尽数据基础之上进行授信,减少特殊因素对授信判断的影响;另一方面可以通过模型进行预判,包括对小微企业自身经营的走向,以及小微企业资金需求的节点和量的判断。阿里小贷有超过上百个数据模型,覆盖贷前、贷中、贷后管理,反欺诈、市场分析、信用体系、创新研究等板块。其决策系统每天处理的数据量达10TB。数据分析用于向公司的管理决策层提供科学客观的分析结果及建议,并对业务流程提出
11、优化改进方案。大数据应用信用风险管理 2008年美国,基于大数据估计出来的个人房屋按揭信用模型并没有帮助防范席卷全球的金融危机。这是为什么呢?大数据应用大数据局限性 1.任何基于历史数据的预测模型,都假设在相同条件下,人们会做出相同的行为选择,这通常是正确的。但在模型中没有被捕获的变量(即所谓潜在变量),有可能在某时某地发生改变,从而改变人们的行为。这种影响是很难单独被传统数据抓获。而大数据的技术还也不可能产生一个系统地展现方式。当大数据中缺乏类似环境时,这种模式的变化就不甚明了。2. 预测不仅需要模型,也需要输入,比如假设:未来的利率如何变化,房价增长率如何?但是在很多时候,没有一个好办法来
12、事先判断假设的合理性。基于历史的数据,以及缺乏市场风险的传导机制的理解使得对假设的合理性缺乏判断。 大数据应用大数据局限性 1.任何基于历史数据的预测模型,都假设在相同条件下,人们会做出相同的行为选择,这通常是正确的。但在模型中没有被捕获的变量(即所谓潜在变量),有可能在某时某地发生改变,从而改变人们的行为。这种影响是很难单独被传统数据抓获。而大数据的技术还也不可能产生一个系统地展现方式。当大数据中缺乏类似环境时,这种模式的变化就不甚明了。2. 预测不仅需要模型,也需要输入,比如假设:未来的利率如何变化,房价增长率如何?但是在很多时候,没有一个好办法来事先判断假设的合理性。基于历史的数据,以及缺乏市场风险的传导机制的理解使得对假设的合理性缺乏判断。 大数据应用大数据局限性THANKS!