1、大数据大数据不仅仅是不仅仅是第七次信息革命第七次信息革命!From 谢仲文谢仲文134什么是大数据精彩案例大数据可以做什么contents2大数据的背后推手引言引言第一次第一次信息革命信息革命第二次第二次信息革命信息革命第三次第三次信息革命信息革命第四次第四次信息革命信息革命第五次第五次信息革命信息革命第六次第六次信息革命信息革命语言的创造语言的创造猿人信息得以交流和传递文字文字的的出现出现信息可以被储存在文字中进行传播,解决了语言的时间和空间的局限性印刷术的发明印刷术的发明扩大了信息的交流、传递的容量和范围无线电的发明无线电的发明电磁波传播信息,速度增长几十亿倍电视电视的的出现出现声音、图片
2、影像、文字实现同时远距离实时传播(摘自人民出版社大数据领导干部读本)计算机与互联网的使用计算机与互联网的使用突破了人类大脑及感觉器官加工利用信息的能力,人类进入信息社会时代引言引言第七次信息革命第七次信息革命?现在我们正经历着一场信息革命信息革命。这不是在技术上、机器设备上、软件上或速度上的一场革命,而是一场“概念”上的革命。以往50年信息技术的重点在“技术”上,目的在于提升信息传播范围、传播能力和传播效率。而新的信息革命的重点将会在“信息”上。彼得德鲁克 21世纪的管理挑战一、什么是大数据?0103什么是大数据大数据的特点02大数据的地位第一个吃螃蟹公司:亚马逊成立于1995年,一开始只是个
3、网上书店;最早借助“购书评论”这一数据提升销售业绩,并成功转型、跨界。现在已成为全球商品品种最多的网上零售商、全球第二大互联网企业、全球最大的云计算服务提供商。2017年2月,Brand Finance发布2017年度全球500强品牌榜单,亚马逊排名第三。1.1.什么是大什么是大数据数据1.1.什么是大什么是大数据数据IDC 将大数据定义为4个V:Volume、Velocity、Variety、Value大数据不仅仅是“大的数据”。21世纪前10年 阿里巴巴CTO王坚认为,大数据的重点是在线。在线数据,由数以亿计的公民记者(citizen journalist,指互联网上参与式报道的普通民众)
4、收集、组织、发布,又被无数的用户阅读、传播和反馈,其形式包括数值、文本、图像、视频等多种多样。社交媒体的产生,数据开始呈现爆炸式的增长,大数据的提法开始进入大众的视野并获得了越来越多的关注。2.2.大大数据数据的特点的特点在线2.2.大大数据数据的特点的特点类型多75%网络日志、音频、视频、图片、地理位置信息社交媒体中产生的数据25%“1、2、3、4”等传统数字以及符号非结构化数据非结构化数据结构化数据2.2.大大数据数据的特点的特点容量大 美国的国会图书馆美国的国会图书馆50005000 百度每天处理数据量百度每天处理数据量根据IDC(国际数据公司)的监测统计,2011年全球数据总量已经达到
5、1.8ZB,而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍,相当于我们地球上所有海滩沙粒总数的57倍。截至2010年,人类拥有的信息总量大概是1.2Z1.2Z存储数据量最大的图书馆之一。2011年4月,拥有235TB的数据一首歌4M10241024一部电影1G1024一图书馆藏书1T1024谷歌每小时处理1P13亿中国人人手1本500页书的信息量总和=1E1024吉(吉(G G)兆(兆(M M)太(太(T T)拍(拍(P P)艾(艾(E E)泽(泽(Z Z)约为5000个美国图书馆总和2.2.大大数据数据的特点的特点 数据产生得快数据产生得
6、快一台大型粒子对撞机里共有1.51.5亿个传感器亿个传感器每秒钟发生粒子对撞6 6亿次亿次仅仅使用十万分之一一年积累25PB25PB的数据1TB1TB的硬盘2500025000个个剔除剔除99.999%99.999%数据处理速度快数据处理速度快大数据通过云计算,以上数据储存仅需2020分钟分钟共计1PB,速度1G/s,还剩144小时已完成50%存取速度快2.2.大大数据数据的特点的特点应用价值大大数据之“大”,其实并不在于其表面的“大容量”,而在于其潜在的“大价值”。如果不能把拥有的数据转化为价值,那么拥有再多的数据也是毫无意义的。个人位置大数据服务80008000亿美元亿美元的市场规模麦肯锡
7、研究院对美国的测算零售业大数据帮助企业增加60%60%的利润制造业大数据降低50%50%的产品开发制造装配成本2.2.大大数据数据的特点的特点具备大智能更加智能的社会传感器、可穿戴式设备等微小的计算设备将进一步普及“万物皆互联、无处不计算万物皆互联、无处不计算”实时收集数据确保安全行驶谷歌无人驾驶汽车 农耕时代最重要的资源是土地 工业时代最重要的资源是石油 信息时代最重要的资源是?数据数据数据3.3.大大数据数据的地位的地位 很多做语音识别的公司,技术上相当,属于同一代技术。大公司都在做语音识别,包括Google、微软在内。科大讯飞凭什么笑傲中文语音识别?一个重要的原因是:数据 数据数据 科大
8、讯飞拥有最多的中文语音数据!3.3.大大数据数据的地位:一个例子的地位:一个例子同一代技术123保存数据的能力在增强处理数据的能力在增强生产数据的能力在增强二、大数据的 背后推手1.1.随着存储器硬件能力的提升,人类保存数据的能力在增强随着存储器硬件能力的提升,人类保存数据的能力在增强世界上第一款硬盘IBM商用硬盘存储器一兆字节的存储量需要60006000多美元多美元19551955年年20102010年年一兆字节的存储量仅需要0.0050.005美分美分20202020年年1T硬盘=一杯咖啡的钱=一个图书馆的全部信息2.2.随着物联网技术的发展,机器生产数据的能力在增强随着物联网技术的发展,
9、机器生产数据的能力在增强机器产生的数据机器产生的数据传感器传感器感知和运输不断生产的数据移动设备收集了大量的用户数据2.2.随着互联网经济的发展,人类生产数据的能力在增强随着互联网经济的发展,人类生产数据的能力在增强人创造的数据人创造的数据社交媒体及互联网经济的发展移动设备收集了大量的用户数据记录各自的活动和行为留下支付行为、空间位置、兴趣爱好、信用历史等发微博发微博 写微信写微信网上购物网上购物每个网民每个网民都是数据的生产者都是数据的生产者在线数据的积累,受益于互联网的飞速发展。互联网基础设施(包括TCP/IP协议、http协议、超链接等)是在线数据积累的基础。人类在互联网上的一切活动,都
10、被这些互联网基础设施忠实地记录下来,因此在线数据不但快速积累,而且更加客观。在线数据的客观性表现在,人们只要在互联网上,无论浏览、点击、评论,都会产生一系列上网者都没有注意到的在线数据。2.2.人类生产数据的能力在增强,而且会被自动记录下来人类生产数据的能力在增强,而且会被自动记录下来3.3.随着云计算的诞生与发展,人类处理数据的能力在增强随着云计算的诞生与发展,人类处理数据的能力在增强A 大数据大数据B 云计算云计算 云计算一般由数量惊人的计算机群数量惊人的计算机群构成,谷歌云计算拥有的服务器超过100100万台万台;云计算系统是一个极其庞大的资源池子,用户可以随时、随地、按需灵活地购买,就
11、像购买煤气和自来水一样便利;云计算让普通人体验每秒10万亿次的运算能力。而如此强大的计算能力,可以模拟核爆炸、预测气候变化和市场发展趋势。三、大数据可以做什么?0103大数据可以发现规律大数据可以应对变化02大数据是跨界的推动力 这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。是什么让沃尔玛发现了尿布和啤酒之间的关系呢?正是商家通过对超市一年多交易的大数据进行详细的分析,才发现了这对神奇的组合。1.1.大数据可
12、以发现规律大数据可以发现规律 人生如棋,棋如人生!世界上唯一不变的就是变化!。从棋盘盘面可能出现的形状来看:围棋由181枚黑子和180枚白子组成,棋盘由纵横19道线形成的361个交叉点组成。每一个点都可能处出现下黑子、下白子或空着不摆子三种情况。那么,361个交叉点,就有3的361次方变化的可能。从一盘棋下棋开始的每一步的变化则是:棋盘由纵横19道线形成的361个交叉点组成,第一步可以下的有361个点,第二步则是360个点可以选择,这样理论上就是361360359358357321个变化的可能。2.2.大数据可以应对变化(在狭小的领域内)大数据可以应对变化(在狭小的领域内)未来所有汽车,每个部
13、件都是联网的,在你撞车那一秒,京东就已知道哪个部件必须更换、哪个部件只需维修。撞车那一刻,京东的理赔就已经到位;你还没把车拖到4s店,京东就已经把需要更换的配件全部送达。车险欺诈很严重,很多利润被4S店剥走,配件价格不透明。遍布全国的京东12万快递员,未来既送快递,还担起保险员,无论是上门服务还是现场勘探定损,都极其恐怖!这是一个跨界打劫你,却无力反击的时代!这是一个你醒来太慢,就不用再醒来的时代!3.3.大数据是跨界的推动力大数据是跨界的推动力1234大数据让政府治理更精准透明大数据让公共服务更智慧大数据让金融投资更理性大数据让经济治理更有效 四、精彩案例1.1.大数据让政府治理更精准透明大
14、数据让政府治理更精准透明设计人员编入流感关键词,如温度计、流感症状、肌肉疼痛、胸闷等只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图预测出世界上不同国家和地区的流感传播情况2009年,甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并非常及时,令公共卫生官员备感震惊。而传统上,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。谷歌流感趋势谷歌流感趋势谷歌工程师认为,搜索流感信息的人数与实际患病人数之间存在密切关联。谷歌一周疫情报告2.2.大数据让经济治理更有效大数据让经济治理更有效支付宝“芝麻信用”“
15、芝麻信用分”,授权开通后,每个支付宝用户都可以看到自己的芝麻信用分。分数越高代表信用程度越好,违约可能性越低。天猫淘宝淘宝电影水费电费工商学历学籍公安内部内部数据数据外部外部数据数据支付宝网购相关行为数据政府已经开放的外部数据芝麻信用分高芝麻信用分低租车、住酒店无押金签证无需财产证明找不到工作租不到房子贷不到款3.3.大数据让公共服务更智慧大数据让公共服务更智慧高德导航高德公司基于位置服务大数据的能力,与乌镇、古北水镇两家旅游公司合作,上线了全国首个“智慧景区”服务,解决游客在景区容易遇到的迷路、拥堵、排队等问题。地图渲染高德在地图上增加高德在地图上增加游览车、游船的游览车、游船的线路地址,增
16、加了线路地址,增加了重要景点的渲染图重要景点的渲染图分类筛选商店、卫生间商店、卫生间餐厅、灯景区餐厅、灯景区重要地点信息重要地点信息一目了然一目了然导游语音当当游客走到某个游客走到某个对应景点附近,对应景点附近,导游语音会导游语音会自动自动播放播放智慧景区引入热力图,游客引入热力图,游客可以可以看到看到该处游客该处游客人数的多少,合理人数的多少,合理安排游览时间安排游览时间4.4.大数据让大数据让金融投资金融投资更更理性理性量化投资量化投资是指通过数量化方式及计算机程序化发出买卖指令,以获取稳定收益为目的的交易方式。作为一个概念,量化投资并不算新,国内投资者早有耳闻。但真正的量化基金在国内还比
17、较罕见。同时,机器学习的发展也对量化投资起了促进作用。量化选股利用数量化的方法选利用数量化的方法选择股票组合,期望该择股票组合,期望该股票组合能够获得超股票组合能够获得超越基准收益率的投资越基准收益率的投资行为这也是机构投资行为这也是机构投资者最普遍采用的策略。者最普遍采用的策略。量化择时利用数据来判断利用数据来判断大势的走势情况,大势的走势情况,是上涨还是下跌是上涨还是下跌或者是盘整。或者是盘整。高频交易从那些人们无法利从那些人们无法利用的极为短暂的市用的极为短暂的市场变化中寻求获利场变化中寻求获利的计算机化交易。的计算机化交易。算法交易利用电子平台,输入利用电子平台,输入涉及算法的指令,以涉及算法的指令,以执行预先设定好的交执行预先设定好的交易策略。由易策略。由“机器人机器人”发起指令,而无需人发起指令,而无需人工干预。工干预。