1、1提纲提纲大数据所带来的机遇和挑战大数据所带来的机遇和挑战大数据的概念及技术大数据的概念及技术大数据时代的思维和变革大数据时代的思维和变革大数据在企业中的应用案例大数据在企业中的应用案例2 每天有每天有2940亿封电子邮件发生,如果这些是纸质信件,亿封电子邮件发生,如果这些是纸质信件,在美国需要花费两年时间处理。在美国需要花费两年时间处理。每天有每天有200万篇博客在网上发布,这些文章相当于万篇博客在网上发布,这些文章相当于时代时代杂志刊发杂志刊发770年的总量。年的总量。每天有每天有2.5亿张照片上传至社交网站亿张照片上传至社交网站Facebook,如果都,如果都打印出来,摞在一起能有打印出
2、来,摞在一起能有80个埃菲尔铁塔那么高。个埃菲尔铁塔那么高。每天有每天有86.4万小时视频被上传至视频网站万小时视频被上传至视频网站Youtube,相,相当于不间断播放视频当于不间断播放视频98年。年。每天有每天有1.87亿个小时的音乐会在流媒体音乐网站亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放。这些音乐会,到现在还没完没了地接着放。3一天之间,互联网上要发生多少事一天之间,互联网上要发生多少事45 地球上至今总共的数据量:地球上至今总共的数据量:在在2006年,个人用户才刚
3、刚迈年,个人用户才刚刚迈进进TB时代,全球一共新产生了时代,全球一共新产生了约约180EB的数据;的数据;在在2011年,这个数字达到了年,这个数字达到了1.8ZB。而有市场研究机构预测:而有市场研究机构预测:到到2020年,整个世界的数据总年,整个世界的数据总量将会增长量将会增长44倍,达到倍,达到35.2ZB(1ZB=10亿亿TB)!)!6“大数据大数据”时代的爆炸增长时代的爆炸增长想驾驭这庞大的数想驾驭这庞大的数据,我们必须了解据,我们必须了解大数据的特征。大数据的特征。20082008年年9 9月月4 4日日自然自然杂志社,推出的名为杂志社,推出的名为“大大数据数据”的专刊,创造出了的
4、专刊,创造出了“大数据大数据”这个概念。这个概念。“大数据大数据”的诞生的诞生7p 美国疾病控制中心要在流感暴美国疾病控制中心要在流感暴发两周后才知道发两周后才知道p 谷歌的大数据预测只需要一天谷歌的大数据预测只需要一天“谷歌流感趋势谷歌流感趋势”把大数据推上风口浪尖把大数据推上风口浪尖8大数据(大数据(big databig data),巨量数据集合),巨量数据集合是指无法在一定时间内用传统数据库软件工具是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。对其内容进行抓取、管理和处理的数据集合。什么是什么是“大数据大数据”?9“大数据大数据”特征特征10Hadoo
5、pHadoop是基于是基于GoogleGoogle有关大数据的论文实现的开源项目,最初的框架有关大数据的论文实现的开源项目,最初的框架由由Doug CuttingDoug Cutting在在20052005年提出,目前是由年提出,目前是由ApacheApache维护的开源项目。从初创维护的开源项目。从初创到现在,到现在,HadoopHadoop体系在几年中开发完成了一系列重要的子项目,已经形成体系在几年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位
6、最重要、应用最广泛的开源框架。为大数据存储与处理领域地位最重要、应用最广泛的开源框架。大数据存放在哪?如何分析?大数据存放在哪?如何分析?11HadoopHadoop是运行在大量通用计算单位上提供海量数据存储与是运行在大量通用计算单位上提供海量数据存储与并行计算的平台框架。并行计算的平台框架。p基于基于X86X86集群水平可扩展集群水平可扩展p基于基于MapReduceMapReduce的并行计算能力的并行计算能力p设计规模:设计规模:PBPB级的数据量,数千台计算节点级的数据量,数千台计算节点大数据存放在哪?如何分析?大数据存放在哪?如何分析?12提纲提纲大数据所带来的机遇和挑战大数据所带来
7、的机遇和挑战大数据的概念及技术大数据的概念及技术大数据时代的思维和变革大数据时代的思维和变革大数据在企业中的应用案例大数据在企业中的应用案例13量化思维量化思维一切皆可量化一切皆可量化决策思维决策思维让数据驱动让数据驱动全样思维全样思维样本样本=总体总体关联思维关联思维追求相关关系追求相关关系14大数据思维大数据思维 Stephen Beck 每一天,我们的身后都拖着一条由个每一天,我们的身后都拖着一条由个人信息组成的长长的人信息组成的长长的“尾巴尾巴”,这只,这只是因为我们生活在一个现代化的世界是因为我们生活在一个现代化的世界。我们。我们 点击网页点击网页 切换电视频道切换电视频道 驾车穿过
8、自动收费站驾车穿过自动收费站 用信用卡购物用信用卡购物 使用手机使用手机 而雅虎、而雅虎、Google这样的公司,正在这样的公司,正在以平均每人、每月以平均每人、每月2500条信息的速条信息的速度,捕获我们的详细数据。度,捕获我们的详细数据。151.1.量化思维:一切皆可量化量化思维:一切皆可量化 数据是指存储在某种介质上能够识别的物理符号,数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述。是对客观事物性质和状态的描述。先有数据再说应用。先有数据再说应用。16数据,从最不可能的地方提取数据,从最不可能的地方提取 量化坐姿量化坐姿 日本先进工业技术研究所(日本先进工业技术
9、研究所(Japans Advanced Institute of Industrial Technology)的教授越)的教授越水重水重 臣(臣(Shigeomi Koshimizu)所做的研究就)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐是关于一个人的坐姿。很少有人会认为一个人的坐姿能姿能 表现什么信息,但是它真的可以。当一个人坐表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量着的时候,他的身形、姿势和重量分布都可以量 化化和数据化。越水重臣和他的工程师团队通过在汽车和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共座椅下部安装总共3
10、60个压力传感器以测量个压力传感器以测量 人对椅人对椅子施加压力的方式。把人体屁股特征转化成了数据子施加压力的方式。把人体屁股特征转化成了数据,并且用从,并且用从0256这个数值范围对其进这个数值范围对其进 行量化,行量化,这样就会产生独属于每个乘坐者的精确数据资料。这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达差异识别出乘坐者的身份,准确率高达98%。17数据,从最不可能的地方提取数据,从最不可能的地方提取 这项技术可以这项技术可以作为汽车防盗系统作为汽车防盗系统安装在汽车
11、上。有了这个安装在汽车上。有了这个系统之后,系统之后,汽车就能识别出驾驶者是不是车主;如果不汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准是,系统就会要求司机输入密码;如果司机无法准 确输确输入密码,汽车就会自动熄火。入密码,汽车就会自动熄火。通过汇集这些数据,我们可以利用事故发生之通过汇集这些数据,我们可以利用事故发生之 前的姿势前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的同样可以在司机疲劳驾驶的 时候发出警示或者自动刹车。时候发出警示或者自动刹车。同时,这个系统不但可
12、以发现车辆被盗,而且可以通过收同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的集到的 数据识别出盗贼的身份。数据识别出盗贼的身份。18数据,从最不可能的地方提取数据,从最不可能的地方提取 苹果在苹果在2008年申请的年申请的“耳机、耳塞耳机、耳塞或耳麦的运动检测系统或耳麦的运动检测系统”专利。专利。这种包含各种传感器的耳机可以检测这种包含各种传感器的耳机可以检测各项生理指标,包括体温、心率和排各项生理指标,包括体温、心率和排汗水平。汗水平。根据专利文件,健身检测系统被隐藏根据专利文件,健身检测系统被隐藏在耳机中,用户通常在运动时戴着耳在耳机中,用户通常在运动时戴着耳机听音乐。通过将耳机
13、放在耳朵里或机听音乐。通过将耳机放在耳朵里或附近,嵌入的运动传感器可以获得体附近,嵌入的运动传感器可以获得体温、排汗和心率方面的数据。除了基温、排汗和心率方面的数据。除了基于皮肤的检测功能,耳机内部还可以于皮肤的检测功能,耳机内部还可以集成加速度传感器,这样可以收集准集成加速度传感器,这样可以收集准确的运动数据。确的运动数据。19数据,从最不可能的地方提取数据,从最不可能的地方提取202.2.决策思维:让数据驱动决策思维:让数据驱动 2015年的年的3月月15日,马云在德国的汉诺威日,马云在德国的汉诺威IT博览博览会上的主题演讲:会上的主题演讲:“一家互联网公司要想活得长久,必须找到一个一家互
14、联网公司要想活得长久,必须找到一个方式让互联网经济和实体经济相结合,这个方式方式让互联网经济和实体经济相结合,这个方式就是数据。就是数据。”“未来的世界,我们将不再由石油驱动,而是由未来的世界,我们将不再由石油驱动,而是由数据驱动。数据驱动。”21未来的世界由数据驱动未来的世界由数据驱动22数据驱动的工业数据驱动的工业4.04.023数据驱动的人生数据驱动的人生243.3.要全部数据,不要抽样!要全部数据,不要抽样!模型不再那么重要,让数据说话。模型不再那么重要,让数据说话。在小数据时代,随机采样就是利用最少的数据获在小数据时代,随机采样就是利用最少的数据获得更多的信息。而且采样分析的精确性随
15、着采样得更多的信息。而且采样分析的精确性随着采样随机性的增加而大幅度的增加,与样本数量的增随机性的增加而大幅度的增加,与样本数量的增加关系不大。加关系不大。在大数据时代,随着收集数据的便捷性,以及数在大数据时代,随着收集数据的便捷性,以及数据处理速度加快,我们可以分析到更多的数据,据处理速度加快,我们可以分析到更多的数据,甚至是可以处理和某个特别现象相关的所有数据甚至是可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。,而不是依赖于随机采样。2011年发布的年发布的lytro相相机就是一款具有机就是一款具有“大大数据数据”的相机。传统的相机。传统的相机只可以记录一的相机只可以记录一束
16、光的不同,而束光的不同,而lytro相机可以收录这个光相机可以收录这个光场所有的光,达到场所有的光,达到1100万束左右。具体万束左右。具体生成什么样的照片则生成什么样的照片则可以在拍摄之后再根可以在拍摄之后再根据需要做决定。据需要做决定。25利用所有数据,而不是一小部分采样数据利用所有数据,而不是一小部分采样数据 因为大数据是建立在掌握所有数据,至少是尽因为大数据是建立在掌握所有数据,至少是尽可能多的数据基础上,所以我们就可以正确的可能多的数据基础上,所以我们就可以正确的考察细节并进行新的分析。生活中真正有趣的考察细节并进行新的分析。生活中真正有趣的事情经常隐匿在细节之中,而采样分析法却无事
17、情经常隐匿在细节之中,而采样分析法却无法捕捉到这些细节。法捕捉到这些细节。26利用所有数据,而不是一小部分采样数据利用所有数据,而不是一小部分采样数据274.4.“关联关联”思维思维 强调数据之间的关联也很有用,而不去追强调数据之间的关联也很有用,而不去追求数据之间的因果关系。求数据之间的因果关系。因果关系是最深刻的一类联系,但是我们因果关系是最深刻的一类联系,但是我们很多时候并不能获得。很多时候并不能获得。28是什么,而不是为什么是什么,而不是为什么 相关关系通过识别有用的关联物来帮助我们分析相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过提示其内部的动作机制。一个现象,而不是
18、通过提示其内部的动作机制。但相关关系没有绝对,只有可能。但相关关系没有绝对,只有可能。蛋挞与飓风用品蛋挞与飓风用品 沃尔玛是世界上最大的零售商,掌握了大量的零售数据沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。在靠近飓风用品的位置,以方便顾客。观察的范围包括:每一个顾客购物清
19、单以及消费额、购物观察的范围包括:每一个顾客购物清单以及消费额、购物篮中的物品、具体的购买时间甚至是购买当日的天气。篮中的物品、具体的购买时间甚至是购买当日的天气。29是什么,而不是为什么是什么,而不是为什么 在以前人们需要有了想法,然后再去收集数据去在以前人们需要有了想法,然后再去收集数据去测试这个想法的可行性。而现在我们有了更多测试这个想法的可行性。而现在我们有了更多 的的数据以及更好的工具之后,要找到相关关系就变数据以及更好的工具之后,要找到相关关系就变得更快,更容易了。得更快,更容易了。大多数据情况下,一旦我们完成了对大数据的相大多数据情况下,一旦我们完成了对大数据的相关分析,而又不再
20、满足于仅仅知道关分析,而又不再满足于仅仅知道“是什么是什么”时时,我们就会继续向更深层研究因果关系,找出背,我们就会继续向更深层研究因果关系,找出背后的后的“为什么为什么”。提纲提纲大数据所带来的机遇和挑战大数据所带来的机遇和挑战大数据的概念及技术大数据的概念及技术大数据时代的思维和变革大数据时代的思维和变革大数据在企业中的应用案例大数据在企业中的应用案例30大数据在企业中的应用之一大数据在企业中的应用之一 预测预测3132大数据提升预测准确性大数据提升预测准确性33世界杯大数据预测火了百度世界杯大数据预测火了百度34百度如何做到百度如何做到通过爬虫等方法取得通过爬虫等方法取得35百度预测百度
21、预测大数据在企业中的应用之二大数据在企业中的应用之二 营销营销:精准营销、整合营销、联合营销精准营销、整合营销、联合营销 363738电商巨头阿里大数据生态圈已经建立电商巨头阿里大数据生态圈已经建立39零售业零售业ZARAZARA通过大数据创造独特竞争力通过大数据创造独特竞争力40零售业零售业ZARAZARA通过大数据创造独特竞争力通过大数据创造独特竞争力41传统制造企业耐克公司大数据战略传统制造企业耐克公司大数据战略l 耐克凭借一种名为耐克凭借一种名为Nike+的新产的新产品变身为大数据营销的创新公司。品变身为大数据营销的创新公司。所谓所谓Nike+,是一种以,是一种以“Nike跑鞋跑鞋或腕
22、带或腕带+传感器传感器”的产品,只要运的产品,只要运动者穿着动者穿着Nike+的跑鞋运动,的跑鞋运动,iPod就可以存储并显示运动日期,时就可以存储并显示运动日期,时间、距离、热量消耗值等数据。间、距离、热量消耗值等数据。用户上传数据到耐克社区,就能用户上传数据到耐克社区,就能和同好分享讨论。和同好分享讨论。l 凭借运动者上传的数据,耐克公凭借运动者上传的数据,耐克公司已经成功建立了全球最大的运司已经成功建立了全球最大的运动网上社区,超过动网上社区,超过1000万活跃的万活跃的用户,每天不停地上传数据,耐用户,每天不停地上传数据,耐克借此与消费者建立前所未有的克借此与消费者建立前所未有的牢固关
23、系。牢固关系。42大数据能为大数据能为NikeNike带来什么带来什么Nike+:硬件、软件、社区的大平台:硬件、软件、社区的大平台 43大数据带给大数据带给NikeNike的是利润的是利润大数据在企业中的应用之三大数据在企业中的应用之三 智慧城市智慧城市4445什么是智慧城市什么是智慧城市 由商业公司由商业公司IBM在在2010年提出概念:年提出概念:城市由六个核心系统组成:组织(人)、业务城市由六个核心系统组成:组织(人)、业务/政务、交通、通政务、交通、通讯、水和能源。这些系统不是零散的,而是以一种协作方式相讯、水和能源。这些系统不是零散的,而是以一种协作方式相互衔接。而城市本身,则是由
24、这些系统所组成的宏观系统互衔接。而城市本身,则是由这些系统所组成的宏观系统。“智慧城市智慧城市”的建设是个系统工程的建设是个系统工程 将集成整个城市所涉及的社会综合管理与公共服务资源,通过将集成整个城市所涉及的社会综合管理与公共服务资源,通过物联化、互联化、智能化方式,促进各种城市功能彼此协调运物联化、互联化、智能化方式,促进各种城市功能彼此协调运作,以实现更全面的互联互通、更深入的智能化作,以实现更全面的互联互通、更深入的智能化。无真正意义上的智慧城市范例可供参考无真正意义上的智慧城市范例可供参考 但智能化、便捷的生活方式是可以预想的构成要素。但智能化、便捷的生活方式是可以预想的构成要素。最
25、终让每个普通市民的日常生活因此受惠,提升生活品质。最终让每个普通市民的日常生活因此受惠,提升生活品质。46智慧城市的发展状况智慧城市的发展状况 我国智慧城市建设从我国智慧城市建设从2012年第一批试点开始,目前年第一批试点开始,目前已有已有290个市县区列入智慧城市试点,还有一些没个市县区列入智慧城市试点,还有一些没被列入试点的城市也开始建设智慧城市。据不完全被列入试点的城市也开始建设智慧城市。据不完全统计,在我国已有统计,在我国已有500多个城市进行了智慧城市建多个城市进行了智慧城市建设。设。银川虽然是第二批列入智慧城市试点的城市,但银银川虽然是第二批列入智慧城市试点的城市,但银川与中兴通讯
26、合作,紧抓时代机遇,迅速落地并成川与中兴通讯合作,紧抓时代机遇,迅速落地并成为全国首个高标准、全功能的智慧城市样板为全国首个高标准、全功能的智慧城市样板。目前,智慧银川已经与乌镇互联网、贵阳大数据并目前,智慧银川已经与乌镇互联网、贵阳大数据并列为我国信息领域里产政结合三大热点之一。列为我国信息领域里产政结合三大热点之一。47银川银川 截至目前,银川已部署智能快递柜、智能垃圾桶、截至目前,银川已部署智能快递柜、智能垃圾桶、免费免费WIFI、人脸识别门禁、大气与噪音监测系统、人脸识别门禁、大气与噪音监测系统、直饮水改造、智慧医疗系统等、直饮水改造、智慧医疗系统等11项智能化设备配项智能化设备配套的
27、小区数量达到套的小区数量达到20个,预期到今年年底数量将增个,预期到今年年底数量将增加到加到100个以上。个以上。同时,在智慧城市建设上,银川在智慧政务、智慧同时,在智慧城市建设上,银川在智慧政务、智慧交通、智慧环保等交通、智慧环保等10大重点领域大重点领域13个模块建设上独个模块建设上独显特色,形成了可复制、可推广的智慧城市显特色,形成了可复制、可推广的智慧城市“银川银川模式模式”。48智慧城市实例智慧城市实例无锡大数据中心无锡大数据中心49智慧城市实例智慧城市实例无锡大数据中心无锡大数据中心50智慧城市实例智慧城市实例无锡大数据中心无锡大数据中心大数据在企业中的应用之四大数据在企业中的应用
28、之四 中国移动大数据中国移动大数据5152中国移动的大数据中国移动的大数据53内部的应用之精准营销内部的应用之精准营销54内部的应用之洞察客户内部的应用之洞察客户55对外部的应用对外部的应用 景点舒适指数据预测景点舒适指数据预测 根据位置信令来分析景区用户数量,帮助旅根据位置信令来分析景区用户数量,帮助旅游景区了解游客来源、分布等信息游景区了解游客来源、分布等信息 客流量分析客流量分析 帮助一些大的零售商分析顾客来源和各商铺帮助一些大的零售商分析顾客来源和各商铺、展位的人流情况。、展位的人流情况。56北京市旅游局景点舒适度预报北京市旅游局景点舒适度预报提纲提纲大数据所带来的机遇和挑战大数据所带
29、来的机遇和挑战大数据的概念及技术大数据的概念及技术大数据时代的思维和变革大数据时代的思维和变革大数据在企业中的应用案例大数据在企业中的应用案例5758大数据时代的机遇和挑战大数据时代的机遇和挑战59大数据技术促进国家和社会发展大数据技术促进国家和社会发展 当前,我国正处在全面建成小康社会征程中,工业化、信当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同
30、步发展体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。须重新认识数据的重要价值。60大数据蓝海成为企业竞争的新焦点大数据蓝海成为企业竞争的新焦点 大数据所能带来的巨大商大数据所能带来的巨大商业价值,被认为将引领一业价值,被认为将引领一场足以与场足以与20世纪计算机革世纪计算机革命匹敌的巨大变革。大数命匹敌的巨大变革。大数据正在对每个领域都造成据正在对每个领域都造成影响,
31、包括商业、经济等影响,包括商业、经济等领域。大数据正在保重新领域。大数据正在保重新的蓝海,催生新的经济增的蓝海,催生新的经济增长点,正在成为企业竞争长点,正在成为企业竞争的新焦点。的新焦点。61大数据时代呼唤新型人才大数据时代呼唤新型人才 盖特纳咨询公司预测大数据将盖特纳咨询公司预测大数据将为全球带来为全球带来440万个万个IT新岗位新岗位和上千万个非和上千万个非IT岗位。麦肯锡岗位。麦肯锡公司预测美国到公司预测美国到2018年需要深年需要深度数据分析人才度数据分析人才44万万-49万,万,缺口缺口14万万-19万;需要既熟悉万;需要既熟悉本单位需求又了解大数据技术本单位需求又了解大数据技术与
32、应用的管理者与应用的管理者150万,这方万,这方面的人才缺口更大。中国是人面的人才缺口更大。中国是人才大国,但能理解与应用大数才大国,但能理解与应用大数据创新人才更是稀缺资源。据创新人才更是稀缺资源。大数据时代的新的就业大数据时代的新的就业岗位:岗位:l大数据分析师大数据分析师l数据管理专家数据管理专家l大数据算法工程师大数据算法工程师l数据产品经理数据产品经理l等等62挑战一:业务部门没有清晰的大数据需求挑战一:业务部门没有清晰的大数据需求 很多企业业务部门不了解大数据,也不了解大数据的应用很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以提出大数据的准确需求。由于业务场
33、景和价值,因此难以提出大数据的准确需求。由于业务部门需求不清晰,大数据部门又是非盈利部门,企业决策部门需求不清晰,大数据部门又是非盈利部门,企业决策层担心投入比较多的成本,导致了很多企业在搭建大数据层担心投入比较多的成本,导致了很多企业在搭建大数据部门时犹豫不决,或者很多企业都处于观望尝试的态度,部门时犹豫不决,或者很多企业都处于观望尝试的态度,从根本上影响了企业在大数据方向的发展,也阻碍了企业从根本上影响了企业在大数据方向的发展,也阻碍了企业积累和挖掘自身的数据资产,甚至由于数据没有应用场景积累和挖掘自身的数据资产,甚至由于数据没有应用场景,删除很多有价值历史数据,导致企业数据资产流失。因,
34、删除很多有价值历史数据,导致企业数据资产流失。因此,这方面需要大数据从业者和专家一起,推动和分享大此,这方面需要大数据从业者和专家一起,推动和分享大数据应用场景,让更多的业务人员了解大数据的价值。数据应用场景,让更多的业务人员了解大数据的价值。63挑战二:企业内部数据孤岛严重挑战二:企业内部数据孤岛严重 企业启动大数据最重要的挑战是数据的碎片化。在很多企企业启动大数据最重要的挑战是数据的碎片化。在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也这些数据存在不同的数据仓库中,不同部门的数据
35、技术也有可能不一样,这导致企业内部自己的数据都没法打通。有可能不一样,这导致企业内部自己的数据都没法打通。如果不打通这些数据,大数据的价值则非常难挖掘。大数如果不打通这些数据,大数据的价值则非常难挖掘。大数据需要不同数据的关联和整合才能更好的发挥理解客户和据需要不同数据的关联和整合才能更好的发挥理解客户和理解业务的优势。如何将不同部门的数据打通,并且实现理解业务的优势。如何将不同部门的数据打通,并且实现技术和工具共享,才能更好的发挥企业大数据的价值。技术和工具共享,才能更好的发挥企业大数据的价值。64挑战三:数据可用性低,数据质量差挑战三:数据可用性低,数据质量差 很多中型以及大型企业,每时每
36、刻也都在产生大量的数据很多中型以及大型企业,每时每刻也都在产生大量的数据,但很多企业在大数据的预处理阶段很不重视,导致数据,但很多企业在大数据的预处理阶段很不重视,导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的数据类型,对数据进行清洗和去噪,以提化为方便处理的数据类型,对数据进行清洗和去噪,以提取有效的数据等操作。甚至很多企业在数据的上报就出现取有效的数据等操作。甚至很多企业在数据的上报就出现很多不规范不合理的情况。以上种种原因,导致企业的数很多不规范不合理的情况。以上种种原因,导致企业的数据的可用性差,数据质量差,数
37、据不准确。而大数据的意据的可用性差,数据质量差,数据不准确。而大数据的意义不仅仅是要收集规模庞大的数据信息,还有对收集到的义不仅仅是要收集规模庞大的数据信息,还有对收集到的数据进行很好的预处理处理,才有可能让数据分析和数据数据进行很好的预处理处理,才有可能让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息。挖掘人员从可用性高的大数据中提取有价值的信息。Sybase的数据表明,高质量的数据的数据应用可以显著的数据表明,高质量的数据的数据应用可以显著提升企业的商业表现,数据可用性提高提升企业的商业表现,数据可用性提高10%,企业的业绩,企业的业绩至少提升在至少提升在10%以上。以上。65
38、挑战四:数据安全挑战四:数据安全 网络化生活使得犯罪分子更容易获得关于人的信息,也有网络化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局。如何保证用户的信息安全成为大数据时代非常重的骗局。如何保证用户的信息安全成为大数据时代非常重要的课题。在线数据越来越多,黑客犯罪的动机比以往都要的课题。在线数据越来越多,黑客犯罪的动机比以往都来的强烈,一些知名网站密码泄露、系统漏洞导致用户资来的强烈,一些知名网站密码泄露、系统漏洞导致用户资料被盗等个人敏感信息泄露事件已经警醒我们,要加强大料被盗等个人敏感
39、信息泄露事件已经警醒我们,要加强大数据网络安全的建设。另外,大数据的不断增加,对数据数据网络安全的建设。另外,大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制也提出更高的要求。目前很多传统企业的数据与容灾机制也提出更高的要求。目前很多传统企业的数据安全令人担忧。安全令人担忧。66挑战五:大数据人才缺乏挑战五:大数据人才缺乏 大数据建设的每个环节都需要依靠专业人员完成,因此,大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支掌握大数据技术、懂管理、有大数据必须培养和造就一支掌握大数据技术、懂管
40、理、有大数据应用经验的大数据建设专业队伍。目前大数据相关人才的应用经验的大数据建设专业队伍。目前大数据相关人才的欠缺将阻碍大数据市场发展。欠缺将阻碍大数据市场发展。据据Gartner预测,到预测,到2015年年,全球将新增,全球将新增440万个与大数据相关的工作岗位,且会有万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。的组织设立首席数据官职位。大数据的相关职位需要的是复大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来,大数据将会自然语言处理等多方面知识综合掌控
41、。未来,大数据将会出现约出现约100万的人才缺口,在各个行业大数据中高端人才万的人才缺口,在各个行业大数据中高端人才都会成为最炙手可热的人才,涵盖了大数据的数据开发工都会成为最炙手可热的人才,涵盖了大数据的数据开发工程师、大数据分析师、数据架构师、大数据后台开发工程程师、大数据分析师、数据架构师、大数据后台开发工程师、算法工程师等多个方向。因此需要高校和企业共同努师、算法工程师等多个方向。因此需要高校和企业共同努力去培养和挖掘。目前最大的问题是很多高校缺乏大数据力去培养和挖掘。目前最大的问题是很多高校缺乏大数据,所以拥有大数据的企业应该与学校联合培养人才。,所以拥有大数据的企业应该与学校联合培
42、养人才。67大数据技术的运用仍有困难大数据技术的运用仍有困难 主要体现在大数据挖掘的四个环节中:主要体现在大数据挖掘的四个环节中:68大数据给信息安全带来新挑战大数据给信息安全带来新挑战69数据越用越值钱数据越用越值钱谁拥有数据,谁就是王者谁拥有数据,谁就是王者但没有大数据分析师,王者也要摆地摊但没有大数据分析师,王者也要摆地摊7071一、大数据的涵义与研究意义二、与空间信息和位置相关的大数据三、空间大数据的应用四、空间大数据的存储五、总结大数据的涵义与研究意义大数据:大型复杂数据集的聚合,这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分
43、析、挖掘和可视化能力。大数据的涵义与研究意义大数据的特点:)Volume(体量大):大量TB级以上已有的数据等待处理;)Velocity(速度快):需要响应以s甚至ms计的流数据不断产生;)Variety(模态多样):数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存;)Veracity(真伪难辨):由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性;)Value(价值):大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。大数据的核心:预测大数据的涵义与研究意义研究大数据的意义:科学进步图灵奖获得者吉姆格雷提出:大数据是科学研
44、究的第四范式,是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。科学研究方法的发展 真正的革命并不发生在分析数据的机器,而在于数据本身和我们如何运用数据。大数据的涵义与研究意义研究大数据的意义:社会变革2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。21世纪数据的价值有可能等同于20世纪的石油,大数据研究使得人们降低了对因果关系的渴求,而关注相关关系。只需要知道是什么,而不需知道为什么。这将使得理解现实和做决定的基础也将受到根本性挑战。社会价值大数据的涵义与研究意义研究大
45、数据的意义:经济增长与空间信息和位置相关的大数据指直接或间接关联着相对于地球的某个地点的数据,包括自然地理数据和社会经济数据。空间媒体数据地理数据 轨迹数据包含位置的数字化的文字、图形、图像、视频影像等媒体数据,主要来源于移动社交网络、微博等新型互联网应用指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据,可以被用来反映用户的位置和用户的社会偏好。位置大数据的分类与空间信息和位置相关的大数据地理数据内容:土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。特点:数据体量大、较为规则化、变化较慢。与空间信息和位置相关的大数据轨
46、迹数据内容:个人轨迹数据、群体轨迹数据、车辆轨迹数据等特点:数据体量大、信息碎片化、准确性较低、半结构化 出租车轨迹数据示例与空间信息和位置相关的大数据社会交流、个性化信息推送、驾驶安全、智能驾驶为个人生活服务城市规划、疾病控制、智能交通、节能减排、环境保护、应急响应企业调度、门店选址、广告推送、位置营销 为企业经济服务为城市运行服务位置大数据的作用大数据的应用1.空间大数据与智能交通 Inrix是美国的一家交通数据处理公司,也是全球领先的道路交通信息和驾驶员服务供应商。他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。大数据的应用利用大数据预判未来交通信
47、息和路况是核心 2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。三、空间大数据的应用 2015年2月11日,国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。千方科技在国内智能交通行业具有深厚的理解和市场、技术积累,INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。双方将结合各自的优势,整合交通信息化及数据分析解决方案和产品,共同拓展智能交通行业市场,双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流,提升双方专业化及技术能力。不过,由于涉及国内职能部门的数据保护问题
48、,国内手机用户还未能够体验这款App。三、空间大数据的应用2.空间大数据与社会生活 2014年春节期间,百度地图定位可视化大数据播报的国内春节人口迁徙情况。2015年最近一周南京夫子庙景区热力图三、空间大数据的应用3.空间大数据与应急管理 2013年4月15日,波士顿马拉松爆炸案事发几小时内,数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上,这些照片和视频图像来自各种相机,手机和平板电脑。不到一天时间,嫌犯被确认并在纽约被抓获 这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合,建立的城市安全与应急新体制位置大数据研究涉及到数据采集、数据处理、计算和存储以及可
49、视化等一套完整的方法体系p 海量数据的高效存储p 支持丰富的数据类型p 处理速度快p 数据库应当易于扩展大数据下对于数据库的需求CAPNOSQLBASE不保证遵循 ACID原则分布式的非关系型的必须保证 两者权衡一致性一致性可用性可用性分区容分区容 错性错性BASE灵活高可用性高性能易扩展NoSQL数据库的特点Key-value型文档型图形数据库列式存储定义一个大的有序结构数组HashValuem,用来存放各信息查询哈希表 哈希函数当查询的时候再使用哈希函数得到这个下标值编写一个哈希函数将关键值的名字转换为HashValuem中的某个下标值xKey-value型文档集合数据库集合就是一组文档。
50、集合是无模式的。多个文档组成集合多个集合数据库。它包含多个键/值对文档中的键/值对是 有序的文档型数据库分类分类Examples举举例例典型应用场景数据模型优点缺点键值(键值(key-value)Tokyo Cabinet/Tyrant,Redis,Voldemort,Oracle BDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。Key 指向 Value 的键值对,通常用hash table来实现查找速度快数据无结构化,通常只被当作字符串或者二进制数据列存储数据库列存储数据库Cassandra,HBase,Riak分布式的文件系统以列簇式存储,将同一列数据存在一起查找