1、2.1 2.1 大数据从何而来?大数据从何而来?2.1.1 2.1.1 大数据的催化剂大数据的催化剂 催化剂有三催化剂有三社交媒体、移动互联网与物联网(见图社交媒体、移动互联网与物联网(见图2-12-1)。)。社交媒体移动互联网物联网图图2-1 大数据的三大催化剂大数据的三大催化剂(1 1)社交媒体。)社交媒体。社交媒体(社交媒体(SNSSNS,Social Networking ServiceSocial Networking Service或或Social Networking Social Networking SiteSite)的雏形应该是)的雏形应该是BBSBBS(Bulletin
2、Board SystemBulletin Board System,电子公告牌系统),电子公告牌系统),最早的最早的BBSBBS是是19731973年在美国加州旧金山湾区出现的年在美国加州旧金山湾区出现的Community MemoryCommunity Memory系统,系统,当时的网络连接是通过当时的网络连接是通过ModemModem远程接入一款叫作远程接入一款叫作SDS 940SDS 940的分时处理大型机的分时处理大型机来实现的。中国最早的来实现的。中国最早的BBSBBS系统经历了从系统经历了从19921992年的长城站,到后来的惠多网年的长城站,到后来的惠多网(据说惠多网的用户中有中
3、国最早一批本土互联网创业者(据说惠多网的用户中有中国最早一批本土互联网创业者马化腾、求伯君、马化腾、求伯君、丁磊等)到丁磊等)到19941994年中科院网络上建立的真正意义上的基于互联网的年中科院网络上建立的真正意义上的基于互联网的BBSBBS系系统统曙光站,而同时在线超过曙光站,而同时在线超过100100人的第一个国内大型人的第一个国内大型BBSBBS论坛则是长盛不论坛则是长盛不衰的水木清华,而它的起因大抵是因为清华的同学们对于连接隔壁中科院的衰的水木清华,而它的起因大抵是因为清华的同学们对于连接隔壁中科院的曙光站竟然要先从中国教育网跑到太平洋彼岸的美国再折返回中科院网络表曙光站竟然要先从中
4、国教育网跑到太平洋彼岸的美国再折返回中科院网络表示愤懑,于是自立门户成立的水木清华站示愤懑,于是自立门户成立的水木清华站它最早是在一台它最早是在一台386 PC386 PC上提供上提供互联网接入服务的。互联网接入服务的。表表2-12-1列出了常见的社交媒体与互联网服务的每秒钟交易(或服务完成)列出了常见的社交媒体与互联网服务的每秒钟交易(或服务完成)数量。数量。每秒钟社交媒体所提供服务数量数目2016春节期间微信红包120,000Tweets7,112Instagram图片上传数1,132Tumblr发贴数目1,500Skype通话数2,027互联网流量(GB)33,000谷歌搜索次数53,0
5、00YouTube视频观看次数116,950电子邮件发送数2,466,550表表2-1全球互联网流量分析与预测全球互联网流量分析与预测(2 2)移动互联网。)移动互联网。移动互联网是互联网的高级发展阶段,也是互联网发展的必然。移动移动互联网是互联网的高级发展阶段,也是互联网发展的必然。移动互联网是以移动设备,特别是智能手机、平板电脑等移动终端设备全面进入互联网是以移动设备,特别是智能手机、平板电脑等移动终端设备全面进入我们的生活、工作为标志的。最早的具备联网功能的移动终端设备是我们的生活、工作为标志的。最早的具备联网功能的移动终端设备是19901990年代中期开始流行的年代中期开始流行的PDA
6、PDA(Personal Digital AssistantPersonal Digital Assistant)。遗憾的是市)。遗憾的是市场更新迭代的速度如此之快,在短短场更新迭代的速度如此之快,在短短1010年后,年后,PDAPDA操作系统三大巨头操作系统三大巨头PalmPalm、BlackBerryBlackBerry与与Microsoft Windows CEMicrosoft Windows CE,外加最早的手机巨头,外加最早的手机巨头NokiaNokia就已经就已经让位于真正的智能手机操作系统后起之秀让位于真正的智能手机操作系统后起之秀Apple iOSApple iOS与与And
7、roidAndroid。据统计从据统计从19921992年开始到年开始到20192019年,整个互联网数据流量的增长将达到惊年,整个互联网数据流量的增长将达到惊人的四千五百万倍(见图人的四千五百万倍(见图2-22-2)从从19921992年的每天年的每天100GB100GB(19921992年是硬盘刚年是硬盘刚进入进入1GB1GB的时代,每天的时代,每天100GB100GB的互联网数据流量就相当于全世界每天交换了的互联网数据流量就相当于全世界每天交换了100100块硬盘之多的数据);块硬盘之多的数据);19971997年这一数据增长年这一数据增长2424倍,平均每小时倍,平均每小时100100
8、块块1GB1GB硬盘,而同一时期的硬盘容量增长到了硬盘,而同一时期的硬盘容量增长到了161617GB17GB;1997200219972002年,是互联年,是互联网猛烈增长的网猛烈增长的5 5年,迅速达到了年,迅速达到了100GB/s100GB/s的水平,而同一年硬盘寻址空间刚的水平,而同一年硬盘寻址空间刚刚突破刚突破137GB137GB的限制;的限制;20072007年又增长了年又增长了2020倍到达了倍到达了2,000GB/s2,000GB/s的水平,同年的水平,同年HitachiHitachi也推出了第一块也推出了第一块1TB1TB(1,000GB1,000GB)容量的硬盘;)容量的硬盘
9、;20142014年的互联网流年的互联网流量已经突破量已经突破16TB/s16TB/s,无独有偶,无独有偶,SeagateSeagate也在同年发布了业界第一款也在同年发布了业界第一款8TB8TB的的硬盘,预计硬盘,预计20192019年的网络流量则会达到年的网络流量则会达到52TB/s52TB/s从任何一个角度看,网络从任何一个角度看,网络流量的增速都超过了单块硬盘的扩容速度,这也从另一个侧面解释了为什么流量的增速都超过了单块硬盘的扩容速度,这也从另一个侧面解释了为什么我们的我们的ITIT基础架构一直处于不断的升级、扩容中基础架构一直处于不断的升级、扩容中大(量)数据联网交换的大(量)数据联
10、网交换的需求推动所致!需求推动所致!(3 3)物联网。)物联网。物联网(物联网(Internet of ThingsInternet of Things,IoTIoT)5 5的起源可以追溯到的起源可以追溯到19991999年,当时年,当时在在P&GP&G工作的英国人工作的英国人Kevin AshtonKevin Ashton最早冠名使用了最早冠名使用了IoTIoT字样,同一年他在字样,同一年他在MITMIT成立了一个旨在推广成立了一个旨在推广RFIDRFID技术的技术的Auto-IDAuto-ID中心,而对于中心,而对于P&GP&G来说最直接的效益来说最直接的效益就是利用就是利用RFIDRFI
11、D技术与无线传感器的结合可以对其供应链系统进行有效的跟踪技术与无线传感器的结合可以对其供应链系统进行有效的跟踪与管理。与管理。中国人对物联网的熟知应当是中国人对物联网的熟知应当是20092009年,先是国务院总理对无锡物联网科年,先是国务院总理对无锡物联网科技产业园区的考察而后是总理的一篇面向首都科技界让科技引领中国可持技产业园区的考察而后是总理的一篇面向首都科技界让科技引领中国可持续发展的讲话。续发展的讲话。有一种提法认为继移动互联网之后,有一种提法认为继移动互联网之后,ITIT行业最高速的增长会在物联网行业最高速的增长会在物联网领域,有一些统计数据表明到领域,有一些统计数据表明到20192
12、019年超过年超过2/32/3的的IPIP数据会从非数据会从非PCPC端设备产生,端设备产生,如互联网电视、平板电脑、智能手机以及如互联网电视、平板电脑、智能手机以及M2MM2M(Machine-to-MachineMachine-to-Machine)传)传感器。感器。IDCIDC预测到预测到20202020年会有年会有300300亿物联网设备,而整个生态系统会是一个亿物联网设备,而整个生态系统会是一个17,00017,000亿美元的巨大市场。亿美元的巨大市场。CiscoCisco预测到预测到20202020年物联网设备会有年物联网设备会有500500亿之多,亿之多,而而IntelIntel
13、、IDCIDC与联合国的另一预测则乐观地估计届时会有超过与联合国的另一预测则乐观地估计届时会有超过2,0002,000亿物联亿物联网设备。网设备。GB/second0.0011570.028100200016144517941992199720022007201420190100002000030000400005000060000GBps(GB每秒)全球互联网数据流量(1992-2019)图图2-2 Cisco VNI全球互联网流量分析与预测全球互联网流量分析与预测 社交媒体、移动互联网、物联网三大催化剂让数据量在过去几十年间社交媒体、移动互联网、物联网三大催化剂让数据量在过去几十年间呈指数
14、级增长,除此以外数据的产生速率以及数据的多样性与复杂性都在随呈指数级增长,除此以外数据的产生速率以及数据的多样性与复杂性都在随之增长之增长数据的这三大特性数据的这三大特性数量(数量(VolumeVolume)、速率()、速率(VelocityVelocity)与多样)与多样性(性(VarietyVariety),我们通常称之为大数据的),我们通常称之为大数据的3V3V。如果再考虑到数据来源的可。如果再考虑到数据来源的可靠性与真实性(靠性与真实性(VeracityVeracity)以及数据的价值()以及数据的价值(ValueValue),可以把),可以把3V3V扩展到扩展到5V5V,不过通常业界
15、对于数据的价值的定义有很多主观因素在里面,因此业界通常不过通常业界对于数据的价值的定义有很多主观因素在里面,因此业界通常都习惯引用都习惯引用IBMIBM最早提出的大数据的最早提出的大数据的4VThe Four Vs of Big Data74VThe Four Vs of Big Data7,如图如图2-32-3所示。所示。图图2-3 大数据的四大特征(大数据的四大特征(4Vs of Big Data)2.1.2 Data Big Data Data2.1.2 Data Big Data Data 在本小节让我们来回顾一下大数据从何而来,大数据作为一门技术有在本小节让我们来回顾一下大数据从何而
16、来,大数据作为一门技术有哪些分支与流派。纵观人类发展史,围绕着信息的记录、整合、处理与分析哪些分支与流派。纵观人类发展史,围绕着信息的记录、整合、处理与分析的方式、手段与规模,笔者按图的方式、手段与规模,笔者按图2-42-4所示分为六个阶段。所示分为六个阶段。结绳记事、古典统计学、人口统计学、流行病学上古时代 十八世纪 最早的众包十九世纪中叶 Enigma,电子计算机,数据库WWII-1980年代 PC时代,商务智能,数据仓库1990-2004 移动互联时代,GFSHADOOP;NOSQL/NewSQL2004-2014 物联网时代,机器学习、深度学习、人工智能2014-?图图2-4 数据到大
17、数据再到数据的发展历程数据到大数据再到数据的发展历程(1 1)上古时代)上古时代1818世纪。世纪。汉朝人郑玄在周易注中说:汉朝人郑玄在周易注中说:“古者无文字,结绳为约,事大,大结古者无文字,结绳为约,事大,大结其绳;事小,小结其绳。其绳;事小,小结其绳。”在印加文化当中也有结绳记数的实例,并且有学在印加文化当中也有结绳记数的实例,并且有学者发现印加绳的穿系方法与中国结惊人的一致,或为两种文明存在传承关系者发现印加绳的穿系方法与中国结惊人的一致,或为两种文明存在传承关系的证据之一(见图的证据之一(见图2-52-5)。)。图图2-5 中国古代结绳记事与文字中国古代结绳记事与文字vs.印加印加K
18、hipu(记簿)绳(记簿)绳(2 2)1919世纪中叶世纪中叶 人类采集数据,处理数据,分析数据,从中获得信息并升华为知识的人类采集数据,处理数据,分析数据,从中获得信息并升华为知识的实践从来没有停止过,只是在形式上从早期人类的原始会计学,发展到实践从来没有停止过,只是在形式上从早期人类的原始会计学,发展到3 3个个世纪前的古典统计学。时光再向前走到世纪前的古典统计学。时光再向前走到1919世纪中叶世纪中叶出现了最早的众包出现了最早的众包(CrowdsourcingCrowdsourcing)18481848年到年到18611861年间美国海军海洋学家、天文学家年间美国海军海洋学家、天文学家M
19、atthew F.MauryMatthew F.Maury通过不断地向远航的海员们提供数以十万张计的免费的通过不断地向远航的海员们提供数以十万张计的免费的季风与洋流图纸并以海员们返回后提供详细的标准化的航海日记作为交换条季风与洋流图纸并以海员们返回后提供详细的标准化的航海日记作为交换条件整理出了一整套详尽的大西洋件整理出了一整套详尽的大西洋-太平洋洋流与季风的图纸(见图太平洋洋流与季风的图纸(见图2-62-6)。)。图图2-6 Matthew F.Maury绘制的大西洋绘制的大西洋-太平洋太平洋洋流与季风图(洋流与季风图(1841)局部)局部(3 3)第二次世界大战)第二次世界大战2020世纪
20、世纪8080年代。年代。19 19世纪的众筹的力量虽然巨大,但在数据处理的方式上还限于手工整世纪的众筹的力量虽然巨大,但在数据处理的方式上还限于手工整理,真正的电子数字可编程计算机是第二次世界大战后期在英国被发明的,理,真正的电子数字可编程计算机是第二次世界大战后期在英国被发明的,盟军为了破解以德国为首的轴心国的军用电报密码盟军为了破解以德国为首的轴心国的军用电报密码尤为著名的是尤为著名的是Enigma Enigma MachinesMachines一款典型的民用转军用密码生成设备,在一个有一款典型的民用转军用密码生成设备,在一个有6 6根引线的接线根引线的接线板上一对字母的可互换可能性有板上
21、一对字母的可互换可能性有1,0001,000亿次,而亿次,而1010根引线的可能性则高达根引线的可能性则高达150150万亿次。对于如此规模的海量数据组合可能性,使用人工排序来暴力破万亿次。对于如此规模的海量数据组合可能性,使用人工排序来暴力破解的方式显然不会成功,甚至是使用电动机械设备(解的方式显然不会成功,甚至是使用电动机械设备(Electromagnetical Electromagnetical DeviceDevice,电子计算机的前身)效率也远远不够。,电子计算机的前身)效率也远远不够。英国数学家图灵(英国数学家图灵(Alan TuringAlan Turing)在)在193919
22、4019391940年通过他设计的电动机械年通过他设计的电动机械设备设备BombeBombe来破解纳粹不断升级优化的来破解纳粹不断升级优化的EnigmaEnigma密码时意识到了这一点,于是在密码时意识到了这一点,于是在19431943年找到了另一位英国人年找到了另一位英国人Tommy FlowersTommy Flowers,仅用了,仅用了1111个月的时间,个月的时间,19441944年年年年初初FlowersFlowers设计的设计的ColossusColossus计算机面世并成功破解了最新的德军的密码(见图计算机面世并成功破解了最新的德军的密码(见图2-72-7,从左到右分别是:,从左
23、到右分别是:EnigmaEnigma机器的接线板,图灵设计的机器的接线板,图灵设计的BombeBombe解密设备,解密设备,FlowersFlowers设计的设计的ColossusColossus真空管电子计算机)。真空管电子计算机)。每台每台ColossusColossus计算机的数据处理是每秒钟计算机的数据处理是每秒钟5,0005,000个字符,送纸带(个字符,送纸带(Paper Paper TapeTape)以)以12.2m/s12.2m/s的速度高速移动,并且多台的速度高速移动,并且多台ColossusColossus可以并行操作可以并行操作我们今我们今天称之为天称之为“并行计算并行计
24、算”。图图2-7 Enigma vs.Bombe vs.Colossus 2020世纪世纪50705070年代是计算机技术飞速发展的年代是计算机技术飞速发展的2020年,从年,从5050年代中期开始年代中期开始出现的基于晶体管(出现的基于晶体管(TransistorTransistor)技术的晶体管计算机到)技术的晶体管计算机到6060年代的大型主年代的大型主机(机(MainframesMainframes)到)到7070年代的小型机(年代的小型机(MinicomputersMinicomputers)的出现,我们对)的出现,我们对数据的综合处理能力、分析能力以及存储能力都得到了指数级的增长。
25、而数数据的综合处理能力、分析能力以及存储能力都得到了指数级的增长。而数据分析能力的提高是与对应的数据存储能力的提升对应的,在软件层面,最据分析能力的提高是与对应的数据存储能力的提升对应的,在软件层面,最值得一提的是数据库的出现。数据库可以算作计算机软件系统中最为复杂的值得一提的是数据库的出现。数据库可以算作计算机软件系统中最为复杂的系统,数据库的发展从时间轴上看大体可分为四大类:系统,数据库的发展从时间轴上看大体可分为四大类:l Navigational DatabaseNavigational Database(导航型数据库);(导航型数据库);l Relational DatabaseRe
26、lational Database(关系型数据库);(关系型数据库);l Object DatabaseObject Database(面向对象型数据库);(面向对象型数据库);l NoSQL/NewSQL/HadoopNoSQL/NewSQL/Hadoop(大数据类新型数据存储与处理方式)。(大数据类新型数据存储与处理方式)。NavigationalNavigational数据库是数据库是2020世纪世纪6060年代随着计算机技术的快速发展而兴年代随着计算机技术的快速发展而兴起的,主要关联了两种数据库接口模式起的,主要关联了两种数据库接口模式Network ModelNetwork Mode
27、l和和Hierarchical Hierarchical ModelModel。关系型数据库(关系型数据库(RDBMSRDBMS)自)自2020世纪世纪7070年代诞生以来在过去四十几年中方年代诞生以来在过去四十几年中方兴未艾,也是我们今天最为熟知的数据库系统类型。兴未艾,也是我们今天最为熟知的数据库系统类型。对象数据库的兴起滞后于关系数据库大约对象数据库的兴起滞后于关系数据库大约1010年。对象数据库的核心是面年。对象数据库的核心是面向对象,它的诞生是借鉴了面向对象的编程语言的向对象,它的诞生是借鉴了面向对象的编程语言的OOOO特性来对复杂的数据类特性来对复杂的数据类型及数据之间的关系进行建
28、模,对象之间的关系是多对多,访问通过指针或型及数据之间的关系进行建模,对象之间的关系是多对多,访问通过指针或引用来实现。引用来实现。通常而言通常而言OOOO类语言与类语言与OOOO型数据库结合得更完美,以医疗行业为例型数据库结合得更完美,以医疗行业为例ObjectObject数据库的使用不在少数,合理使用的话也会效率更高(例如数据库的使用不在少数,合理使用的话也会效率更高(例如InterSystemsInterSystems的的CachCach数据库)。数据库)。大数据类新型数据库确切地说是在数据爆炸性增大数据类新型数据库确切地说是在数据爆炸性增长(数量、速率、多样性)条件下为了高效处理数据长
29、(数量、速率、多样性)条件下为了高效处理数据而出现的多种新的数据处理架构及生态系统,简单而而出现的多种新的数据处理架构及生态系统,简单而言有三大类:言有三大类:l NoSQLNoSQL;l HadoopHadoop;l NewSQLNewSQL。(4 4)2020世纪世纪9090年代。年代。20 20世纪世纪9090年代初,年代初,PCPC与互联网进入了全方位高速发展阶段。与互联网进入了全方位高速发展阶段。19771977年到年到20072007年的三十年间,年的三十年间,PCPC销售量增长到最初的销售量增长到最初的2,6002,600倍(从倍(从19771977年的年的5 5万台,万台,增长
30、到增长到20072007年的年的1.251.25亿台)。亿台)。(5 5)2121世纪第一个世纪第一个1010年。年。过去的十年则让我们见证了移动互联时代的到来,以谷歌、过去的十年则让我们见证了移动互联时代的到来,以谷歌、FacebookFacebook、TwitterTwitter、BATBAT为代表的新互联网公司的兴起。这些新型的互联网企业在搭为代表的新互联网公司的兴起。这些新型的互联网企业在搭建技术堆栈的时候有两个共通之处:建技术堆栈的时候有两个共通之处:LAMP+PC-ClusterLAMP+PC-Cluster。(6 6)当下,移动互联时代。)当下,移动互联时代。移动互联时代的自然延
31、伸就是我们今天所处在的万物互联时代(移动互联时代的自然延伸就是我们今天所处在的万物互联时代(Internet of Internet of ThingsThings或或Internet of EverythingInternet of Everything)。十几年前被学术界宣判已经走入死胡同的)。十几年前被学术界宣判已经走入死胡同的人工智能(人工智能(Artificial IntelligenceArtificial Intelligence)在机器学习()在机器学习(Machine LearningMachine Learning)、深)、深度学习(度学习(Deep LearningDee
32、p Learning)等技术的推动下又在诸如图像视频、自然语言处理、数)等技术的推动下又在诸如图像视频、自然语言处理、数据挖掘、物流、游戏、无人驾驶汽车、自动导航、机器人、舆情监控等很多不同的据挖掘、物流、游戏、无人驾驶汽车、自动导航、机器人、舆情监控等很多不同的领域获得了突破性的进展,其中值得一提的是谷歌的一款领域获得了突破性的进展,其中值得一提的是谷歌的一款AIAI程序程序AlphaGoAlphaGo在在20152015年年年底和年底和20162016年年初分别击败了欧洲围棋冠军职业二段选手樊麾以及韩国著名棋手李年年初分别击败了欧洲围棋冠军职业二段选手樊麾以及韩国著名棋手李世石。这也标志着
33、人工智能正在大步幅逼近甚至在不远的未来超越人类大脑的海量世石。这也标志着人工智能正在大步幅逼近甚至在不远的未来超越人类大脑的海量信息处理与预判能力。信息处理与预判能力。数据的完整生命周期可分为五个阶段,如图数据的完整生命周期可分为五个阶段,如图2-82-8所示。通过对杂乱无章所示。通过对杂乱无章的数据整理得到信息,对信息提炼而成为知识,知识升华后成为(人类)可的数据整理得到信息,对信息提炼而成为知识,知识升华后成为(人类)可传承的智慧,人类又把智慧、知识与信息演变为可以赋予机器的智能。传承的智慧,人类又把智慧、知识与信息演变为可以赋予机器的智能。图图2-8 从数据到智能从数据到智能 我们回顾一
34、下人类的发展史可以说是围绕着信息整合、处理的方式与手我们回顾一下人类的发展史可以说是围绕着信息整合、处理的方式与手段在不断发展,我们一步步走向大数据,而当大数据成为常态的时候,大数段在不断发展,我们一步步走向大数据,而当大数据成为常态的时候,大数据已经无处不在融入了我们的生活(见图据已经无处不在融入了我们的生活(见图2-92-9)。)。图图2-92-9中列出了已经或正式应用的大数据行业。这也是我们常说的(中列出了已经或正式应用的大数据行业。这也是我们常说的(BigBig)Data-Driven BusinessesData-Driven Businesses(数据驱动的商业)。(数据驱动的商业
35、)。图图2-9 大数据无处不在大数据无处不在2.1.3 2.1.3 大数据不只是大数据不只是HadoopHadoop 认知误区:大数据就是认知误区:大数据就是HadoopHadoop。这种论调似乎在业界颇有市场,因为。这种论调似乎在业界颇有市场,因为HadoopHadoop真的很火爆,尽管许多人并不清楚真的很火爆,尽管许多人并不清楚HadoopHadoop到底是什么,可以用来做什么,但到底是什么,可以用来做什么,但是如果某种大数据技术不和是如果某种大数据技术不和HadoopHadoop沾边儿,客户、投资人甚至自己的团队可沾边儿,客户、投资人甚至自己的团队可能都会对该技术的前景持迟疑的态度。首先
36、我们需要了解大数据处理的发展能都会对该技术的前景持迟疑的态度。首先我们需要了解大数据处理的发展历程中形成了哪些主要的流派与生态系统。历程中形成了哪些主要的流派与生态系统。从从2020世纪世纪9090年代到今天,面向海量数据的处理与分析经历了如下的年代到今天,面向海量数据的处理与分析经历了如下的3 3个主个主要阶段。要阶段。l 关系型数据库一统天下的时代(关系型数据库一统天下的时代(19901990现今)。现今)。l HadoopHadoop与与NoSQLNoSQL并驾齐驱的时代(并驾齐驱的时代(20062006现今)。现今)。l NewSQLNewSQL横空出世的时代(横空出世的时代(2010
37、2010现今)。现今)。图图2-102-10展示了这四大类大数据技术沿时间横轴的发展历程。展示了这四大类大数据技术沿时间横轴的发展历程。(1 1)关系型数据库时代。)关系型数据库时代。(2 2)Hadoop vs.NoSQLHadoop vs.NoSQL时代。时代。(3 3)NewSQLNewSQL时代。时代。图图2-10 大数据技术三大流派大数据技术三大流派NoSQL、Hadoop、NewSQL2.2 2.2 大数据的五大问题大数据的五大问题 当传统的方法已无法应对大数据的规模、分布性、多样性以及时效性所当传统的方法已无法应对大数据的规模、分布性、多样性以及时效性所带来的挑战时,我们需要新的
38、技术体系架构以及分析方法来从大数据中获得带来的挑战时,我们需要新的技术体系架构以及分析方法来从大数据中获得新的价值。新的价值。McKinsey Global Institute McKinsey Global Institute在一份报告中在一份报告中9 9认为大数据会在如下几个认为大数据会在如下几个方面创造巨大的经济价值。方面创造巨大的经济价值。l 通过让信息更透明以及更频繁被使用,解锁大数据价值。通过让信息更透明以及更频繁被使用,解锁大数据价值。l 通过交易信息的数字化存储可以采集更多更准确、详细的数据用于决策支撑。通过交易信息的数字化存储可以采集更多更准确、详细的数据用于决策支撑。l 通
39、过大数据来细分用户群体,进行精细化产品、服务定位。通过大数据来细分用户群体,进行精细化产品、服务定位。l 深度的、复杂的数据分析(及预测)来提升决策准确率。深度的、复杂的数据分析(及预测)来提升决策准确率。l 通过大数据(反馈机制)来改善下一代产品、服务的开发。通过大数据(反馈机制)来改善下一代产品、服务的开发。规划大数据战略、构建大数据的解决方案与体系架构、解决大数据问题规划大数据战略、构建大数据的解决方案与体系架构、解决大数据问题以及大数据发展历程中通常会依次涉及大数据存储、大数据管理、大数据分以及大数据发展历程中通常会依次涉及大数据存储、大数据管理、大数据分析、大数据科学与大数据应用等五
40、大议题,如图析、大数据科学与大数据应用等五大议题,如图2-112-11所示。所示。大数据存储大数据管理大数据分析大数据科学大数据应用图图2-11 大数据需要触及的五大问题大数据需要触及的五大问题2.2.1 2.2.1 大数据存储大数据存储 从从1919世纪开始到今天的近世纪开始到今天的近200200年间,按时间轴顺序,数据存储至少经历年间,按时间轴顺序,数据存储至少经历了如下了如下5 5大阶段,并且这些技术直到今天依然在我们的生活中随处可见。大阶段,并且这些技术直到今天依然在我们的生活中随处可见。l 穿孔卡(穿孔卡(Punched CardPunched Card)l 磁带机(磁带机(Magn
41、etic TapeMagnetic Tape)l 磁盘(磁盘(Magnetic DiskMagnetic Disk)l 光盘(光盘(Optical DiscOptical Disc)l 半导体内存(半导体内存(Semicoductor MemorySemicoductor Memory)传统意义上,按照冯传统意义上,按照冯诺依曼计算机体系架构(诺依曼计算机体系架构(Von Neumann Von Neumann ArchitectureArchitecture)的分类方式,我们通常把)的分类方式,我们通常把CPUCPU可以直接访问的可以直接访问的RAMRAM类的类的半导体存储称为主存储(半导体
42、存储称为主存储(Primary StoragePrimary Storage)或一级存储;把)或一级存储;把HDDHDD、NVRAMNVRAM类的称为辅助存储或二级存储(类的称为辅助存储或二级存储(Auxiliary or Secondary Auxiliary or Secondary StorageStorage);而三级存储();而三级存储(Tertiary StorageTertiary Storage)则是通常由磁带与低)则是通常由磁带与低性能、低成本性能、低成本HDDHDD构成;最后一类存储则称为构成;最后一类存储则称为Off-line StorageOff-line Storag
43、e(线(线下存储),包括光盘、硬盘以及磁带等可能组合方式。下存储),包括光盘、硬盘以及磁带等可能组合方式。1952IBM 711180bit/sPunched Cards1951UNIVAC12800bit/sMagnetic Tape1956IBM 350R6600B/sHDD/FDD1979Philips/Sony1.17Mb/sCD/DCD1991SanDisk100MB/sFlash/SSD图图2-12 数据存储介质发展历程数据存储介质发展历程 前面我们以时间轴为顺序前面我们以时间轴为顺序了解了存储介质的发展历程,了解了存储介质的发展历程,在业界我们通常还会按照数据在业界我们通常还会按
44、照数据存储的其他特性来对一种存储存储的其他特性来对一种存储介质进行定性、定量分析,例介质进行定性、定量分析,例如数据的易失性、可变性、各如数据的易失性、可变性、各项性能指标、可访问性等(见项性能指标、可访问性等(见图图2-132-13)。)。地址访问 文件访问 内容访问延迟吞吐率(MB/s)故障率(MTBF)颗粒度(bit/page/block)可读写(CD-RW)只读(ROM,CD-R)快读慢写 易失性(RAM)非易失性(NVRAM)Addressability可访问性Performance性能Mutability可变性Volatility易失性图图2-13 数据存储特性之四维度数据存储特性
45、之四维度 另外,存储逐渐由早期的单主机单硬盘存储发展为单主机多硬盘、多主另外,存储逐渐由早期的单主机单硬盘存储发展为单主机多硬盘、多主机多硬盘、网络存储、分布式存储、云存储、多级缓存机多硬盘、网络存储、分布式存储、云存储、多级缓存+存储以及软件定义的存储以及软件定义的存储等形式。存储等形式。在存储的发展过程中有大量为了提高数据可访问性、可靠性、吞吐率以在存储的发展过程中有大量为了提高数据可访问性、可靠性、吞吐率以及节省存储空间或成本的技术涌现:及节省存储空间或成本的技术涌现:l RAIDRAID(磁盘阵列)技术;(磁盘阵列)技术;l NASNAS(网络附属存储)技术;(网络附属存储)技术;l
46、SANSAN(高速存储网络)技术;(高速存储网络)技术;l DedupDedup(去重)技术、压缩、备份、镜像、快照技术等;(去重)技术、压缩、备份、镜像、快照技术等;l 软件定义存储(软件定义存储(Software Defined StorageSoftware Defined Storage,SDSSDS)技术。)技术。2.2.1.1 RAID2.2.1.1 RAID磁盘阵列技术磁盘阵列技术 RAID RAID(Redundant Array of Inexpensive DisksRedundant Array of Inexpensive Disks),顾名思义,是),顾名思义,是用多
47、块便宜的硬盘组建成存储阵列来实现高性能或(和)高可靠性。从这一用多块便宜的硬盘组建成存储阵列来实现高性能或(和)高可靠性。从这一点上看,早在点上看,早在19871987年由年由UC BerkeleyUC Berkeley的的David PattersonDavid Patterson教授(教授(DavidDavid也是也是RISCRISC精简指令集计算机概念的最早命名者)和他的同事们率先实现的精简指令集计算机概念的最早命名者)和他的同事们率先实现的RAIDRAID架构与十几年后的互联网公司推动的使用基于架构与十几年后的互联网公司推动的使用基于X86X86的商用硬件来颠覆的商用硬件来颠覆IBMI
48、BM为为首的大、小型机体系架构是如出一辙的首的大、小型机体系架构是如出一辙的单块硬盘性能与稳定性虽然可能不单块硬盘性能与稳定性虽然可能不够好,但是形成一个水平可扩展(够好,但是形成一个水平可扩展(scale-outscale-out)的分布式架构后可以做到线)的分布式架构后可以做到线性提高系统综合性能。性提高系统综合性能。奇偶校验位的计算使用的是布尔型异或(奇偶校验位的计算使用的是布尔型异或(XORXOR)逻辑操作,如下所示。)逻辑操作,如下所示。如果盘如果盘A A或或B B因故下线,剩下的因故下线,剩下的B B或或A A盘与盘与ParityParity数据做简单的数据做简单的XORXOR操作
49、就可以操作就可以恢复恢复A A或或B B盘。盘。Drive A:01011010XOR Drive B:01110101-Parity:001011112.2.1.2 NAS2.2.1.2 NAS与与SANSAN 网络存储技术如网络存储技术如NASNAS、SANSAN是相对于非网络存储技术而言的。在是相对于非网络存储技术而言的。在NASNAS、SANSAN出现之后我们把先前的那种直接连接到主机的存储方式称为出现之后我们把先前的那种直接连接到主机的存储方式称为DASDAS(Directly Directly Attached StorageAttached Storage,直连存储或内部存储)。
50、,直连存储或内部存储)。NAS NAS与与SANSAN先后在先后在2020世纪世纪8080年代中期与年代中期与9090年代中期由年代中期由Sun MicrosystemsSun Microsystems推推出最早的商业产品,它们改变了之前那种以服务器为中心的存储体系结构(例出最早的商业产品,它们改变了之前那种以服务器为中心的存储体系结构(例如各种如各种RAIDRAID,尽管,尽管RAIDRAID系统也是采用块存储),形成了以信息为中心的分布系统也是采用块存储),形成了以信息为中心的分布式网络存储架构(见图式网络存储架构(见图2-142-14),),NASNAS与与SANSAN的主要区别如下。的