1、目 录 CONTENTSp第第1 1章章 云计算与大数据基础云计算与大数据基础 p第第2 2章章 云计算与大数据的相关技术云计算与大数据的相关技术 p第第3 3章章 虚拟化技术虚拟化技术 p第第4 4章章 集群系统基础集群系统基础 p第第5 5章章 MPIMPI面向计算面向计算p第第6 6章章 HadoopHadoop分布式大数据系统分布式大数据系统p第第7 7章章 HPCCHPCC面向数据的高性能计算集群系统面向数据的高性能计算集群系统 p第第8 8章章 StormStorm基于拓扑的流数据实时计算系统基于拓扑的流数据实时计算系统p第第9 9章章 服务器与数据中心服务器与数据中心 p第第10
2、10章章 云计算大数据仿真技术云计算大数据仿真技术第1章 云计算与大数据基础1.1.11.1.1云计算简介云计算简介1.1.21.1.2云计算的特点云计算的特点1.1.31.1.3云计算技术分类云计算技术分类1.2.11.2.1大数据简介大数据简介1.2.21.2.2主要的大数据处理系统主要的大数据处理系统1.2.31.2.3大数据处理的基本流程大数据处理的基本流程1.1.1云计算简介包括分布式计算技术、虚拟化技术、网络技术、服务器技术、包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。数据中心技术、云计算平台技术、存储技术等。1.1.1云计算简介
3、云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。信息可以按需求提供给计算机和其他设备。云计算是基于互联网的服务的增加、使用和交付模式,通常涉及云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。可作为一种商品通过互联
4、网进行流通。1.1.1云计算简介传统的信息产业企业既是资源的整合者又是资源的使用者;传统的信息产业企业既是资源的整合者又是资源的使用者;这这种格局并不符合现代产业分工高度专业化的需求,同时也这这种格局并不符合现代产业分工高度专业化的需求,同时也不符合企业需要灵敏地适应客户的需要。不符合企业需要灵敏地适应客户的需要。1.1.1云计算简介传统的计算资源和存储资源大小通常是相对固定的,面对客户高波动性的需求时会非常的不敏捷,企业的计算和存储资源要么是被浪费,要么是面对客户峰值需求时力不从心。云计算技术使资源与用户需求之间是一种弹性化的关系,资源的使用者和资源的整合者并不是一个企业,资源的使用者只需要
5、对资源按需付费,从而敏捷地响应客户不断变化的资源需求,这一方法降低了资源使用者的成本,提高了资源的利用效率。1.1.1云计算简介资资源源的的整整合合运运营营者者就就像像是是发发电电厂厂负负责责资资源源的的整整合合输输出;出;资资源源的的使使用用者者负负责责将将资资源源转转变变为为满满足足客客户户需需求求的的各各种种应应用;用;终终端端客客户户为为资资源源的的最最终终消消费费者。者。资资源源的的整整合合运运营营者、者、资资源源的的使使用用者、者、终终端端客客户。户。1.1.1云计算简介I IB BMM、微微软、软、谷谷歌、歌、D DE EL LL L等等企企业业国国内内企企业:业:华华为、为、中
6、中兴、兴、腾腾讯、讯、阿阿里、里、联联想、想、浪浪潮、潮、五五舟舟等等企企业业为为是是信信息息产产业业的的一一大大变变革,革,吸吸引引了了大大量量企企业业重重新新布布局:局:1.1.1云计算简介云计算技术作为一项涵盖面广且对产业影响深远的技术,未来将逐步渗透到信息产业和其他产业的方方面面,并将深刻改变产业的结构模式、技术模式和产品销售模式,进而深刻影响人们的生活;云计算会逐步成为人们生活中必不可少的技术;1.1.1云计算简介移动互联网的出现使云计算应用走向了人们的指间,推动了云计算技术的应用发展,今后云计算将是一项随时、随地、随身为我们提供服务的技术;云计算的出现也将如电的出现一般,为信息产业
7、的发展提供无限的想象空间,使应用的创新能力得到完全释放。1.1.1云计算简介1 1资源池弹性可扩张资源池弹性可扩张2 2按需提供资源服务按需提供资源服务3 3虚拟化虚拟化4 4网络化的资源接入网络化的资源接入5 5高可靠性和安全性高可靠性和安全性1.1.2云计算的特点云计算系统的一个重要特征就是云计算系统的一个重要特征就是,这就是所谓的资源池。,这就是所谓的资源池。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。分散的资源使用方法造成了资源的极大浪费,现在每个人都可能有一到两台自分散的资源使用方法造成了
8、资源的极大浪费,现在每个人都可能有一到两台自己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。待状态或是在处理文字数据等低负荷的任务。资源集中起来后资源的利用效率会大大地提高,随着资源需求的不断提高,资资源集中起来后资源的利用效率会大大地提高,随着资源需求的不断提高,资源池的弹性化扩张能力成为云计算系统的一个基本要求,云计算系统只有具备源池的弹性化扩张能力成为云计算系统的一个基本要求,云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。了资源的弹性
9、化扩张能力才能有效地应对不断增长的资源需求。大多数云计算系统都能较为方便地实现新资源的加入。大多数云计算系统都能较为方便地实现新资源的加入。1.1.2云计算的特点云云计计算算系系统统带带给给客客户户最最重重要要的的好好处处就就是是敏敏捷捷地地;云云计计算算系系统统实实现现能能大大大大节节省省用用户户的的硬硬件件资资源源开开支,支,用用户户不不用用自自己己购购买买并并维维护护大大量量固固定定的的硬硬件件资资源,源,只只需需向向自自己己实实际际消消费费的的资资源源量量来来付付费;费;按按需需提提供供资资源源服服务务使使应应用用开开发发者者在在逻逻辑辑上上可可以以认认为为资资源源池池的的大大小小是是
10、不不受受限限制制的,的,应应用用开开发发者者的的主主要要精精力力只只需需要要集集中中在在自自己己的的应应用用上。上。适适应应用用户户对对资资源源不不断断变变化化的的需需求求按按需需向向用用户户提提供供资资源源1.1.2云计算的特点现现有有的的云云计计算算平平台台的的重重要要特特点点是是利利用用软软件件来来实实现现硬硬件件资资源源的的虚虚拟拟化化管管理、理、调调度度及及应应用。用。在在云云计计算算中中利利用用虚虚拟拟化化技技术术可可大大大大降降低低维维护护成成本本和和提提高高资资源源的的利利用用率。率。1.1.2云计算的特点,基基于于云云计计算算系系统统的的应应用用服服务务通通常常都都是是通通过
11、过网网络络来来提提供供的,的,应应用用开开发发者者将将云云计计算算中中心心的的计计算、算、存存储储等等资资源源封封装装为为不不同同的的应应用用后后往往往往会会通通过过网网络络提提供供给给最最终终的的用用户。户。云云计计算算技技术术必必须须实实现现资资源源的的网网络络化化接接入入才才能能有有效效地地向向应应用用开开发发者者和和最最终终用用户户提提供供资资源源服服务。务。以以网网络络技技术术的的发发展展是是推推动动云云计计算算技技术术出出现现的的首首要要动动力。力。终终用用户户的的角角度度看看1.1.2云计算的特点用用户户数数据据存存储储在在服服务务器器端,端,而而应应用用程程序序在在服服务务器器
12、端端运运行,行,计计算算由由服服务务器器端端来来处处理。理。所所有有的的服服务务分分布布在在不不同同的的服服务务器器上,上,如如果果什什么么地地方方(节节点)点)出出问问题题就就在在什什么么地地方方终终止止它,它,另另外外再再启启动动一一个个程程序序或或节节点,点,即即,从从而而保保证证了了应应用用和和计计算算的的正正常常进进行。行。数数据据被被复复制制到到多多个个服服务务器器节节点点上上有有多多个个副副本本(备备份)份),存存储储在在云云里里的的数数据据即即使使遇遇到到意意外外删删除除或或硬硬件件崩崩溃溃也也不不会会受受到到影影响。响。自自动动处处理理失失败败节节点点1.1.2云计算的特点1
13、.1.3云计算技术分类1 1按技术路线分类按技术路线分类2 2按服务对象分类按服务对象分类3 3按资源封装的层次分类按资源封装的层次分类从技术路线角度可以分为资源整合型云计算和资源切分型云计算;从技术路线角度可以分为资源整合型云计算和资源切分型云计算;从服务对像角度可以被分为公有云和私有云;从服务对像角度可以被分为公有云和私有云;按资源封装的层次来分可以分为:按资源封装的层次来分可以分为:l基础设施即服务(基础设施即服务(Infrastructure as a ServiceInfrastructure as a Service,IaaSIaaS)l平台即服务(平台即服务(Platform a
14、s a ServicePlatform as a Service,PaaSPaaS)l软件即服务(软件即服务(Software as a ServiceSoftware as a Service,SaaSSaaS)。)。1.1.3云计算技术分类这这种种类类型型的的云云计计算算系系统统在在技技术术实实现现方方面面大大多多体体现现为为集集群群架架构,构,通通过过将将大大量量节节点点的的计计算算资资源源和和存存储储资资源源整整合合后后输输出。出。l这这类类系系统统通通常常能能实实现现跨跨节节点点弹弹性性化化的的资资源源池池构构建,建,核核心心技技术术为为分分布布式式计计算算和和存存储储技技术。术。l
15、MMP PI I、H Ha ad do oo op p、H HP PC CC C、S St to or rmm等等都都可可以以被被分分类类为为资资源源整整合合型型云云计计算算系系统。统。型型云云计计算:算:1.1.31.1.3云计算技术分类云计算技术分类这种类型最为典型的就是虚拟化系统,这这种类型最为典型的就是虚拟化系统,这类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。l这种技术的优点是用户的系统可以不做任何改变接入采用虚
16、这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统,是目前应用较为广泛的技术,特别是在拟化技术的云系统,是目前应用较为广泛的技术,特别是在桌面云计算技术上应用得较为成功;桌面云计算技术上应用得较为成功;l缺点是跨节点的资源整合代价较大;缺点是跨节点的资源整合代价较大;lKVMKVM、VMwareVMware都是这类技术的代表。都是这类技术的代表。1.1.3云计算技术分类指指服服务务对对象象是是面面向向公公众众的的云云计计算算服服务,务,公公有有云云对对云云计计算算系系统统的的稳稳定定性、性、安安全全性性和和并并发发服服务务能能力力有有更更高高的的要要求。求。指指主主要要服服务
17、务于于某某一一组组织织内内部部的的云云计计算算服服务,务,其其服服务务并并不不向向公公众众开开放,放,如如企企业、业、政政府府内内部部的的云云服服务。务。公公有有云云与与私私有有云云的的界界限限并并不不是是特特别别清清晰,晰,有有时时服服务务于于一一个个地地区区和和团团体体的的云云也也被被称称为为公公有有云。云。所所以以这这种种云云计计算算分分类类方方法法并并不不是是一一种种准准确确的的分分类类方方法,法,主主要要是是在在商商业业领领域域的的一一种种称称呼。呼。私私有有云:云:1.1.3云计算技术分类基基础础设设施施即即服服务务(I In nf fr ra as st tr ru uc ct
18、tu ur re e a as s a a S Se er rv vi ic ce e,):l把把单单纯纯的的计计算算和和存存储储资资源源地地直直接接通通过过网网络络提提供供的的用用户户使使用。用。l这这类类云云计计算算服服务务用用户户的的自自主主性性较较大,大,就就像像是是发发电电厂厂将将发发的的电电直直接接送送出出去去一一样。样。l这这类类云云服服务务的的对对象象往往往往是是的的资资源源使使用用者,者,传传统统数数据据中中心心的的主主机机租租用用等等可可能能作作为为I Ia aa aS S的的典典型型代代表。表。I Ia aa aS S不不经经封封装装以以服服务务的的形形式式具具有有专专业
19、业知知识识能能力力1.1.3云计算技术分类平平台台即即服服务务(P Pl la at tf fo or rm m a as s a a S Se er rv vi ic ce e,):l计计算算和和存存储储资资源源经经后,后,提提供供给给用用户户调调用,用,资资源源的的使使用用者者不不再再直直接接面面对对底底层层资资源。源。l平平台台即即服服务务需需要要平平台台软软件件的的支支撑,撑,可可以以认认为为是是从从资资源源到到应应用用软软件件的的一一个个,通通过过这这类类中中间间件件可可以以大大大大减减小小应应用用软软件件开开发发时时的的技技术术难难度。度。l这这类类云云服服务务的的对对象象往往往往
20、是是云云计计算算应应用用软软件件的的,平平台台软软件件的的开开发发需需要要使使用用者者。P Pa aa aS S封封装装以以某某种种接接口口和和协协议议的的形形式式中中间间件件开开发发者者具具有有一一定定的的技技术术能能力力1.1.3云计算技术分类软软件件即即服服务务(S So of ft tw wa ar re e a as s a a S Se er rv vi ic ce e,):l将将计计算算和和存存储储资资源源为为的的应应用用并并通通过过网网络络提提供供给给用用户;户;lS Sa aa aS S面面向向的的服服务务对对象象为为,用用户户只只是是,无无需需了了解解任任何何云云计计算算系
21、系统统的的内内部部结结构,构,也也不不需需要要用用户户具具有有专专业业的的技技术术开开发发能能力。力。S Sa aa aS S封封装装用用户户可可以以直直接接使使用用最最终终用用户户对对软软件件功功能能进进行行使使用用1.1.3云计算技术分类图图1.11.1云计算服务体系结构云计算服务体系结构如图所示,云计算系统按资源封装的层次分为IaaS、PaaS、SaaS,分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务的目的。传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的,而云计算系统通过用资源的,而云计
22、算系统通过IaaSIaaS、PaaSPaaS、SaaSSaaS等不同层次的封装将物等不同层次的封装将物理硬件资源封装后,以服务的形式利用网络提供给资源的使用者。理硬件资源封装后,以服务的形式利用网络提供给资源的使用者。在这里资源的使用者可能是资源的二次加工者,也可能是最终应用软件的在这里资源的使用者可能是资源的二次加工者,也可能是最终应用软件的使用者,通常使用者,通常IaaSIaaS、PaaSPaaS层面向的资源使用者往往是资源的二次加工者,层面向的资源使用者往往是资源的二次加工者,这类资源的使用者并不是资源的最终消费者,他们将资源转变为应用服务这类资源的使用者并不是资源的最终消费者,他们将资
23、源转变为应用服务程序后以程序后以SaaSSaaS的形式提供给资源的最终消费者。的形式提供给资源的最终消费者。实现对物理资源封装的技术并不是惟一的,目前不少的软件都能实现,甚实现对物理资源封装的技术并不是惟一的,目前不少的软件都能实现,甚至有的系统只有至有的系统只有SaaSSaaS层,并没有进行逐层的封装。层,并没有进行逐层的封装。1.1.3云计算技术分类云计算的服务层次是根据服务类型即服务集合来划分,与大家熟悉的计算机网络体系结构中层次的划分不同。在计算机网络中每个层次都实现一定的功能,层与层之间有一定关联。而云计算体系结构中的层次是可以分割的,即某一层次可以单独完成一项用户的请求而不需要其他
24、层次为其提供必要的服务和支持。1.1.3云计算技术分类在云计算服务体系结构中各层次与相关云产品对应。v应用层对应SaaS软件即服务, 如:Google APPS、SoftWare+Services。v平台层对应PaaS平台即服务, 如:IBM IT Factory、Google APPEngine、F。v基础设施层对应IaaS基础设施即服务, 如:Amazo EC2、IBM Blue Cloud、Sun Grid。v虚拟化层对应硬件即服务,结合PaaS提供硬件服务, 包括服务器集群及硬件检测等服务。1.1.3云计算技术分类1.2大数据技术概述1 1什么是大数据什么是大数据2 2数据的来源数据的
25、来源3 3生产数据的三个阶段生产数据的三个阶段4 4大数据的特点大数据的特点5 5大数据的应用领域大数据的应用领域1.2大数据技术概述计计算算和和数数据据是是信信息息产产业业不不变变的的主主题,题,在在信信息息和和网网络络技技术术迅迅速速发发展展的的推推动动下,下,人人们们的的感感知、知、计计算、算、仿仿真、真、模模拟、拟、传传播播等等活活动动产产生生了了大大量量的的数数据,据,数数据据的的产产生生不不受受时时间、间、地地点点的的限限制,制,大大数数据据的的概概念念逐逐渐渐形形成,成,大大数数据据涵涵盖盖了了计计算算和和数数据据两两大大主主题,题,是是产产业业界界和和学学术术界界的的研研究究热
26、热点,点,被被誉誉为为未未来来十十年年的的革革命命性性技技术。术。1.2.1大数据简介2008年,Nature杂志推出了“大数据”专辑,引发了学术界和产业界的关注;2011年,大数据应用进入我国并快速发展,目前大数据的应用和研究已经是学术界和产业界的热点;2012年3月,美国政府发布大数据研究和发展倡议,投资2亿美元发展大数据, 用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平;2012年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通信技术)战略,发布“新ICT计划”,重点关注大数据研究和应用;2013年1月,英国政府宣布将在对地观测、医疗卫生等大数
27、据和节能计算技术方面投资1.89亿英镑;2013年我国上海、重庆等地相继发布大数据行动计划。大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。分析和可视化等。以前以前10GB10GB的数据是个天文数字;而现在,在地球、物理、基因、空间的数据是个天文数字;而现在,在地球、物理、基因、空间科学等领域,科学等领域,TBTB级的数据集已经很普遍。大数据系统需要满足以下三级的数据集已经很普遍。大数据系
28、统需要满足以下三个个。(1 1)规模性()规模性(VolumeVolume):需要采集、处理、传输的数据容量大;():需要采集、处理、传输的数据容量大;(2 2)多样性(多样性(VarietyVariety):数据的种类多、复杂性高;):数据的种类多、复杂性高;(3 3)高速性()高速性(VelocityVelocity):数据需要频繁地采集、处理并输出。):数据需要频繁地采集、处理并输出。1.2.1大数据简介大数据的大数据的很多,主要有很多,主要有等等;其其包括包括、和和。 (1 1)管理信息系统:企业内部使用的信息系统,包括办公自动化系统、)管理信息系统:企业内部使用的信息系统,包括办公自
29、动化系统、业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构化数据,存储在数据库中。化数据,存储在数据库中。1.2.1大数据简介(2)网络信息系统:基于网络运行的信息系统是大数据产生的重要方式,电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统,网络信息系统产生的大数据多为半结构化或无结构化的数据,网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的,不接入外部的公共网络。(3)物联
30、网系统:通过传感器获取外界的物理、化学、生物等数据信息。(4)科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生也可以是通过模拟方式获取仿真的。1.2.11.2.1大数据简介大数据简介(1 1)被动式生成数据:)被动式生成数据: 数据库技术使得数据的保存和管理变得简单,业务系统在运数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数据库中,这个时候数据的产生是被行时产生的数据直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统的运行产生的。动的,数据是随着业务系统的运行产生的。1.2.1大数据简介(2)主动式生成数据: 互联网
31、的诞生尤其是Web 2.0、移动互联网的发展大大加速了数据的产生,人们可以随时随地通过手机等移动终端随时随地地生成数据,人们开始主动地生成数据。(3)感知式生成数据: 感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化,遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。1.2.1大数据简介 在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方式由以往的在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方式由以往的转变为转变为。:l以往我们进行数据采集时的以往我们进行数据采集时的,获得的,获得的;l在大数据时代,有了大数据处理平台的支撑,我们可以对需要
32、分析的事件的数据进行在大数据时代,有了大数据处理平台的支撑,我们可以对需要分析的事件的数据进行,从而,从而地地事件的事件的。:l以往我们多从各个以往我们多从各个获取数据,获取的数据较为孤立,不同数获取数据,获取的数据较为孤立,不同数据源之间的数据整合难度较大;据源之间的数据整合难度较大;l在大数据时代,我们可以通过分布式计算、分布式文件系统、分布式数据在大数据时代,我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对库等技术对获取的数据进行获取的数据进行。1.2.11.2.1大数据简介大数据简介 l以往我们对数据的处理大多采用以往我们对数据的处理大多采用的方式,对已经生成的数的方式,对
33、已经生成的数据集中进行分析处理,不对实时产生的数据进行分析;据集中进行分析处理,不对实时产生的数据进行分析;l在大数据时代,我们可以根据应用的实际需求对数据采取灵活的处在大数据时代,我们可以根据应用的实际需求对数据采取灵活的处理方式,对于较大的数据源、理方式,对于较大的数据源、的应用可以的应用可以的方式进行集中计算,而对于的方式进行集中计算,而对于的的处理则处理则的方式进行的方式进行,并且可以通过对,并且可以通过对的分析的分析进行进行; ;1.2.1大数据简介l大数据需要处理的数据大数据需要处理的数据大小通常达到大小通常达到或或; ; 数据的类型多种多样,包括数据的类型多种多样,包括数据、数据
34、、数据和数据和数据数据; ;l巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战,单节点的存储容量和计算能力成为瓶颈很大挑战,单节点的存储容量和计算能力成为瓶颈; ;是对大数据进行处理的基本方法,分布式系统将数据是对大数据进行处理的基本方法,分布式系统将数据上,并上,并,解决单节点的存储,解决单节点的存储和计算瓶颈。常见的和计算瓶颈。常见的有随机方法、哈希方法和区间方有随机方法、哈希方法和区间方法法: :将数据随机分布到不同的节点将数据随机分布到不同的节点; ;根据数据的某一行或者某一列的哈希值将数据分布到不同的节点
35、根据数据的某一行或者某一列的哈希值将数据分布到不同的节点; ;将不同的数据按照不同区间分布到不同节点。将不同的数据按照不同区间分布到不同节点。1.2.1大数据简介大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的要求各不相同,其对比如表要求各不相同,其对比如表1.11.1所示。所示。 表表1.1 1.1 典型的大数据应用特征对比典型的大数据应用特征对比1.2.1大数据简介大大数数据据处处理理的的数数据据源源类类型型
36、多多种种多多样,样,如如结结构构化化数数据、据、半半结结构构化化数数据、据、非非结结构构化化数数据,据,数数据据处处理理的的需需求求各各不不相相同同: :l对对海海量量已已有有数数据据进进行行批批量量处处理,理,l对对大大量量的的实实时时生生成成的的数数据据进进行行实实时时处处理,理,l在在进进行行数数据据分分析析时时进进行行反反复复迭迭代代计计算,算,l对对图图数数据据进进行行分分析析计计算。算。1.2.2主要的大数据处理系统 数数据据查查询询分分析析计计算算系系统、统、批批处处理理系系统、统、流流式式计计算算系系统、统、迭迭代代计计算算系系统、统、图图计计算算系系统统和和内内存存计计算算系
37、系统。统。大大数数据据时时代,代,数数据据查查询询分分析析计计算算系系统统需需要要具具备备对对大大规规模模数数据据进进行行实实时时或或准准实实时时查查询询的的能能力,力,数数据据规规模模的的增增长长已已经经超超出出了了传传统统关关系系型型数数据据库库的的承承载载和和处处理理能能力。力。目目前前主主要要的的数数据据查查询询分分析析计计算算系系统统包包括括H HB Ba as se e、H Hi iv ve e、C Ca as ss sa an nd dr ra a、D Dr re emme el l、S Sh ha ar rk k、H Ha an na a等。等。1数数据据查查询询分分析析计计算
38、算系系统统1.2.2主要的大数据处理系统开源、分布式、面向列的非关系型数据库模型,是开源、分布式、面向列的非关系型数据库模型,是ApacheApache的的HaHadoopdoop项目的子项目;项目的子项目;源于源于GoogleGoogle论文论文BigtableBigtable:一个结构化数据的分布式存储系:一个结构化数据的分布式存储系统统,实现了其中的压缩算法、内存操作和布隆过滤器,实现了其中的压缩算法、内存操作和布隆过滤器HBaseHBase的编程语言为的编程语言为JavaJava。HBaseHBase的表能够作为的表能够作为MapReduceMapReduce任任务的输入和输出,可以通
39、过务的输入和输出,可以通过Java APIJava API来存取数据。来存取数据。1.2.21.2.2主要的大数据处理系统主要的大数据处理系统基基于于H Ha ad do oo op p的的数数据据仓仓库库工工具,具,用用于于查查询、询、管管理理分分布布式式存存储储中中的的大大数数据据集,集,提提供供完完整整的的S SQ QL L查查询询功功能,能,可可以以将将结结构构化化的的数数据据文文件件映映射射为为一一张张数数据据表。表。H Hi iv ve e提提供供了了一一种种类类S SQ QL L语语言言(H Hi iv ve eQ QL L)可可以以将将S SQ QL L语语句句转转换换为为MM
40、a ap pR Re ed du uc ce e任任务务运运行。行。1.2.2主要的大数据处理系统开源开源NoSQLNoSQL数据库系统,最早由数据库系统,最早由FacebookFacebook开发,并于开发,并于20082008年年开源;开源;由于其良好的可扩展性,由于其良好的可扩展性,CassandraCassandra被被 FacebookFacebook、TwitterTwitter、B Backspaceackspace、CiscoCisco等公司使用;等公司使用;其数据模型借鉴了其数据模型借鉴了 AmazonAmazon的的 DynamoDynamo和和 Google BigTab
41、leGoogle BigTable,是一种流行的分布式结构化数据存储方案。是一种流行的分布式结构化数据存储方案。1.2.2主要的大数据处理系统由由C Cl lo ou ud de er ra a公公司司主主导导开开发,发,是是运运行行在在H Ha ad do oo op p平平台台上上的的开开源源的的大大规规模模并并行行S SQ QL L查查询询引引擎。擎。用用户户可可以以使使用用标标准准的的S SQ QL L接接口口的的工工具具查查询询存存储储在在H Ha ad do oo op p的的H HD DF FS S和和H HB Ba as se e中中的的P PB B级级大大数数据。据。1.2.
42、2主要的大数据处理系统S Sp pa ar rk k上上的的数数据据仓仓库库实实现,现,即即S SQ QL L o on n S Sp pa ar rk k;与与H Hi iv ve e相相兼兼容,容,但但处处理理H Hi iv ve e Q QL L 的的性性能能比比H Hi iv ve e 快快1 10 00 0 倍。倍。由由S SA AP P公公司司开开发发的的与与数数据据源源无无关、关、软软硬硬件件结结合、合、基基于于内内存存计计算算的的平平台。台。pHana:1.2.21.2.2主要的大数据处理系统主要的大数据处理系统MMa ap pR Re ed du uc ce e是是被被广广泛
43、泛使使用用的的批批处处理理计计算算模模式。式。MMa ap pR Re ed du uc ce e对对具具有有简简单单数数据据关关系、系、易易于于划划分分的的大大数数据据采采用用“分分而而治治之之”的的并并行行处处理理思思想,想,将将数数据据记记录录的的处处理理分分为为MMa ap p和和R Re ed du uc ce e两两个个简简单单的的抽抽象象操操作,作,提提供供了了一一个个统统一一的的并并行行计计算算框框架。架。批批处处理理系系统统将将复复杂杂的的并并行行计计算算的的实实现现进进行行封封装,装,大大大大降降低低开开发发人人员员的的并并行行程程序序设设计计难难度。度。H Ha ad d
44、o oo op p和和S Sp pa ar rk k是是典典型型的的批批处处理理系系统。统。MMa ap pR Re ed du uc ce e的的批批处处理理模模式式不不支支持持迭迭代代计计算。算。1.2.2主要的大数据处理系统目目前前大大数数据据处处理理最最主主流流的的平平台,台,是是A Ap pa ac ch he e基基金金会会的的开开源源软软件件项项目,目,使使用用J Ja av va a语语言言开开发发实实现。现。H Ha ad do oo op p平平台台使使开开发发人人员员无无需需了了解解底底层层的的分分布布式式细细节,节,即即可可开开发发出出分分布布式式程程序,序,在在集集群
45、群中中对对大大数数据据进进行行存存储、储、分分析。析。1.2.21.2.2主要的大数据处理系统主要的大数据处理系统由由加加州州伯伯克克利利大大学学A AMMP P实实验验室室开开发,发,适适合合用用于于机机器器学学习、习、数数据据挖挖掘掘等等迭迭代代运运算算较较多多的的计计算算任任务。务。S Sp pa ar rk k引引入入了了内内存存计计算算的的概概念,念,运运行行S Sp pa ar rk k时时服服务务器器可可以以将将中中间间数数据据存存储储在在R RA AMM内内存存中,中,大大大大加加速速数数据据分分析析结结果果的的返返回回速速度,度,可可用用于于需需要要互互动动分分析析的的场场景
46、。景。1.2.2主要的大数据处理系统流流式式计计算算具具有有很很强强的的实实时时性,性,需需要要对对应应用用源源源源不不断断产产生生的的数数据据实实时时进进行行处处理,理,使使数数据据不不积积压、压、不不丢丢失,失,常常用用于于处处理理电电信、信、电电力力等等行行业业应应用用以以及及互互联联网网行行业业的的访访问问日日志志等。等。F Fa ac ce eb bo oo ok k 的的 S Sc cr ri ib be e、 A Ap pa ac ch he e的的 F Fl lu umme e、 T Tw wi it tt te er r的的 S St to or rmm、 Y Ya ah h
47、o oo o的的S S4 4、U UC CB Be er rk ke el le ey y的的S Sp pa ar rk k S St tr re ea ammi in ng g是是常常用用的的流流式式计计算算系系统。统。1.2.2主要的大数据处理系统 S Sc cr ri ib be e 由由 F Fa ac ce eb bo oo ok k 开开发发开开源源系系统,统,用用于于从从海海量量服服务务器器实实时时收收集集日日志志信信息,息, 对对日日志志信信息息进进行行实实时时的的统统计计分分析析处处理,理,应应用用在在F Fa ac ce eb bo oo ok k内内部。部。 F Fl l
48、u umme e由由 C Cl lo ou ud de er ra a 公公司司开开发,发,其其功功能能与与S Sc cr ri ib be e相相似,似,主主要要用用于于实实时时收收集集在在海海量量节节点点上上产产生生的的日日志志信信息,息,存存储储到到类类似似于于H HD DF FS S的的网网络络文文件件系系统统中,中,并并根根据据用用户户的的需需求求进进行行相相应应的的数数据据分分析。析。pFlume:1.2.2主要的大数据处理系统基基于于拓拓扑扑的的,由由B Ba ac ck kT Ty yp pe e公公司司(后后被被T Tw wi it tt te er r收收购)购)开开发,发
49、,现现已已经经开开放放源源代代码,码,并并应应用用于于淘淘宝、宝、百百度、度、支支付付宝、宝、G Gr ro ou up po on n、F Fa ac ce eb bo oo ok k等等平平台,台,是是主主要要的的流流数数据据计计算算平平台台之之一。一。据据实实时时计计算算系系统统1.2.21.2.2主要的大数据处理系统主要的大数据处理系统S S4 4的的全全称称是是S Si immp pl le e S Sc ca al la ab bl le e S St tr re ea ammi in ng g S Sy ys st te emm,是是由由Y Ya ah ho oo o开开发发的的
50、通通用、用、分分布布式、式、可可扩扩展、展、部部分分容容错、错、具具备备可可插插拔拔功功能能的的平平台;台;其其设设计计目目的的是是根根据据用用户户的的搜搜索索内内容容计计算算得得到到相相应应的的推推荐荐广广告,告,现现已已经经开开源,源,是是重重要要的的大大数数据据计计算算平平台。台。1.2.2主要的大数据处理系统构构建建在在S Sp pa ar rk k上上的的流流数数据据处处理理框框架,架,将将流流式式计计算算分分解解成成一一系系列列短短小小的的批批处处理理任任务务进进行行处处理。理。网网站站流流量量统统计计是是S Sp pa ar rk k S St tr re ea ammi in