1、 并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31目目 录录 CONTENTSCONTENTSp第第1 1章章 云计算与大数据基础云计算与大数据基础 p第第2 2章章 云计算与大数据的相关技术云计算与大数据的相关技术 p第第3 3章章 虚拟化技术虚拟化技术 p第第4 4章章 集群系统基础集群系统基础 p第第5 5章章 MPIMPI面向计算面向计算p第第6 6章章 HadoopHadoop分布式大数据系统分布式大数据系统p第第7 7章章 HPCCHPCC面向数据的高性能计算集群系统面向数据的高性能计算集群系统 p第第8 8章章 StormStorm基于拓扑的流
2、数据实时计算系统基于拓扑的流数据实时计算系统p第第9 9章章 服务器与数据中心服务器与数据中心 p第第1010章章 云计算大数据仿真技术云计算大数据仿真技术并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31第第1 1章章 云计算与大数据基础云计算与大数据基础 1.1.11.1.1云计算简介云计算简介 1.1.21.1.2云计算的特点云计算的特点 1.1.31.1.3云计算技术分类云计算技术分类 1.2.11.2.1大数据简介大数据简介 1.2.21.2.2主要的大数据处理系统主要的大数据处理系统 1.2.31.2.3大数据处理的基本流程大数据处理的基本流程并行
3、计算实验室并行计算实验室 http:/www.qhoa.org2022-5-311.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 包括分布式计算技术、虚拟化技术、网络技术、服务器技术、包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。数据中心技术、云计算平台技术、存储技术等。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和云计算是一种
4、基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。信息可以按需求提供给计算机和其他设备。云计算是基于互联网的服务的增加、使用和交付模式,通常涉及云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。可作为一种商品通过互联网进行流通。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验
5、室 http:/www.qhoa.org2022-5-31 传统的信息产业企业既是资源的整合者又是资源的使用者;传统的信息产业企业既是资源的整合者又是资源的使用者; 这这种格局并不符合现代产业分工高度专业化的需求,同时也这这种格局并不符合现代产业分工高度专业化的需求,同时也不符合企业需要灵敏地适应客户的需要。不符合企业需要灵敏地适应客户的需要。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 传统的计算资源和存储资源大小通常是相对固定的,面对客户传统的计算资源和存储资源大小通常是相对固定的,面对客户高波动性的需求时会非
6、常的不敏捷,企业的计算和存储资源要高波动性的需求时会非常的不敏捷,企业的计算和存储资源要么是被浪费,要么是面对客户峰值需求时力不从心。么是被浪费,要么是面对客户峰值需求时力不从心。 云计算技术使资源与用户需求之间是一种弹性化的关系,资源云计算技术使资源与用户需求之间是一种弹性化的关系,资源的使用者和资源的整合者并不是一个企业,资源的使用者只需的使用者和资源的整合者并不是一个企业,资源的使用者只需要对资源按需付费,从而敏捷地响应客户不断变化的资源需求,要对资源按需付费,从而敏捷地响应客户不断变化的资源需求,这一方法降低了资源使用者的成本,提高了资源的利用效率。这一方法降低了资源使用者的成本,提高
7、了资源的利用效率。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 资源的整合运营者就像是发电厂负责资源的整合输出;资源的整合运营者就像是发电厂负责资源的整合输出; 资源的使用者负责将资源转变为满足客户需求的各种应用;资源的使用者负责将资源转变为满足客户需求的各种应用; 终端客户为资源的最终消费者。终端客户为资源的最终消费者。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 IBMIBM、微软、谷歌、微软、谷歌、DELLDELL等企业等企业 国
8、内企业:华为、中兴、腾讯、阿里、联想、浪潮、国内企业:华为、中兴、腾讯、阿里、联想、浪潮、五舟等企业五舟等企业1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 云计算技术作为一项涵盖面广且对产业影响深远的技云计算技术作为一项涵盖面广且对产业影响深远的技术,未来将逐步渗透到信息产业和其他产业的方方面术,未来将逐步渗透到信息产业和其他产业的方方面面,并将深刻改变产业的结构模式、技术模式和产品面,并将深刻改变产业的结构模式、技术模式和产品销售模式,进而深刻影响人们的生活;销售模式,进而深刻影响人们的生活; 云计算会逐步成为人
9、们生活中必不可少的技术;云计算会逐步成为人们生活中必不可少的技术;1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 移动互联网的出现使云计算应用走向了人们的指间,移动互联网的出现使云计算应用走向了人们的指间,推动了云计算技术的应用发展,今后云计算将是一项推动了云计算技术的应用发展,今后云计算将是一项随时、随地、随身为我们提供服务的技术;随时、随地、随身为我们提供服务的技术; 云计算的出现也将如电的出现一般,为信息产业的发云计算的出现也将如电的出现一般,为信息产业的发展提供无限的想象空间,使应用的创新能力得到完全展提供无
10、限的想象空间,使应用的创新能力得到完全释放。释放。1.1.11.1.1云计算简介云计算简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 1 1资源池弹性可扩张资源池弹性可扩张 2 2按需提供资源服务按需提供资源服务 3 3虚拟化虚拟化 4 4网络化的资源接入网络化的资源接入 5 5高可靠性和安全性高可靠性和安全性1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31云计算系统的一个重要特征就是云计算系统的一个重要特征就是,这就是所谓的资源池。,这就是所谓的资源池。从资源低效率的分散
11、使用到资源高效的集约化使用正是云计算的基本特征之一。从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。分散的资源使用方法造成了资源的极大浪费,现在每个人都可能有一到两台自分散的资源使用方法造成了资源的极大浪费,现在每个人都可能有一到两台自己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等己的计算机,但对这种资源的利用率却非常的低,计算机在大量时间都是在等待状态或是在处理文字数据等低负荷的任务。待状态或是在处理文字数据等低负荷的任务。资源集中起来后资源的利用效率会大大地提高,随着资源需求的不断提高,资资源集中起来后资源的利用效率会大大地提高,随着资源需求的不
12、断提高,资源池的弹性化扩张能力成为云计算系统的一个基本要求,云计算系统只有具备源池的弹性化扩张能力成为云计算系统的一个基本要求,云计算系统只有具备了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。了资源的弹性化扩张能力才能有效地应对不断增长的资源需求。大多数云计算系统都能较为方便地实现新资源的加入。大多数云计算系统都能较为方便地实现新资源的加入。1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 云计算系统带给客户最重要的好处就是敏捷地云计算系统带给客户最重要的好处就是敏捷地; 云计算系统实现云计算系统实现能大
13、大节省用户的硬件资能大大节省用户的硬件资源开支,用户不用自己购买并维护大量固定的硬件资源,只需源开支,用户不用自己购买并维护大量固定的硬件资源,只需向自己实际消费的资源量来付费;向自己实际消费的资源量来付费; 按需提供资源服务使应用开发者在逻辑上可以认为资源池的大按需提供资源服务使应用开发者在逻辑上可以认为资源池的大小是不受限制的,应用开发者的主要精力只需要集中在自己的小是不受限制的,应用开发者的主要精力只需要集中在自己的应用上。应用上。1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 现有的云计算平台的重要特点是
14、利用软件来实现硬件资源的虚现有的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调度及应用。拟化管理、调度及应用。 在云计算中利用虚拟化技术可大大降低维护成本和提高资源的在云计算中利用虚拟化技术可大大降低维护成本和提高资源的利用率。利用率。1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31,基于云计算系统的应用服务通常都是通,基于云计算系统的应用服务通常都是通过网络来提供的,应用开发者将云计算中心的计算、存储等资过网络来提供的,应用开发者将云计算中心的计算、存储等资源封装为不同的应用后往往会通过网络提供给最
15、终的用户。源封装为不同的应用后往往会通过网络提供给最终的用户。 云计算技术必须实现资源的网络化接入才能有效地向应用开发云计算技术必须实现资源的网络化接入才能有效地向应用开发者和最终用户提供资源服务。者和最终用户提供资源服务。 以网络技术的发展是推动云计算技术出现的首要动力。以网络技术的发展是推动云计算技术出现的首要动力。1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 用户数据存储在服务器端,而应用程序在服务器端运行,计算用户数据存储在服务器端,而应用程序在服务器端运行,计算由服务器端来处理。所有的服务分布在不同的
16、服务器上,如果由服务器端来处理。所有的服务分布在不同的服务器上,如果什么地方(节点)出问题就在什么地方终止它,另外再启动一什么地方(节点)出问题就在什么地方终止它,另外再启动一个程序或节点,即个程序或节点,即,从而保证了应用和计算,从而保证了应用和计算的正常进行。的正常进行。 数据被复制到多个服务器节点上有多个副本(备份),存储在数据被复制到多个服务器节点上有多个副本(备份),存储在云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。云里的数据即使遇到意外删除或硬件崩溃也不会受到影响。1.1.21.1.2云计算的特点云计算的特点并行计算实验室并行计算实验室 http:/www.qhoa.org
17、2022-5-311.1.31.1.3云计算技术分类云计算技术分类 1 1按技术路线分类按技术路线分类 2 2按服务对象分类按服务对象分类 3 3按资源封装的层次分类按资源封装的层次分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 从技术路线角度可以分为资源整合型云计算和资源切分型云计算;从技术路线角度可以分为资源整合型云计算和资源切分型云计算; 从服务对像角度可以被分为公有云和私有云;从服务对像角度可以被分为公有云和私有云; 按资源封装的层次来分可以分为:按资源封装的层次来分可以分为:l基础设施即服务(基础设施即服务(Infrastructure as
18、 a ServiceInfrastructure as a Service,IaaSIaaS)l平台即服务(平台即服务(Platform as a ServicePlatform as a Service,PaaSPaaS)l软件即服务(软件即服务(Software as a ServiceSoftware as a Service,SaaSSaaS)。)。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31这种类型的云计算系统在技术实现方面大这种类型的云计算系统在技术实现方面大多体现为集群架构,通过将大量节点的计
19、算资源和存储资源整多体现为集群架构,通过将大量节点的计算资源和存储资源整合后输出。合后输出。l这类系统通常能实现跨节点弹性化的资源池构建,核心技术这类系统通常能实现跨节点弹性化的资源池构建,核心技术为分布式计算和存储技术。为分布式计算和存储技术。lMPIMPI、HadoopHadoop、HPCCHPCC、StormStorm等都可以被分类为资源整合等都可以被分类为资源整合型云计算系统。型云计算系统。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31这种类型最为典型的就是虚拟化系统,这这种类型最为典型的就是虚拟化系
20、统,这类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化类云计算系统通过系统虚拟化实现对单个服务器资源的弹性化切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。切分,从而有效地利用服务器资源,其核心技术为虚拟化技术。l这种技术的优点是用户的系统可以不做任何改变接入采用虚这种技术的优点是用户的系统可以不做任何改变接入采用虚拟化技术的云系统,是目前应用较为广泛的技术,特别是在拟化技术的云系统,是目前应用较为广泛的技术,特别是在桌面云计算技术上应用得较为成功;桌面云计算技术上应用得较为成功;l缺点是跨节点的资源整合代价较大;缺点是跨节点的资源整合代价较大;lKVMKVM、VMwareVMw
21、are都是这类技术的代表。都是这类技术的代表。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31指服务对象是面向公众的云计算服务,公有云对云指服务对象是面向公众的云计算服务,公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。计算系统的稳定性、安全性和并发服务能力有更高的要求。指主要服务于某一组织内部的云计算服务,其服务指主要服务于某一组织内部的云计算服务,其服务并不向公众开放,如企业、政府内部的云服务。并不向公众开放,如企业、政府内部的云服务。 公有云与私有云的界限并不是特别清晰,有时服务于一个地公有
22、云与私有云的界限并不是特别清晰,有时服务于一个地区和团体的云也被称为公有云。所以这种云计算分类方法并区和团体的云也被称为公有云。所以这种云计算分类方法并不是一种准确的分类方法,主要是在商业领域的一种称呼。不是一种准确的分类方法,主要是在商业领域的一种称呼。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 基础设施即服务(基础设施即服务(Infrastructure as a ServiceInfrastructure as a Service,):):l把单纯的计算和存储资源把单纯的计算和存储资源地直接通过网络
23、地直接通过网络提供的用户使用。提供的用户使用。l这类云计算服务用户的自主性较大,就像是发电厂将发的这类云计算服务用户的自主性较大,就像是发电厂将发的电直接送出去一样。电直接送出去一样。l这类云服务的对象往往是这类云服务的对象往往是的资源使用者,的资源使用者,传统数据中心的主机租用等可能作为传统数据中心的主机租用等可能作为IaaSIaaS的典型代表。的典型代表。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 平台即服务(平台即服务(Platform as a ServicePlatform as a Servi
24、ce,):):l计算和存储资源经计算和存储资源经后,后,提提供给用户调用,资源的使用者不再直接面对底层资源。供给用户调用,资源的使用者不再直接面对底层资源。l平台即服务需要平台软件的支撑,可以认为是从资源平台即服务需要平台软件的支撑,可以认为是从资源到应用软件的一个到应用软件的一个,通过这类中间件可以大大减,通过这类中间件可以大大减小应用软件开发时的技术难度。小应用软件开发时的技术难度。l这类云服务的对象往往是云计算应用软件的这类云服务的对象往往是云计算应用软件的,平,平台软件的开发需要使用者台软件的开发需要使用者。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室
25、http:/www.qhoa.org2022-5-31 软件即服务(软件即服务(Software as a ServiceSoftware as a Service,):):l将计算和存储资源将计算和存储资源为为的应用并通过网的应用并通过网络提供给用户;络提供给用户;lSaaSSaaS面向的服务对象为面向的服务对象为,用户只是,用户只是,无需了解任何云计算系统的内部结构,也不需要用,无需了解任何云计算系统的内部结构,也不需要用户具有专业的技术开发能力。户具有专业的技术开发能力。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org20
26、22-5-31图图1.11.1云计算服务体系结构云计算服务体系结构如图所示,云计算系统按资源封装的层次分为如图所示,云计算系统按资源封装的层次分为IaaSIaaS、PaaSPaaS、SaaSSaaS,分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务分为对底层硬件资源不同级别的封装,从而实现将资源转变为服务的目的。的目的。传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使传统的信息系统资源的使用者通常是以直接占有物理硬件资源的形式来使用资源的,而云计算系统通过用资源的,而云计算系统通过IaaSIaaS、PaaSPaaS、SaaSSaaS等不同层次的封装将物等不同层次的封装
27、将物理硬件资源封装后,以服务的形式利用网络提供给资源的使用者。理硬件资源封装后,以服务的形式利用网络提供给资源的使用者。在这里资源的使用者可能是资源的二次加工者,也可能是最终应用软件的在这里资源的使用者可能是资源的二次加工者,也可能是最终应用软件的使用者,通常使用者,通常IaaSIaaS、PaaSPaaS层面向的资源使用者往往是资源的二次加工者,层面向的资源使用者往往是资源的二次加工者,这类资源的使用者并不是资源的最终消费者,他们将资源转变为应用服务这类资源的使用者并不是资源的最终消费者,他们将资源转变为应用服务程序后以程序后以SaaSSaaS的形式提供给资源的最终消费者。的形式提供给资源的最
28、终消费者。实现对物理资源封装的技术并不是惟一的,目前不少的软件都能实现,甚实现对物理资源封装的技术并不是惟一的,目前不少的软件都能实现,甚至有的系统只有至有的系统只有SaaSSaaS层,并没有进行逐层的封装。层,并没有进行逐层的封装。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 云计算的服务层次是根据服务类型即服务集合来划分,与大家云计算的服务层次是根据服务类型即服务集合来划分,与大家熟悉的计算机网络体系结构中层次的划分不同。熟悉的计算机网络体系结构中层次的划分不同。 在计算机网络中每个层次都实现一定的功能
29、,层与层之间有一在计算机网络中每个层次都实现一定的功能,层与层之间有一定关联。而云计算体系结构中的层次是可以分割的,即某一层定关联。而云计算体系结构中的层次是可以分割的,即某一层次可以单独完成一项用户的请求而不需要其他层次为其提供必次可以单独完成一项用户的请求而不需要其他层次为其提供必要的服务和支持。要的服务和支持。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 在云计算服务体系结构中各层次与相关云产品对应。在云计算服务体系结构中各层次与相关云产品对应。l应用层对应应用层对应SaaSSaaS软件即服务,软件即
30、服务, 如:如:Google APPSGoogle APPS、SoftWare+ServicesSoftWare+Services。l平台层对应平台层对应PaaSPaaS平台即服务,平台即服务, 如:如:IBM IT FactoryIBM IT Factory、Google APPEngineGoogle APPEngine、FF。l基础设施层对应基础设施层对应IaaSIaaS基础设施即服务,基础设施即服务, 如:如:AmazoAmazo EC2 EC2、IBM Blue CloudIBM Blue Cloud、Sun GridSun Grid。l虚拟化层对应硬件即服务,结合虚拟化层对应硬件即
31、服务,结合PaaSPaaS提供硬件服务,提供硬件服务, 包括服务器集群及硬件检测等服务。包括服务器集群及硬件检测等服务。1.1.31.1.3云计算技术分类云计算技术分类并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-311.21.2大数据技术概述大数据技术概述 1 1什么是大数据什么是大数据 2 2数据的来源数据的来源 3 3生产数据的三个阶段生产数据的三个阶段 4 4大数据的特点大数据的特点 5 5大数据的应用领域大数据的应用领域并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-311.21.2大数据技术概述大数据技术概述 计算和
32、数据是信息产业不变的主题,在信息和网络技术迅速发计算和数据是信息产业不变的主题,在信息和网络技术迅速发展的推动下,人们的感知、计算、仿真、模拟、传播等活动产展的推动下,人们的感知、计算、仿真、模拟、传播等活动产生了大量的数据,数据的产生不受时间、地点的限制,大数据生了大量的数据,数据的产生不受时间、地点的限制,大数据的概念逐渐形成,大数据涵盖了计算和数据两大主题,是产业的概念逐渐形成,大数据涵盖了计算和数据两大主题,是产业界和学术界的研究热点,被誉为未来十年的革命性技术。界和学术界的研究热点,被誉为未来十年的革命性技术。并行计算实验室并行计算实验室 http:/www.qhoa.org2022
33、-5-311.2.11.2.1大数据简介大数据简介20082008年,年,NatureNature杂志推出了杂志推出了“大数据大数据”专辑,引发了学术界和产专辑,引发了学术界和产业界的关注;业界的关注;20112011年,大数据应用进入我国并快速发展,目前大数据的应用和研究年,大数据应用进入我国并快速发展,目前大数据的应用和研究已经是学术界和产业界的热点;已经是学术界和产业界的热点;20122012年年3 3月,美国政府发布月,美国政府发布大数据研究和发展倡议大数据研究和发展倡议,投资,投资2 2亿美元亿美元发展大数据发展大数据, , 用以强化国土安全、转变教育学习模式、加速科学和工程用以强化
34、国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平;领域的创新速度和水平;20122012年年7 7月,日本提出以电子政府、电子医疗、防灾等为中心制定新月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICICT T(信息通信技术)战略,发布(信息通信技术)战略,发布“新新ICTICT计划计划”,重点关注大数据研究,重点关注大数据研究和应用;和应用;20132013年年1 1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资算技术方面投资1.891.89亿英镑;亿英镑;20132013年我国上海、重庆等地相继
35、发布大数据行动计划年我国上海、重庆等地相继发布大数据行动计划。并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、复杂的数据集,大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。分析和可视化等。以前以前10GB10GB的数据是个天文数字;而现在,在地球、物理、基因、空间的数据是个天文数字;而现在,在地球、物理、基因、空间科学等领域,科学等领域,TBTB级的数据集已经很普遍。
36、大数据系统需要满足以下三级的数据集已经很普遍。大数据系统需要满足以下三个个。(1 1)规模性()规模性(VolumeVolume):需要采集、处理、传输的数据容量大;():需要采集、处理、传输的数据容量大;(2 2)多样性(多样性(VarietyVariety):数据的种类多、复杂性高;):数据的种类多、复杂性高;(3 3)高速性()高速性(VelocityVelocity):数据需要频繁地采集、处理并输出。):数据需要频繁地采集、处理并输出。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 大数据的大数据的很多,主要
37、有很多,主要有等等; 其其包括包括、和和。 (1 1)管理信息系统:企业内部使用的信息系统,包括办公自动化系统、)管理信息系统:企业内部使用的信息系统,包括办公自动化系统、业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用业务管理系统等,是常见的数据产生方式。管理信息系统主要通过用户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构户输入和系统的二次加工的方式生成数据,其产生的数据大多为结构化数据,存储在数据库中。化数据,存储在数据库中。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31(2 2)网络信
38、息系统:基于网络运行的信息系统是大数据产生的重要方式,)网络信息系统:基于网络运行的信息系统是大数据产生的重要方式,电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统,网络信息系统产生的大数据多为半结构化或无结构化的数据,网络信统,网络信息系统产生的大数据多为半结构化或无结构化的数据,网络信息系统与管理信息系统的区别在于管理信息系统是内部使用的,不接入外息系统与管理信息系统的区别在于管理信息系统是内部使用的,不接入外部的公共网络。部的公共网络。(3 3)物联网系统:通过传感器获取外界的物理、化学、生物等数据信息。)
39、物联网系统:通过传感器获取外界的物理、化学、生物等数据信息。(4 4)科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据)科学实验系统:主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生也可以是通过模拟方式获取仿真的。既可以是由真实实验产生也可以是通过模拟方式获取仿真的。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 (1 1)被动式生成数据:)被动式生成数据: 数据库技术使得数据的保存和管理变得简单,业务系统在运数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据直接保存数
40、据库中,这个时候数据的产生是被行时产生的数据直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统的运行产生的。动的,数据是随着业务系统的运行产生的。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 (2 2)主动式生成数据:)主动式生成数据: 互联网的诞生尤其是互联网的诞生尤其是Web 2.0Web 2.0、移动互联网的发展大大加速、移动互联网的发展大大加速了数据的产生,人们可以随时随地通过手机等移动终端随时了数据的产生,人们可以随时随地通过手机等移动终端随时随地地生成数据,人们开始主动地生成数据。随地地生
41、成数据,人们开始主动地生成数据。 (3 3)感知式生成数据:)感知式生成数据: 感知技术尤其是物联网的发展促进了数据生成方式发生了根感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化,遍布在城市各个角落的摄像头等数据采集设备本性的变化,遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。源源不断地自动采集、生成数据。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方式由以往的在大数据时代,数据的产生方式发生了巨大的变化,数据的采集方
42、式由以往的转变为转变为。:l以往我们进行数据采集时的以往我们进行数据采集时的,获得的,获得的;l在大数据时代,有了大数据处理平台的支撑,我们可以对需要分析的事件的数据进行在大数据时代,有了大数据处理平台的支撑,我们可以对需要分析的事件的数据进行,从而,从而地地事件的事件的。:l以往我们多从各个以往我们多从各个获取数据,获取的数据较为孤立,不同数获取数据,获取的数据较为孤立,不同数据源之间的数据整合难度较大;据源之间的数据整合难度较大;l在大数据时代,我们可以通过分布式计算、分布式文件系统、分布式数据在大数据时代,我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对库等技术对获取的数据进
43、行获取的数据进行。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 l以往我们对数据的处理大多采用以往我们对数据的处理大多采用的方式,对已经生成的数的方式,对已经生成的数据集中进行分析处理,不对实时产生的数据进行分析;据集中进行分析处理,不对实时产生的数据进行分析;l在大数据时代,我们可以根据应用的实际需求对数据采取灵活的处在大数据时代,我们可以根据应用的实际需求对数据采取灵活的处理方式,对于较大的数据源、理方式,对于较大的数据源、的应用可以的应用可以的方式进行集中计算,而对于的方式进行集中计算,而对于的的处理则处理则
44、的方式进行的方式进行,并且可以通过对,并且可以通过对的分析的分析进行进行; ;1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31l大数据需要处理的数据大数据需要处理的数据大小通常达到大小通常达到或或; ; 数据的类型多种多样,包括数据的类型多种多样,包括数据、数据、数据和数据和数据数据; ;l巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来巨大的数据量和种类繁多的数据类型给大数据系统的存储和计算带来很大挑战,单节点的存储容量和计算能力成为瓶颈很大挑战,单节点的存储容量和计算能力成为瓶颈; ;是对大数据进行处理
45、的基本方法,分布式系统将数据是对大数据进行处理的基本方法,分布式系统将数据上,并上,并,解决单节点的存储,解决单节点的存储和计算瓶颈。常见的和计算瓶颈。常见的有随机方法、哈希方法和区间方有随机方法、哈希方法和区间方法法: :将数据随机分布到不同的节点将数据随机分布到不同的节点; ;根据数据的某一行或者某一列的哈希值将数据分布到不同的节点根据数据的某一行或者某一列的哈希值将数据分布到不同的节点; ;将不同的数据按照不同区间分布到不同节点。将不同的数据按照不同区间分布到不同节点。1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-
46、31大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据大数据在社会生活的各个领域得到广泛的应用,不同领域的大数据应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的应用具有不同的特点,其对响应时间、系统稳定性、计算精确性的要求各不相同,其对比如表要求各不相同,其对比如表1.11.1所示。所示。 表表1.1 1.1 典型的大数据应用特征对比典型的大数据应用特征对比应用领域应用领域示例示例用户数量用户数量响应时延响应时延数据量级数据量级稳定性稳定性精确度精确度科学计算科学计算基因计算基因计算小小长长TBTB一般一般非常高非常高金融金融股票交易股票交易大大实时实时GBGB非常高非常高非
47、常高非常高社交网络社交网络FacebookFacebook非常大非常大快速快速PBPB高高高高移动数据移动数据移动终端移动终端非常大非常大快速快速TBTB高高高高物联网物联网传感网传感网大大快速快速TBTB高高高高网页数据网页数据新闻网站新闻网站非常大非常大快速快速GBGB高高高高多媒体多媒体视频网站视频网站非常大非常大快速快速GBGB高高一般一般1.2.11.2.1大数据简介大数据简介并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 大数据处理的数据源类型多种多样,如结构化数据、半结构化大数据处理的数据源类型多种多样,如结构化数据、半结构化数据、非结构化数
48、据,数据处理的需求各不相同数据、非结构化数据,数据处理的需求各不相同: :l对海量已有数据进行批量处理,对海量已有数据进行批量处理,l对大量的实时生成的数据进行实时处理,对大量的实时生成的数据进行实时处理,l在进行数据分析时进行反复迭代计算,在进行数据分析时进行反复迭代计算,l对图数据进行分析计算。对图数据进行分析计算。1.2.21.2.2主要的大数据处理系统主要的大数据处理系统并行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 数据查询分析计算系统、批处理系统、流式计算系统、迭代计算数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内
49、存计算系统。系统、图计算系统和内存计算系统。大数据时代,数据查询分析计算系统需要具备对大规模数据进行实大数据时代,数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力,数据规模的增长已经超出了传统关系型数时或准实时查询的能力,数据规模的增长已经超出了传统关系型数据库的承载和处理能力。据库的承载和处理能力。目前主要的数据查询分析计算系统包括目前主要的数据查询分析计算系统包括HBaseHBase、HiveHive、CassandraCassandra、DremelDremel、SharkShark、HanaHana等。等。1.2.21.2.2主要的大数据处理系统主要的大数据处理系统并
50、行计算实验室并行计算实验室 http:/www.qhoa.org2022-5-31 开源、分布式、面向列的非关系型数据库模型,是开源、分布式、面向列的非关系型数据库模型,是ApacheApache的的HaHadoopdoop项目的子项目;项目的子项目; 源于源于GoogleGoogle论文论文BigtableBigtable:一个结构化数据的分布式存储系:一个结构化数据的分布式存储系统统,实现了其中的压缩算法、内存操作和布隆过滤器,实现了其中的压缩算法、内存操作和布隆过滤器 HBaseHBase的编程语言为的编程语言为JavaJava。HBaseHBase的表能够作为的表能够作为MapRedu