1、2022-7-23物联网应用技术与实践物联网应用技术与实践 2018.5 2022-7-23第第6章章 数据与管理技术数据与管理技术 6.1 6.1 数据库技术数据库技术 6.1.16.1.1物联网数据的特点物联网数据的特点 在物联网中,相比传统的互联网,物联网数据的特在物联网中,相比传统的互联网,物联网数据的特点具有海量性,实时性、多样性、关联性及语义性。点具有海量性,实时性、多样性、关联性及语义性。2022-7-231 1、海量性、海量性 物联网中的数据量巨大,物联网的最主要特征之一物联网中的数据量巨大,物联网的最主要特征之一是节点的海量性,除了人和服务器之外,物品、设备、是节点的海量性,
2、除了人和服务器之外,物品、设备、传感网等都是物联网的组成节点,其数量规模远大于互传感网等都是物联网的组成节点,其数量规模远大于互联网;同时,物联网节点的数据生成频率也远高于互联联网;同时,物联网节点的数据生成频率也远高于互联网,例如,传感节点多数处于全时工作状态,数据流源网,例如,传感节点多数处于全时工作状态,数据流源源不断。源不断。2022-7-23 如果传感网是部署在更为敏感的应用场合时(例如果传感网是部署在更为敏感的应用场合时(例如,智能电网、建筑检测等),则要求传感器有着更如,智能电网、建筑检测等),则要求传感器有着更高的数据传输率,每天的数据量可达到高的数据传输率,每天的数据量可达到
3、TBTB以上。在以上。在未来,若是地球上的每个人、每件物品都能互联互通,未来,若是地球上的每个人、每件物品都能互联互通,那么,其产生的数据量会更加令人瞠目结舌。那么,其产生的数据量会更加令人瞠目结舌。2022-7-232 2、实时性、实时性 物联网中的数据速率较高,一方面,物联网中数据海物联网中的数据速率较高,一方面,物联网中数据海量性必然要求骨干网汇聚更多的数据,数据的传输速率量性必然要求骨干网汇聚更多的数据,数据的传输速率要求更高;另一方面,由于物联网与真实物理世界直接要求更高;另一方面,由于物联网与真实物理世界直接关联,很多情况下需要实时访问、控制相应的节点和设关联,很多情况下需要实时访
4、问、控制相应的节点和设备,因此,需要高数据传输速率来支持相应的实时性。备,因此,需要高数据传输速率来支持相应的实时性。2022-7-233 3、多样化、多样化 物联网中的数据更加多样化,物联网的应用包物联网中的数据更加多样化,物联网的应用包罗万象,从智慧城市、智慧交通、智慧物流、商品罗万象,从智慧城市、智慧交通、智慧物流、商品溯源,到智能家居、智慧医疗、安防监控等,无一溯源,到智能家居、智慧医疗、安防监控等,无一不是物联网应用范畴;在不同领域、不同行业,需不是物联网应用范畴;在不同领域、不同行业,需要面对不同类型、不同格式的应用数据,因此,物要面对不同类型、不同格式的应用数据,因此,物联网中数
5、据多样性更为突出。数据的多态性必将带联网中数据多样性更为突出。数据的多态性必将带来处理数据的复杂性。来处理数据的复杂性。2022-7-231 1)不同的网络导致数据具有不同的格式,比如同样是温)不同的网络导致数据具有不同的格式,比如同样是温度,有的网络将其称为度,有的网络将其称为“温度温度”,有的网络将其称为,有的网络将其称为“Temperature”Temperature”,有的网络以摄氏度为单位,有的网络则,有的网络以摄氏度为单位,有的网络则以华氏度为单位;以华氏度为单位;2 2)不同的设备导致数据具有不同的精度,比如,同样是)不同的设备导致数据具有不同的精度,比如,同样是测量环境中的二氧
6、化碳浓度,有些设备能达到测量环境中的二氧化碳浓度,有些设备能达到0.1ppm0.1ppm的分的分辨率,而有些设备仅有辨率,而有些设备仅有1pmm1pmm的分辨率;的分辨率;2022-7-23 3 3)不同的测量时间、测量条件导致数据具有不同的值,)不同的测量时间、测量条件导致数据具有不同的值,物联网中物体的一个显著特征就在于动态性,在同一个十物联网中物体的一个显著特征就在于动态性,在同一个十字路口使用同样的传感器去测量行人流量,这个值会随着字路口使用同样的传感器去测量行人流量,这个值会随着上下班高峰等时间条件而变化,也会随着温度、降雨等自上下班高峰等时间条件而变化,也会随着温度、降雨等自然条件
7、而变化。然条件而变化。2022-7-23 4 4)物联网对数据真实性的要求更高,物联网是真实物理)物联网对数据真实性的要求更高,物联网是真实物理世界与虚拟信息世界的结合,其对数据的处理以及基于世界与虚拟信息世界的结合,其对数据的处理以及基于此进行的决策将直接影响物理世界,物联网中数据的真此进行的决策将直接影响物理世界,物联网中数据的真实性显得尤为重要。实性显得尤为重要。2022-7-234、关联性及语义性、关联性及语义性 物联网中的数据绝对不是独立的。描物联网中的数据绝对不是独立的。描述同一个实体的数据在实践上具有关联述同一个实体的数据在实践上具有关联性;描述不同实体的数据在空间上具有性;描述
8、不同实体的数据在空间上具有关联性;描述实体的不同唯独之间也具关联性;描述实体的不同唯独之间也具有关联性。不同的关联性组合会产生丰有关联性。不同的关联性组合会产生丰富的语义。富的语义。2022-7-23 6.1.2 支撑物联网的数据库技术支撑物联网的数据库技术 1 1、数据库概念、数据库概念 数据库是长期存储在计算机内有组织的大量的共数据库是长期存储在计算机内有组织的大量的共享的数据集合,它可以供各种用户共享且具有最小的享的数据集合,它可以供各种用户共享且具有最小的冗余度和较高的数据与程序的独立性。冗余度和较高的数据与程序的独立性。2022-7-23 由于有多种程序并发地使用数据库,所以,需要由
9、于有多种程序并发地使用数据库,所以,需要能有效地及时处理数据,并提供安全性和完整性。这能有效地及时处理数据,并提供安全性和完整性。这样就必须有一个软件系统,即数据库管理系统样就必须有一个软件系统,即数据库管理系统(Database Management System(Database Management System,DBMS)DBMS)在数据库建立、在数据库建立、运行和维护时对数据库进行统一控制,以保证数据的运行和维护时对数据库进行统一控制,以保证数据的安全性和完整性,同时在多用户使用数据库时进行并安全性和完整性,同时在多用户使用数据库时进行并发控制,在发生故障后对系统进行恢复。发控制,在
10、发生故障后对系统进行恢复。2022-7-232 2、数据库设计、数据库设计 数据库设计技术是指对于一个给定的应用环境,构造数据库设计技术是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够最优的数据库模式,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需要。有效地存储数据,满足各种用户的应用需要。数据库设计包含结构设计和行为设计两方面。早期的数据库设计包含结构设计和行为设计两方面。早期的数据库设计致力于数据模型和建模方法的研究,注重结构数据库设计致力于数据模型和建模方法的研究,注重结构特性的设计而忽略了对行为的设计,一般将结构设计与行特性的设计
11、而忽略了对行为的设计,一般将结构设计与行为设计分开进行。为设计分开进行。2022-7-23 现代数据库设计方法运用软件工程的思想和方法,提现代数据库设计方法运用软件工程的思想和方法,提出了各种设计准则和规程,这些都属于规范设计法,下面出了各种设计准则和规程,这些都属于规范设计法,下面介绍几种规范设计法。介绍几种规范设计法。1 1)新奥尔良()新奥尔良(New OrleansNew Orleans)方法)方法,它将数据库设计,它将数据库设计分为需求分析(分析用户要求)、概念分析(信息分析和分为需求分析(分析用户要求)、概念分析(信息分析和定义)、逻辑分析(设计实现)和物理实现(物理数据库定义)、
12、逻辑分析(设计实现)和物理实现(物理数据库设计)个阶段。设计)个阶段。2022-7-23 2 2)基于)基于E-RE-R模型的数据库设计方法模型的数据库设计方法,用,用E-RE-R图来描述图来描述现实世界的概念模型。现实世界的概念模型。E-RE-R图即实体图即实体-联系图联系图(Entity(Entity Relationship DiagramRelationship Diagram,E-R)E-R),是指提供了表示实体型、属性,是指提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。和联系的方法,用来描述现实世界的概念模型。E-R E-R方法是方法是“实体实体-联系方法联系方法
13、”,它是描述现实世界概,它是描述现实世界概念结构模型的有效方法。通常用矩形框代表实体,用连接念结构模型的有效方法。通常用矩形框代表实体,用连接相关实体的菱形框表示关系,用椭圆形或圆角矩形表示实相关实体的菱形框表示关系,用椭圆形或圆角矩形表示实体体(或关系或关系)的属性,并用直线把实体的属性,并用直线把实体(或关系或关系)与其属性连接与其属性连接起来起来 2022-7-23 联系可分为以下联系可分为以下3 3种类型,种类型,一类是一对一联系一类是一对一联系 (1:1)(1:1)例如,一个部门有一个经理,而每个经理只在一个例如,一个部门有一个经理,而每个经理只在一个部门任职,则部门与经理的联系是一
14、对一的。部门任职,则部门与经理的联系是一对一的。2022-7-23二类是一对多联系二类是一对多联系 (1(1:N)N)例如,某校教师与课程之间存在一对多的联系例如,某校教师与课程之间存在一对多的联系“教教”,即,即每位教师可以教多门课程,但是每门课程只能由一位教师每位教师可以教多门课程,但是每门课程只能由一位教师来教。来教。三类是多对多联系三类是多对多联系 (M N)(M N)例如,学生与课程间的联系例如,学生与课程间的联系(“(“学学”)是多对多的,即一个是多对多的,即一个学生可以学多门课程,而每门课程可以有多个学生来学。学生可以学多门课程,而每门课程可以有多个学生来学。联系也可能有属性。联
15、系也可能有属性。2022-7-233 3)基于)基于3NF3NF(第(第3 3范式)的设计方法。范式)的设计方法。该方法以关系数据库理论为指导来设计数据库的逻辑该方法以关系数据库理论为指导来设计数据库的逻辑模型,该方法需要利用关系规范化理论对所设计的关系模模型,该方法需要利用关系规范化理论对所设计的关系模型进行规范,一般要求将关系模式规范到型进行规范,一般要求将关系模式规范到3NF3NF以上。以上。2022-7-234 4)基于对象定义语言设计方法。)基于对象定义语言设计方法。这是面向对象的数据库设计方法,该方法用面向对象这是面向对象的数据库设计方法,该方法用面向对象的概念和术语来说明数据库结
16、构。的概念和术语来说明数据库结构。用用ODLODL(Object Definition LanguageObject Definition Language,ODLODL即对象定义即对象定义语言)描述面向对象数据库结构设计,可以将其直接转换语言)描述面向对象数据库结构设计,可以将其直接转换为面向对象的数据库。为面向对象的数据库。2022-7-23 规范设计法从本质上看仍然是手工设计方法,其基本规范设计法从本质上看仍然是手工设计方法,其基本思想是过程迭代和逐步求精。数据库设计它包括下面思想是过程迭代和逐步求精。数据库设计它包括下面 六个六个阶段阶段 (1)(1)需求分析阶段需求分析阶段(2)(2
17、)概念结构设计阶段概念结构设计阶段(3)(3)逻辑结构设计阶段逻辑结构设计阶段(4)(4)数据库物理设计阶段数据库物理设计阶段(5)(5)数据库实现阶段数据库实现阶段(6)(6)数据库运行和维护阶段数据库运行和维护阶段 2022-7-233 3、常用数据库介绍、常用数据库介绍1 1)关系数据库)关系数据库,关系数据库是建立在关系模型基础上,关系数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。间的各种联
18、系均用关系模型来表示。标准数据查询语言标准数据查询语言SQLSQL就是一种基于关系数据库就是一种基于关系数据库的语言,这种语言执行对关系数据库中数据的检索和的语言,这种语言执行对关系数据库中数据的检索和操作。操作。关系模型由关系数据结构、关系操作集合、关系关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成。完整性约束三部分组成。2022-7-23 传统的关系型数据库具有数据结构化、最低冗余度、传统的关系型数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、易于编制应用程较高的程序与数据独立性、易于扩充、易于编制应用程序等优点,目前较大的信息系统都是建立在结构化数据序
19、等优点,目前较大的信息系统都是建立在结构化数据库设计之上的。然而,随着越来越多企业海量数据的产库设计之上的。然而,随着越来越多企业海量数据的产生,使得非结构化数据的应用日趋扩大,以及对海量数生,使得非结构化数据的应用日趋扩大,以及对海量数据快速访问、有效的备份恢复机制、实时数据分析等等据快速访问、有效的备份恢复机制、实时数据分析等等的需求不断增加。因此,在物联网中主要使用的是关系的需求不断增加。因此,在物联网中主要使用的是关系数据库和新兴数据库系统。数据库和新兴数据库系统。2022-7-23 关系数据库系统作为一项有着近半个世纪历史的数关系数据库系统作为一项有着近半个世纪历史的数据处理技术,仍
20、可在物联网中使用,为物联网的运行提据处理技术,仍可在物联网中使用,为物联网的运行提供支撑。供支撑。2022-7-232 2)非关系型数据库()非关系型数据库(NoSQLNoSQL)NoSQLNoSQL(Not Only SQL(Not Only SQL,NoSQL)NoSQL)意即意即“不仅仅是不仅仅是SQL”SQL”。传统的关系数据库在将来大量出现的物联网应。传统的关系数据库在将来大量出现的物联网应用,暴露了很多难以克服的问题。用,暴露了很多难以克服的问题。例如,传统的关系数据库难以满足对数据库高并发例如,传统的关系数据库难以满足对数据库高并发读写的需求、对海量数据的高效率存储和访问的需求、
21、读写的需求、对海量数据的高效率存储和访问的需求、对数据库的高可扩展性和高可用性的需求。对数据库的高可扩展性和高可用性的需求。2022-7-23NoSQLNoSQL数据库大致可以分为以下的四类。数据库大致可以分为以下的四类。(1 1)键值)键值(Key-Value)(Key-Value)存储数据库存储数据库(2 2)列存储数据库()列存储数据库(3 3)文档型数据库)文档型数据库(4 4)图形)图形(Graph)(Graph)数据库数据库2022-7-233 3)实时数据库)实时数据库 实时数据库(实时数据库(Real Time Data BaseReal Time Data Base,RTDB
22、RTDB)是数据库)是数据库系统发展的一个分支,是数据库技术结合实时处理技术产系统发展的一个分支,是数据库技术结合实时处理技术产生的。生的。实时数据库系统是开发实时控制系统、数据采集系统、实时数据库系统是开发实时控制系统、数据采集系统、CIMSCIMS系统等的支撑软件。实时数据库已经成为企业信息化系统等的支撑软件。实时数据库已经成为企业信息化的基础数据平台。的基础数据平台。2022-7-23 在流程行业中,大量使用实时数据库系统进行控在流程行业中,大量使用实时数据库系统进行控制系统监控,系统先进控制和优化控制,并为企业制系统监控,系统先进控制和优化控制,并为企业的生产管理和调度、数据分析、决策
23、支持及远程在的生产管理和调度、数据分析、决策支持及远程在线浏览提供实时数据服务和多种数据管理功能。线浏览提供实时数据服务和多种数据管理功能。2022-7-23 针对不同行业不同类型的企业,实时数据库的数据针对不同行业不同类型的企业,实时数据库的数据来源方式也各不相同。总的来说数据的主要来源有来源方式也各不相同。总的来说数据的主要来源有DCSDCS控制系统、由组态软件控制系统、由组态软件 +PLC+PLC建立的控制系统、数据采建立的控制系统、数据采集系统、关系数据库系统、直接连接硬件设备和通过人集系统、关系数据库系统、直接连接硬件设备和通过人机界面人工录入的数据。机界面人工录入的数据。2022-
24、7-23 实时数据库结构由采集站实时数据库结构由采集站DADA、数据服务器、数据服务器、WEBWEB服务器、客户端组成,同时和关系数据库进行有效的服务器、客户端组成,同时和关系数据库进行有效的数据交换,数据交换,DCSDCS的数据经过的数据经过DADA进行采集,由进行采集,由DA ServerDA Server送到数据服务器,数据服务器再有效的送给其它客户送到数据服务器,数据服务器再有效的送给其它客户端。端。2022-7-235 5)多媒体数据库)多媒体数据库 多媒体数据库(多媒体数据库(Multimedia Data BaseMultimedia Data Base,MDBMDB)是传统)是
25、传统数据库技术与多媒体技术相结合的产物,是以数据库的方数据库技术与多媒体技术相结合的产物,是以数据库的方式存储计算机中的文字、图形、图像、音频和视频等多媒式存储计算机中的文字、图形、图像、音频和视频等多媒体信息。体信息。多媒体数据库管理系统(多媒体数据库管理系统(MDBMSMDBMS)是一个支持多媒)是一个支持多媒体数据库的建立、使用与维护的软件系统,负责实现对多体数据库的建立、使用与维护的软件系统,负责实现对多媒体对象的存储、处理、检索和输出等功能。媒体对象的存储、处理、检索和输出等功能。2022-7-236 6)并行数据库)并行数据库 并行数据库(并行数据库(Parallel Data B
26、aseParallel Data Base,PDBPDB)是传统数据库技)是传统数据库技术与并行技术相结合的产物,它在并行体系结构的支持下,术与并行技术相结合的产物,它在并行体系结构的支持下,实现数据库操作处理的并行化,以提高数据库的效率。实现数据库操作处理的并行化,以提高数据库的效率。超级并行机的发展推动了并行数据库技术的发展。并行超级并行机的发展推动了并行数据库技术的发展。并行数据库的设计目标是提高大型数据库系统的查询与处理效率,数据库的设计目标是提高大型数据库系统的查询与处理效率,而提高效率的途径不仅是依靠软件手段,更重要的是依靠硬而提高效率的途径不仅是依靠软件手段,更重要的是依靠硬件的
27、多件的多CPUCPU的并行操作来实现。的并行操作来实现。2022-7-236.2 6.2 物联网海量数据存储与搜索物联网海量数据存储与搜索 6.2.1 6.2.1 常见数据存储方式常见数据存储方式 海量信息存储早期采用大型服务器存储,基本都是以海量信息存储早期采用大型服务器存储,基本都是以服务器为中心的处理模式,使用直接附加存储(服务器为中心的处理模式,使用直接附加存储(Direct Direct Attached StorageAttached Storage,DASDAS),存储设备(包括磁盘阵列,磁),存储设备(包括磁盘阵列,磁带库,光盘库等)作为服务器的外设使用。为了能够共享带库,光盘
28、库等)作为服务器的外设使用。为了能够共享大容量,采用高速度存储设备,并且不占用局域网资源的大容量,采用高速度存储设备,并且不占用局域网资源的海量信息传输和备份,就需要专用存储区域网络(海量信息传输和备份,就需要专用存储区域网络(SANSAN,Storage Area NetworkStorage Area Network)来实现。)来实现。2022-7-23 随着计算机系统的迅速发展,存储系统体系结构先后随着计算机系统的迅速发展,存储系统体系结构先后经历了经历了“直接附加存储(直接附加存储(Direct Attached Storage Direct Attached Storage,DASD
29、AS)体系结构、网络附加存储(体系结构、网络附加存储(Network Attached StorageNetwork Attached Storage,NASNAS)体系结构和存储局域网络(体系结构和存储局域网络(Storage Area Network Storage Area Network,SANSAN)体系结构体系结构”三种主要类型的发展。三种主要类型的发展。2022-7-231 1、直接附加存储(、直接附加存储(DASDAS)在在DASDAS这种方式中,存储设备是通过电缆,通常是这种方式中,存储设备是通过电缆,通常是利用利用SCSISCSI接口电缆直接接到服务器。接口电缆直接接到服务
30、器。I/OI/O(输入(输入/输出)输出)请求直接发送到存储设备。它依赖于服务器,其本身是请求直接发送到存储设备。它依赖于服务器,其本身是硬件的堆叠,不带有任何存储操作系统。这是一种直接硬件的堆叠,不带有任何存储操作系统。这是一种直接与主机系统相连接的存储设备,与主机系统相连接的存储设备,DASDAS是计算机系统中最是计算机系统中最常用的数据存储方法。常用的数据存储方法。2022-7-23 这种存储方式有如下缺点。这种存储方式有如下缺点。1 1)可扩展性差。服务器内部广泛使用的)可扩展性差。服务器内部广泛使用的SCSISCSI通道的个数通道的个数和可连接的硬盘数、连接的距离以及连接的可靠性都是
31、和可连接的硬盘数、连接的距离以及连接的可靠性都是有限的;有限的;2 2)网络负载大,系统的性能低。采用)网络负载大,系统的性能低。采用DASDAS,重要业务数,重要业务数据的备份需要在局域网上传输,会造成较大的网络负载,据的备份需要在局域网上传输,会造成较大的网络负载,并且传送的性能也很差,还需要占用服务器的并且传送的性能也很差,还需要占用服务器的CPUCPU资源,资源,对业务会有很大的影响;对业务会有很大的影响;2022-7-23 3 3)存储分散,可管理性差,管理成本高。)存储分散,可管理性差,管理成本高。目前存储一般分散在服务器上,而不同的应用可能目前存储一般分散在服务器上,而不同的应用
32、可能会采用不同厂家的产品和购置不同的软件,为此系统管会采用不同厂家的产品和购置不同的软件,为此系统管理员需要掌握不同存储产品的管理技能,增加不少负担。理员需要掌握不同存储产品的管理技能,增加不少负担。2022-7-232 2、网络附加存储(、网络附加存储(NASNAS)网络附加存储(网络附加存储(NASNAS)是指将存储设备通过标准的网)是指将存储设备通过标准的网络拓扑结构(例如以太网),连接到一群计算机上,具备络拓扑结构(例如以太网),连接到一群计算机上,具备资料存储功能的装置,因此,也称为资料存储功能的装置,因此,也称为“网络存储器网络存储器”或者或者“网络磁盘阵列网络磁盘阵列”。2022
33、-7-23 NAS NAS包括存储设备和集成在一起的简易服务器,包括存储设备和集成在一起的简易服务器,可以实现涉及文件存取和管理的所有功能。在可以实现涉及文件存取和管理的所有功能。在NASNAS存储结构中,存储系统不再通过存储结构中,存储系统不再通过I/OI/O总线附属于某个总线附属于某个特定的服务器或客户机,而是直接通过网络接口与特定的服务器或客户机,而是直接通过网络接口与网络直接相连,由用户通过网络访问。网络直接相连,由用户通过网络访问。NASNAS是一种专业的网络文件存储及文件备份设是一种专业的网络文件存储及文件备份设备,它是基于备,它是基于LANLAN(局域网)的,按照(局域网)的,按
34、照TCP/IPTCP/IP协议协议进行通信,以文件的进行通信,以文件的I/OI/O(输入(输入/输出)方式进行数输出)方式进行数据传输。据传输。2022-7-23 在在LANLAN环境下,环境下,NASNAS已经完全可以实现异构平台之已经完全可以实现异构平台之间的数据级共享,比如间的数据级共享,比如NTNT、UNIXUNIX等平台的共享。等平台的共享。NASNAS可以应用在任何的网络环境当中。主服务器和客户端可可以应用在任何的网络环境当中。主服务器和客户端可以非常方便地在以非常方便地在NASNAS上存取任意格式的文件。上存取任意格式的文件。2022-7-23 NAS NAS应用和维护简单,只需
35、要将应用和维护简单,只需要将NASNAS设备通过网卡设备通过网卡接入现有的接入现有的LANLAN,而磁带库则通过备份服务器也接入,而磁带库则通过备份服务器也接入LANLAN。通过。通过LANLAN备份备份NASNAS设备和其他服务器的数据部设备和其他服务器的数据部署非常简单和快捷,不仅提高了现有网络的使用率,署非常简单和快捷,不仅提高了现有网络的使用率,保护了用户的投资,也降低了系统管理员的维护难度。保护了用户的投资,也降低了系统管理员的维护难度。低成本、易安装,适用于工作组级和部门级的存储,低成本、易安装,适用于工作组级和部门级的存储,或者是用于如或者是用于如WebWeb服务那样需要高效存取
36、文件的环境。服务那样需要高效存取文件的环境。2022-7-23 NASNAS缺点缺点是安全性问题,由于存储设备直接与以是安全性问题,由于存储设备直接与以太网相连,其安全性存在着一定的问题。通常为了保太网相连,其安全性存在着一定的问题。通常为了保障安全性,需要设置防火墙。大量数据存储都通过网障安全性,需要设置防火墙。大量数据存储都通过网络完成,增加了网络的负载,特别不适合于音频、视络完成,增加了网络的负载,特别不适合于音频、视频数据的存储。灾难恢复比较困难,通常需要一个专频数据的存储。灾难恢复比较困难,通常需要一个专门定制方案。门定制方案。2022-7-233 3、存储区域网络(、存储区域网络(
37、SANSAN)存储区域网络存储区域网络SANSAN(Storage Area NetworkStorage Area Network,SANSAN)是一)是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。速专用子网。存储区域网络主要由接口(如存储区域网络主要由接口(如SCSISCSI、光纤通道、光纤通道、ESCONESCON等)、连接设备(交换设备、网关、路由器、集线等)、连接设备(交换设备、网关、路由器、集线器等)和通信控制协议
38、(例如,器等)和通信控制协议(例如,IPIP和和SCSISCSI等)等三部分组等)等三部分组成。由这三个组件再加上附加的存储设备和独立的成。由这三个组件再加上附加的存储设备和独立的SANSAN服服务器,就构成一个务器,就构成一个SANSAN系统。系统。2022-7-23 SAN SAN是建立在存储协议基础之上的可使服务器与是建立在存储协议基础之上的可使服务器与存储设备之间进行存储设备之间进行“any to any”any to any”连接通信的存储网络连接通信的存储网络系统,可以实现多服务器共享一个阵列子系统、共享系统,可以实现多服务器共享一个阵列子系统、共享一个自动库实现数据的共享和集中的
39、管理,进而完成一个自动库实现数据的共享和集中的管理,进而完成快速、大容量和安全可靠的数据存储。快速、大容量和安全可靠的数据存储。提供企业商务数据或运营商数据的存储和备份管提供企业商务数据或运营商数据的存储和备份管理的网络。基于网络化的存储,理的网络。基于网络化的存储,SANSAN比传统的存储和比传统的存储和备份技术拥有更大的容量和更强的性能。备份技术拥有更大的容量和更强的性能。2022-7-23 通过专门的存储管理软件,可以直接在通过专门的存储管理软件,可以直接在SANSAN里的大里的大型主机、服务器或其它服务端电脑上添加硬盘和磁带设型主机、服务器或其它服务端电脑上添加硬盘和磁带设备。通常备。
40、通常SANSAN被配置成网络的后端部分,存在于数据中被配置成网络的后端部分,存在于数据中心或者服务器之后,采用光纤通道等存储专用协议连接心或者服务器之后,采用光纤通道等存储专用协议连接成高速专用网络。采用双存储处理器以提高性能,而模成高速专用网络。采用双存储处理器以提高性能,而模块化的磁盘阵列则具有高度可扩充性。块化的磁盘阵列则具有高度可扩充性。2022-7-23 通过专门的存储管理软件,可以直接在通过专门的存储管理软件,可以直接在SANSAN里里的大型主机、服务器或其它服务端电脑上添加硬盘的大型主机、服务器或其它服务端电脑上添加硬盘和磁带设备。通常和磁带设备。通常SANSAN被配置成网络的后
41、端部分,被配置成网络的后端部分,存在于数据中心或者服务器之后,采用光纤通道等存在于数据中心或者服务器之后,采用光纤通道等存储专用协议连接成高速专用网络。采用双存储处存储专用协议连接成高速专用网络。采用双存储处理器以提高性能,而模块化的磁盘阵列则具有高度理器以提高性能,而模块化的磁盘阵列则具有高度可扩充性。可扩充性。2022-7-23 磁盘阵列、光纤交换机、磁带库和服务器之间采用冗磁盘阵列、光纤交换机、磁带库和服务器之间采用冗余的光纤进行连接,可以保证整个系统的可靠性和数据流余的光纤进行连接,可以保证整个系统的可靠性和数据流量的负载均衡。通过磁带库对磁盘阵列的数据进行定期的量的负载均衡。通过磁带
42、库对磁盘阵列的数据进行定期的备份,可以保证数据的完整性和可靠性,并且备份通过备份,可以保证数据的完整性和可靠性,并且备份通过SANSAN网络进行数据传输,不占用局域网的带宽和服务器的网络进行数据传输,不占用局域网的带宽和服务器的资源,极大地提高了整个系统的性能。资源,极大地提高了整个系统的性能。2022-7-23 对于大数据量存储,需要实时访问数据的单位,对于大数据量存储,需要实时访问数据的单位,推荐使用推荐使用SANSAN进行数据的存储和备份。它完全采用进行数据的存储和备份。它完全采用光纤连接,数据传输速度非常快,对于所有的应用光纤连接,数据传输速度非常快,对于所有的应用都可以很好地满足。实
43、现了数据的集中管理,可以都可以很好地满足。实现了数据的集中管理,可以方便的进行数据的备份,同时形成的一个包含所有方便的进行数据的备份,同时形成的一个包含所有数据的数据中心,易于实现信息共享。使用专用的数据的数据中心,易于实现信息共享。使用专用的SANSAN交换机,交换机,SANSAN技术不受基于技术不受基于SCSISCSI存储结构的布存储结构的布局限制,可以在线增加存储容量,具有良好的可伸局限制,可以在线增加存储容量,具有良好的可伸缩性。缩性。2022-7-23 存储区域网络存储区域网络SANSAN缺点是属于高端应用,采用缺点是属于高端应用,采用专用协议,部署复杂,维护人员需要经过一定培训,专
44、用协议,部署复杂,维护人员需要经过一定培训,投资较大。投资较大。2022-7-234 4、三种网络存储结构的比较、三种网络存储结构的比较 从具体功能上讲,三种网络存储结构分别适用于不从具体功能上讲,三种网络存储结构分别适用于不同的应用环境。同的应用环境。1 1)直接附加存储)直接附加存储(DAS)(DAS)是将存储系统通过缆线直接与是将存储系统通过缆线直接与服务器或工作站相连,一般包括多个硬盘驱动器,与服务器或工作站相连,一般包括多个硬盘驱动器,与主机总线适配器通过电缆或光纤,在存储设备和主机主机总线适配器通过电缆或光纤,在存储设备和主机总线适配器之间不存在其他网络设备,实现了计算机总线适配器
45、之间不存在其他网络设备,实现了计算机内存储到存储子系统的跨越。内存储到存储子系统的跨越。2022-7-23 2 2)网络附加存储)网络附加存储(NAS)(NAS)是文件级的计算机数据存储架是文件级的计算机数据存储架构,计算机连接到一个仅为其它设备提供基于文件级构,计算机连接到一个仅为其它设备提供基于文件级数据存储服务的网络。数据存储服务的网络。3 3)存储区域网络)存储区域网络(SAN)(SAN)是通过网络方式连接存储设备是通过网络方式连接存储设备和应用服务器的存储架构,由服务器、存储设备和和应用服务器的存储架构,由服务器、存储设备和SANSAN连接设备组成。连接设备组成。SANSAN的特点是
46、存储共享并支持服的特点是存储共享并支持服务器从务器从SANSAN直接启动。直接启动。2022-7-235 5、物联网数据存储、物联网数据存储 物联网时代是海量数据的时代,物联网数据存储将物联网时代是海量数据的时代,物联网数据存储将使用数据中心的模式。数据中心是一整套复杂的设施。使用数据中心的模式。数据中心是一整套复杂的设施。它不仅包括计算机系统和其它与之配套的设备(例如通它不仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。制设备、监控设备以及各种安全装置。2022-7-
47、23 计算机网络的飞速发展导致全球信息总量迅猛增长,计算机网络的飞速发展导致全球信息总量迅猛增长,据统计据统计20102010年全球产生的达到年全球产生的达到1.2ZB1.2ZB(1212亿亿TBTB),世界进),世界进入入ZBZB时代。时代。IDC IDC预测全球数据量从预测全球数据量从20062006年到年到20112011年年5 5年将增年将增1010倍。倍。而物联网中对象的数量将庞大到以百亿为单位。由于物联而物联网中对象的数量将庞大到以百亿为单位。由于物联网中的对象积极参与业务流程的需求、高强度计算需求和网中的对象积极参与业务流程的需求、高强度计算需求和数据的持续在线可获取的特性,导致
48、了网络化存储和大型数据的持续在线可获取的特性,导致了网络化存储和大型数据中心的诞生。数据中心的诞生。2022-7-236.2.26.2.2数据搜索数据搜索1 1、搜索引擎技术概述、搜索引擎技术概述 搜索引擎(搜索引擎(search enginesearch engine)是指根据一定的策略、)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,对信息运用特定的计算机程序搜集互联网上的信息,对信息进行组织和处理后,并将处理后的信息显示给用户,进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。是为用户提供检索服务的系统。2022-7-23 万维网(万维网(World
49、 Wide WebWorld Wide Web,WWWWWW)还没有出现时,)还没有出现时,19901990年,加拿大麦吉尔大学年,加拿大麦吉尔大学(University of McGill)(University of McGill)计算机计算机学院的师生开发出学院的师生开发出ArchieArchie,人们通过,人们通过FTPFTP来共享交流资来共享交流资源。但和搜索引擎的基本工作方式是一样的,即自动搜源。但和搜索引擎的基本工作方式是一样的,即自动搜集信息资源、建立索引、提供检索服务,所以,集信息资源、建立索引、提供检索服务,所以,ArchieArchie被公认为现代搜索引擎的鼻祖。被公认为
50、现代搜索引擎的鼻祖。2022-7-23 有了万维网后,人们开发了全文索引引擎,国有了万维网后,人们开发了全文索引引擎,国外代表有外代表有GoogleGoogle,国内则有著名的百度搜索。它们,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。列顺序返回结果。2022-7-23 根据搜索结果来源的不同,全文搜索引擎可分为两根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(类,一类拥有自己的检索程序(Inde
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。