1、第四章数字信息存储方式与存储系统第四章数字信息存储方式与存储系统主流存储体系结构及对比分析数字信息存储保护的软件系统存储系统开发的关键技术与标准规范技术方案选用原则与评价方法第一节主流存储体系结构及对比分析 根据存储器件所在位置的不同,存储方式可以分为内置存储和外挂存储两大类 典型的内置存储方式:RAM、寄存器等;内置存储价格昂贵,容量较小 外挂存储根据连接的方式又可分为直连式存储(Direct-Attached Storage,DAS)和网络化存储(Fabric-Attached Storage,FAS)直连式存储依赖服务器主机操作系统进行数据的IO数据的读写和存储维护管理,数据备份和恢复会
2、占用宝贵的服务器主机资源,数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大 网络化存储根据传输协议的不同,进一步分为附网存储(Network-Attached Storage,NAS)和存储区域网(Storage Area Network,SAN)集群存储(Clustered Storage)则是一种新的存储方式第一节主流存储体系结构及对比分析1.直连式存储(DAS)直连式存储是指存储设备与计算机主机直接相连 磁盘驱动器通过PCI总线或其他外围总系与CPU相连,把这种存储连接方式称为直连式存储 DAS是相对于SAN或NAS而言的第一节主流存储体系结构及对比分析2.存储区域网
3、(SAN)存储区域网是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网 目的是支持存储设备与计算机系统或存储设备与存储设备之间的通信 SAN比传统的存储和备份技术拥有更大的容量和更强的性能 通常,SAN被配置成服务器的后端部分,存在于数据中心或者服务器之后第一节主流存储体系结构及对比分析2.存储区域网(SAN)大多数存储网络为保持传统数据存取接口的一致性,使用SCSI接口进行服务器和磁盘驱动器设备之间的通信 因为服务器本身的总线拓扑结构并不适用于网络环境,故未使用连接电缆等底层物理连接介质,而是在服务器和磁盘驱动器之间采用其他底层
4、通信协议作为映射层来实现网络连接 常见的映射方式有:光纤通道协议FCP(Fibre Channel Protocol)、iSCSI、HyperSCSI、ATA over Ethernet、使用光纤通道连接的FICON、Fibre Channel over Ethernet(FCE)、Extensions for RDMA(iSER)、iFCP或SANoIP第一节主流存储体系结构及对比分析2.存储区域网(SAN)(1)SAN基础设施与兼容性 SAN通常利用光纤通道拓扑结构 光纤通道技术提供了比NAS中的上层协议更为可靠和快速的通信指标 光纤通道SAN结构可以由若干个光纤通道交换机组成 主流SAN
5、设备提供商提供了不同形式的光纤通道路由解决方案,让不同的光纤网在不需要合并的条件下交换数据第一节主流存储体系结构及对比分析2.存储区域网(SAN)(2)SAN的不足 SAN设备比较昂贵,通常被用在大型的、高性能的企业存储操作中 设备的互操作性较差,不同厂家的设备很难互操作 构建SAN成本高,目前只有实力较大的企业构建自己的SAN 管理和维护成本高,企业需要花钱培训专门的管理和维护人员 SAN只能提供存储空间共享而不能提供异构环境下的文件共享第一节主流存储体系结构及对比分析3.附网存储 附网存储就是连接在网络上的具备资料存储功能的设备 NAS是一种专业的网络文件存储及文件备份设备,它将分布的、独
6、立的数据整合为大型的、集中化管理的数据中心,支持对不同主机和应用服务器的访问 NAS底层通过TCP/IP协议进行通信,以文件I/O方式进行数据传输第一节主流存储体系结构及对比分析3.附网存储第一节主流存储体系结构及对比分析3.附网存储(1)NAS的优点 NAS具有自己独立的操作系统,可以实现不同平台的文件共享,具有文件服务器的特点;NAS拥有较大的存储空间和相对低廉的价格,性价比较高 NAS在上层能够支持多种协议,如NFS、CIFS、FTP、HTTP等,且能够支持各种操作系统 NAS数据存储方案是基于现实IT标准而设计的,兼容性高 NAS是即插即用的产品,物理配置灵活第一节主流存储体系结构及对
7、比分析3.附网存储(2)NAS的不足 数据的传输速度较慢;NAS只能提供文件级而不能提供块级的数据传输 NAS设备难以升级 数据备份时性能较低 只能管理单个NAS,很难将位于同一局域网中的多个NAS集中管理 一些特定的NAS设备缺少普通文件系统所具备的一些典型服务,或者虽然具备这些功能,但其实现方式非常低效第一节主流存储体系结构及对比分析3.附网存储(3)NAS的应用与发展 NAS的最大消费市场需求是不断涌现的大量多媒体数据,传统的NAS产品主要应用于企业,用来实现文件共享、数据(远程)备份和网络打印等 随着计算机在家庭中的普及与计算机产品价格的不断下降,现在出现了家用NAS产品 在NAS的软
8、件支持方面,目前有很多面向NAS分布式存储的开源系统,如FreeNAS、NASLite以及OpenFilter第一节主流存储体系结构及对比分析4.DAS、NAS与SAN的对比分析(1)对应的文件系统的位置不相同第一节主流存储体系结构及对比分析4.DAS、NAS与SAN的对比分析(2)组织方式不相同第一节主流存储体系结构及对比分析4.DAS、NAS与SAN的对比分析(3)SAN与NAS的主要特点以及区别功能功能SANNAS主要功能主要功能通过存储区域网络访问存储设备通过LAN或WAN访问指定服务器后的存储设备应用领域应用领域通用服务和数据存储,包括OLTP文件服务和数据存储数据传输协议数据传输协
9、议CIFS、NFS或HTTP,取决于客户服务器的文件系统CIFS、NFS或HTTP,取决于客户服务器的文件系统数据吞吐率数据吞吐率10/100Mbps,1000Mbps10/100Mbps,1000Mbps可靠性可靠性冗余硬件及软件,提供系统高可靠性冗余电源及风扇可扩展性可扩展性增加光纤通道、交换机和存储设备以扩展存储能力增加NAS设备文件系统文件系统主流在服务器上,作为网络操作系统的一部分NAS设备内置简化的操作系统,通过网络操作管理远程文件服务器第一节主流存储体系结构及对比分析5.NAS与SAN的融合 NAS与SAN特点不同,为了能够满足用户的不同需求,我们可以把NAS以及SAN融合到一个
10、网络中,提供存储服务第一节主流存储体系结构及对比分析5.NAS与SAN的融合 NAS与SAN处理数据请求的方式不相同 SAN和NAS所在网络形式不同 因此不能简单的在物理上将两者联合 目前主要有两种SAN与NAS的融合方案:NAS网关(NAS头方式)和统一存储系统第一节主流存储体系结构及对比分析5.NAS与SAN的融合 NAS网关(NAS头方式)NAS网关接入到背后的SAN网络,为NAS网关提供存储容量,使NAS网关可以以类似于SAN服务的方式为客户机提供存储服务 NAS网关负责文件和块数据之间的转换工作第一节主流存储体系结构及对比分析5.NAS与SAN的融合 统一存储系统 统一网络存储为SA
11、N提供统一访问NAS存储设备的支持 为NAS增加对FCP的支持,以保证SAN可以访问到NAS设备中的存储数据第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(1)推动集群存储革命的三大宏观趋势 非结构化数据和数字内容(数字图像、数字视频、数字音频、计算机模拟数据、扫描文档、网页数据等)的爆炸性增长 集群计算的广泛应用 更廉价、更快的行业标准企业级硬件的激增第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(2)传统意义上的集群存储 集群存储体系结构可以把多个存储设备组织到一起形成一个存储容量更大、可靠性更高的存储实体
12、 集群存储又可以分为传统意义的双向简单故障转移集群与命名空间聚合存储,以及新的分布式文件系统集群存储第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(2)传统意义上的集群存储 双向简单故障转移集群 在过去的存储行业中,集群是指在一对冗余节点之间的主动故障转移,这种方式是一种冗余备份技术而非集群技术,但NAS供应商通常称其为“双向集群”双向集群主要解决存储过程中的数据安全性问题 缺点:可扩展性不强、系统规模有限、管理复杂以及实现成本相对较高第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(2)传统意义上的集群存储 命
13、名空间聚合存储 将存储管理连为一体,提供透明服务 既可以完全由软件(即软件虚拟化)实现,也可以是软件与硬件的混合实现 创建了存储资源的单一命名空间和集群,像一个大型数据管理池,为系统使用存储服务提供单一的公共访问点,屏蔽了底层存储设备的差异性 最初的成本较低,但最终会带来更高的复杂性、更重的管理负担以及更高的长期运营成本第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(3)分布式集群存储 与SAN和NAS相似,是一种新的网络存储方式,它允许用户组合和添加存储节点,所有这些节点都是访问同一个数据池的 这些解决方案直接驻留在存储层上,其中文件系统可以完全分布
14、在任意数量的节点上,故可以完全控制数据在构成集群的所有存储节点中的存储方式 可以保持节点对称和分布均衡,从而使集群作为一个统一的智能系统协同工作,同时每个节点可以独立运行,并与其他节点进行通信以传输文件 在所有方案中可用性、可靠性、可扩展性、总吞吐量以及易管理性最高第一节主流存储体系结构及对比分析6.集群存储与应用(Clustered Storage)(3)分布式集群存储 将数据分散到多个节点(主机)上去来保证高存储系统的可靠性和高性能 例如:第二节数字信息存储保护的软件系统WebDAVDspaceFedoraDrupalLOCKSS对比分析一、WebDAV WebDAV(Web-Based
15、Distributed Authoring and Versioning)是一种基于HTTP 1.1协议的通信协议,允许用户合作式地编辑和操作在远程Web服务器上的文件 WebDAV扩展了HTTP 1.1协议的功能,添加了一些新的方法,支持常见的HTML和XML文件以及文本、图形、电子表格等文件格式,使得应用程序可以直接将文件写到Web服务器上 支持文件锁定及解锁功能、文件的版本控制 WebDAV协议使用户可以在远程服务器上创建、删除和修改文档一、WebDAV WebDAV对HTTP的主要扩展方法 PROPFIND方法:用于获取一个或多个资源的一个或多个特性 LOCK方法:为资源添加锁,从而限
16、制其他人的修改操作 UNLOCK方法:解除资源的锁,从而允许他人继续修改该资源 PROPFIND方法:获取资源属性信息 PROPFIND方法:资源属性修改一、WebDAV WebDAV的交互过程 由客户端向服务器端发起请求,申请获取文件的锁定 锁定成功后,打开文件,服务器端把资源的属性信息发送给客户端,并进而把资源内容发送给客户端 客户端对接收到的文件进行编辑修改,修改完成后,再通过PUT命令把新文件交付给服务器端,实现永久保存 处理完毕后,还需要通知服务器端解除对资源的锁定信息,从而保证该客户端对资源处理完毕后,其他客户端能够有机会重新获取锁定,进行编辑修改二、Dspace DSpace是一
17、个支持组织机构内部数字资源的采集、索引、保存和分发的数字仓储系统 该系统最初由麻省理工学院图书馆和HP实验室合作开发,可以运行于Windows平台和Unix/Linux平台下,遵循BSD开源协议 采用了PostgreSQL、Oracle等关系数据库,编程语言则采用了Java语言 DSpace是一个专门的数字资产(digital assets)管理系统,它管理和发布由数字文件或位流(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目二、Dspace DSpace的体系结构 存储层(storage layer):对数字内容和相关的元数据进行存
18、储 业务逻辑层(business logic layer):负责实现具体的功能模块,包括内容管理、工作流管理、电子用户管理、授权、浏览和检索、配置管理、日志管理等,各组件的功能都定义了统一的接口和具体实现,对外部应用层以接口形式提供服务 应用层(application layer):提供了基于Web的用户界面,来应用和管理DSpace系统;提供了一系列的接口服务二、Dspace DSpace的数据模型 DSpace定义了一套分层数据模型对数据进行组织和管理 DSpace系统可依其使用机构的需要成立数个社区(communities),每个社区内可拥有多个资源集合(collections),而每一
19、个集合可能包含数个项目(items)以描述其属性,这些项目由DC元数据来描述,项目再分为数据束(bundles),数据束由位流组成,位流是不可以再划分的、最小的描述单位,每个位流与一种数据格式相关联二、Dspace DSpace的主要功能特点 数据描述 统一标识符Handle 数据导入与导出 用户和数字对象的管理 数据浏览与检索功能 统计与订阅功能二、Dspace DSpace系统的优势和不足 DSpace系统结构合理,支持OAIS,具有较为完善的功能,并遵从相关标准,支持任意类型的内容存储,得到了广泛的应用 内置的DC元数据支持一些简单修饰符,但如果要扩展到其他的元数据方案,需要对数据库结构
20、进行修改,这必然给今后升级带来困难 内置的很多功能都和源代码高度绑定,而且与后台数据库结构绑定,限制了系统的可扩展性 对中文支持较弱,检索、查询以及用户界面都需要进行一定的改动才更适合国内用户 更侧重于数字信息的有效管理,在数字信息的安全性,如存储安全性、访问安全性方面有待加强三、Fedora 它提出由结构内核(structural kernel)和功能分发层(disseminator layer)来共同组成一个复合数字对象,即将数据和对数据的操作分离 结构内核容纳以比特流形式存在的数字对象的内容,描述该数字对象的元数据,以及对这个数字对象及元数据进行存取控制的有关数据 功能分发层是对这些数据
21、的操作,它包括主功能分发器和内容类型分发器,功能分发器支持有关结构内核数据类型和对内核数据进行读取的服务功能,内容类型分发器则支持内嵌数据格式的转换机制 Fedora模型框架具有灵活、可扩展的优点四、Drupal 基于Web的开发源代码的内容管理系统,其基本架构采用了PHP+Mysql的方式,在功能上仿照了PHPNUKE、XOOPS等系统的模块化设计方式 代码少但功能强大,可以便利地创建、组织、处理和删除各种类型的信息,可作为个人或群体发布、管理、组织不同内容的工具 提供了非常优秀的模块化结构,方便系统的维护和扩展;支持强大的个性化环境;其模板系统将内容和表现分离,可以很方便地控制网站的外观;
22、系统提供了基于角色的权限系统;提供了良好的缓存机制用于提高系统的性能,并具备URL改写功能 适合于快速构建小型的社区网站和资源分类目录网站 缺少方便的数据备份、恢复机制,缺少对文件的元数据的管理维护五、LOCKSS LOCKSS(Lots of Copies Keeps Stuff Safe)是致力于为图书馆保存和利用Web电子材料提供相应的工具和支持的项目,主要应用于图书馆领域 包括四个工作模块:资源采集模块、保存和检测模块、发布访问模块和管理模块 通过建立供应商与图书馆、图书馆与图书馆之间的协作平台,LOCKSS提出了从电子资源出版、发布到永久性保存与利用等一整套解决方案 它使图书馆能够对
23、数字资源进行永久保存,不受供应商变化、本地资源丢失等因素的影响,为读者提供持续的、永久性的电子资源存取服务,保证图书馆的社会效益六、对比分析 WebDAV是一种支持远程互操作的资源存储协议,不能当作一种功能齐全的数字信息存储保护系统 Drupal则是一种小型的内容管理系统,适合于数据规模不是很大,对资源的安全性、长期保存能力要求不高的应用 DSpace、Fedora、LOCKSS都参考或遵循了OAIS参考模型,采用了分层的模块化架构方式,提供了接口或API支持系统的灵活扩展;解决的问题也主要面向图书馆和情报学科 LOCKSS主要解决资源的共享利用和本地永久保存问题,或者说是对资源的一种永久备份
24、和提供服务的能力六、对比分析 DSpace和Fedora都涉及数字资源的长期保存问题,在数字对象的支持和体系架构方面具有很大的相似性,但二者也具有明显的区别,主要体现在以下几个方面:对数据的处理方式 对内部数据的管理和访问方式 数据模型 元数据的灵活程度 易用性 可扩展性六、对比分析 通过以上分析,我们可以认为:对于功能相对简单的数字信息存储,可以采用DSpace系统实现 对于复杂的数字信息存储应用,则可以以Fedora为核心进行二次开发实现 在大规模数据应用场景下,还应该选用SAN、NAS或者集群方式保证存储的具体数字资源的安全可靠性第三节存储系统开发的关键技术与标准规范 开放存取技术是实现
25、互操作和开放存取的关键技术,主要包括基于OAI-PMH的开放元数据互操作技术、基于DOI的永久性保存与利用技术、基于全文检索和Web Service的开放存取技术等 此外机构仓储还需要支持如OAIS参考模型、METS元数据标准、OpenURL、DOI和Web Service等标准规范第三节存储系统开发的关键技术与标准规范1.OAI-PMH OAI-PMH协议提供了一个基于元数据获取的独立于具体应用的互操作框架 OAI-PMH框架定义解释了数据提供者(Data Provider,DP)与服务提供者(Service Provider,SP)这两个角色的分离,DP以OAI-PMH方式发布元数据的管理
26、系统,SP以OAI-PMH为基础获取元数据来建立增值服务 一个元数据仓储系统可以既是SP又是DP,但SP与DP功能的分离有利于分工 OAI-PMH协议能够简化数字资源内容,加快和提高相关资源的传播利用,提高数字化资源的存取效率,同时可以扩展可获得的数字资源的种类范围第三节存储系统开发的关键技术与标准规范2.OpenURL OpenURL即“开放链接”,是一种解决不同的数字资源系统互操作、进行资源整合的方法和技术标准 开放链接是一种附带元数据信息和资源地址信息的“可运行”的URL,可用来解决二次文献数据库到原文服务的动态链接问题,服务提供方(通常是图书馆)维护的链接解析器能够在相关服务网页上动态
27、生成开放链接 OpenURL与传统URL的区别:OpenURL具有上下文相关性、更强的灵活性、更好的可维护性第三节存储系统开发的关键技术与标准规范3.DOI DOI(Digital Object Identifier)即数字对象标识符 DOI系统主要由标号体制、元数据、解析系统和政策框架四个部分组成;其中标号体制定义了DOI唯一标志符的语法和语义问题 DOI具有唯一性、永久性、开放性、动态维护性、多项解析、动态追踪、版权保护等特点第三节存储系统开发的关键技术与标准规范4.SRW/SRU SRW(Search/Retrieve for the Web)是一个针对Web应用的信息检索协议,提供基于
28、Web Services的各种用户访问机制 定义了一个通用的、抽象的模型,实现了不同网络资源、分布式数据库的统一检索功能 SRW/SRU协议1.1版提供了三种服务:Search/Retrieve、Scan和Explain;后为满足图书馆联合编目的需求,又增加了Update操作 SRU(Search/Retrieve URI Service)与SRW是彼此互相合作的网络服务,可以看成是SRW的简化版;两者的区分主要在于信息联结的机制不同第三节存储系统开发的关键技术与标准规范5.DC元数据 DC元数据即“都柏林核心(Dublin Core)元数据”,是一套用以描述网络资源的元数据元素集合 最初15个:目前DC元数据是DCMI通过一定的组织形式和程序进行活动的成果;通常所说的DC,也常常不单指这一规范体系,还用来泛指DCMI和它的活动 可以认为DCMI、其活动和通过其活动所取得的标准规范成果是三位一体的第四节技术方案选用原则与评价方法1.选用原则 完全自主开发方式 直接采用现有的存储系统 采购存储系统软件和服务第四节技术方案选用原则与评价方法2.评价方法 原则比较法 实验验证评价法 用户需求分析对比法 功能点分析法章节回顾 数字信息存储体系结构是怎样的?有哪些常见数字信息存储保护的软件系统?特点是什么?存储系统开发的关键技术与标准规范有哪些?技术方案选用原则与评价方法有哪些?