1、数字资源长期保存问题数字资源长期保存问题河北大学管理学院河北大学管理学院 宛玲宛玲1/2/20231汇报内容:汇报内容:p一、为什么要保存数字资源一、为什么要保存数字资源p二、目前发展状况如何二、目前发展状况如何p三、如何开展保存活动三、如何开展保存活动p四、典型案例介绍四、典型案例介绍p五、面临哪些主要问题五、面临哪些主要问题1/2/20232 数字资源长期保存是指为保证数数字资源长期保存是指为保证数字比特流可长期维护和其内容可长期字比特流可长期维护和其内容可长期获取的必要管理活动,有两层含意,获取的必要管理活动,有两层含意,一是长期存储(一是长期存储(storage),一是长),一是长期可
2、获取(期可获取(access)。)。1/2/20233一、为什么要保存一、为什么要保存p信息技术是双刃剑信息技术是双刃剑p1、人们对数字资源的依赖日益增强、人们对数字资源的依赖日益增强nCNNIC的统计报告的统计报告0.941.031.231.371.622.101.110.00.51.01.52.02.52004.122005.062005.122006.062006.122007.062007.12网民人数亿人1/2/20234图图3.1 中国中国IPv4地址数量增长情况地址数量增长情况 1/2/20235图图3.3 中国网站数量增长情况中国网站数量增长情况1/2/20236图图3.4 中
3、国网页数量增长情况中国网页数量增长情况1/2/20237图图4.2 不同上网地点的网民规模增长情况不同上网地点的网民规模增长情况1/2/20238p2、图书馆拥有的数字资源、图书馆拥有的数字资源n采购的采购的p期刊期刊国内的如清华同方;国外的如国内的如清华同方;国外的如WSN,NSTL购买的购买的 p图书图书方正,超星方正,超星p其他其他n自建的自建的p研究生论文库研究生论文库p特色数据库(如河北大学文库)特色数据库(如河北大学文库)p机构网站信息机构网站信息.p其他其他n免费获取的免费获取的一、为什么要保存一、为什么要保存本地镜像本地镜像国内镜像国内镜像远程访问远程访问1/2/20239p3
4、、数字资源非常脆弱、数字资源非常脆弱n从物理存储方面从物理存储方面p数字资源及其所依赖的网络、存储媒体非常不稳定;数字资源及其所依赖的网络、存储媒体非常不稳定;p信息技术变化太快,硬件和软件都在不可预测地老化。信息技术变化太快,硬件和软件都在不可预测地老化。n从使用方面从使用方面p多数情况下信息机构仅购买了数字资源的使用权;多数情况下信息机构仅购买了数字资源的使用权;p由于多种原因,数据库商或其委托的镜像服务商有可能终止经由于多种原因,数据库商或其委托的镜像服务商有可能终止经营或者停止向用户提供服务。营或者停止向用户提供服务。n数字资源一旦无法使用会带来很多问题数字资源一旦无法使用会带来很多问
5、题一、为什么要保存一、为什么要保存1/2/202310一、为什么要保存一、为什么要保存p4、图书馆的责任、图书馆的责任n保存数字资源的责任n长久持续地提供数字资源的责任1/2/202311二、目前发展状况如何二、目前发展状况如何p1、国外的进展、国外的进展n图书馆界的行动图书馆界的行动p澳大利亚国家图书馆启动澳大利亚国家图书馆启动PANDORA 项目,美国国会图书馆项目,美国国会图书馆开展的开展的“美国记忆美国记忆”,英国几所大学联合开展了,英国几所大学联合开展了CEDARS项项目,世界各国很多高校图书馆开展了机构库目,世界各国很多高校图书馆开展了机构库 p更多的研究型项目:英国的更多的研究型
6、项目:英国的DCC,德国的,德国的NESTOR,欧洲的,欧洲的ERPANET等等 n出版届的行动出版届的行动p美国地球物理学联合会美国地球物理学联合会AUG1/2/202312n图书馆与出版商合作的行动图书馆与出版商合作的行动p欧洲七个国家图书馆及三个主要出版社以合作项目形式启动了欧洲七个国家图书馆及三个主要出版社以合作项目形式启动了基于网络的欧洲存储图书馆基于网络的欧洲存储图书馆NEDLIB p美国斯坦福大学图书馆牵头开展了由图书馆和出版商共同参加美国斯坦福大学图书馆牵头开展了由图书馆和出版商共同参加的的LOCKSS项目项目p荷兰国家图书馆与出版商合作开展了保存电子出版物的国家保荷兰国家图书
7、馆与出版商合作开展了保存电子出版物的国家保存行动等存行动等.n政府的行动政府的行动p呈缴制度的建立呈缴制度的建立p美国国会批准实施国家数字信息基础结构和保存规划美国国会批准实施国家数字信息基础结构和保存规划NDIIPP 项目等项目等n民间的行动民间的行动p有收费的也有免费的有收费的也有免费的1/2/202313p2、国内的进展、国内的进展n国家图书馆的网络信息资源保存试验项目国家图书馆的网络信息资源保存试验项目nCALIS开展了教参和博士论文文摘保存计划,开展对开展了教参和博士论文文摘保存计划,开展对采购的数据库的保存活动采购的数据库的保存活动n中国科学院国家科学图书馆开展了多种保存活动中国科
8、学院国家科学图书馆开展了多种保存活动n北京大学开展了中国北京大学开展了中国WEB博物馆博物馆n二、目前发展状况如何二、目前发展状况如何1/2/202314p总体来讲:总体来讲:n各国政府越来越重视各国政府越来越重视n参与的行业越来越多参与的行业越来越多n国家间的合作成为趋势国家间的合作成为趋势n涌现出许多技术方案涌现出许多技术方案n教育培训工作被加强教育培训工作被加强1/2/202315三、如何开展保存活动三、如何开展保存活动p1、保存系统框架、保存系统框架OAIS功能模型数据管理数据管理 存档存档 保存计划保存计划 采集采集系统管理系统管理 获取获取 用用户户资资源源提提供供者者行政管理行政
9、管理 1/2/202316三、如何开展保存活动三、如何开展保存活动p2、保存什么、保存什么n保存什么资源保存什么资源p资源本身的当前和长期使用价值资源本身的当前和长期使用价值p资源本身的长期战略意义资源本身的长期战略意义p资源的不可替代性资源的不可替代性 p资源使用渠道的不可替代性资源使用渠道的不可替代性 p资源保存的合法保障程度资源保存的合法保障程度 1/2/202317三、如何开展保存活动三、如何开展保存活动n保存什么元素保存什么元素p保存数字比特流保存数字比特流-即只保存纯粹的数据即只保存纯粹的数据p保存数据内容保存数据内容-如文档类文件的文本保存如文档类文件的文本保存p保存数字格式与处
10、理信息(元数据)保存数字格式与处理信息(元数据)p保存数字信息处理环境保存数字信息处理环境p保存数字信息的内容校验、身份认证、版本演变、知识产权管保存数字信息的内容校验、身份认证、版本演变、知识产权管理机制理机制 p部分或者全部保存数字信息的知识组织体系信息、组织利用环部分或者全部保存数字信息的知识组织体系信息、组织利用环境。境。1/2/202318三、如何开展保存活动三、如何开展保存活动p3、谁来保存谁来保存n呈缴制度:自愿性呈缴制度:自愿性强制性强制性n国家保存与出版商授权结合国家保存与出版商授权结合n联合建立并做为出版商委托的第三方保存机构联合建立并做为出版商委托的第三方保存机构n图书馆
11、之间形成保存联盟图书馆之间形成保存联盟 n基于集团采购的合作保存形式基于集团采购的合作保存形式n商业性质的保存机构(商业性质的保存机构(Portico,OCLC)n民间网络信息资源的保存民间网络信息资源的保存(Internet Archive)1/2/202319三、如何开展保存活动三、如何开展保存活动p4、用什么技术、用什么技术n复制:复制:从现有存储媒体上将数据拷贝到同类型或不同从现有存储媒体上将数据拷贝到同类型或不同类型的新存储媒体上类型的新存储媒体上 n迁移:迁移:将数字资源迁移到不同的软件或硬件环境下,将数字资源迁移到不同的软件或硬件环境下,从而保证数字资源可以在发展的环境中被识别、
12、使用从而保证数字资源可以在发展的环境中被识别、使用和检索。和检索。n仿真:仿真:通过详细描述数字信息利用的各种技术参数和通过详细描述数字信息利用的各种技术参数和环境条件,使未来计算机系统可以模仿原始系统环境环境条件,使未来计算机系统可以模仿原始系统环境来读取和使用数字信息内容。来读取和使用数字信息内容。1/2/202320三、如何开展保存活动三、如何开展保存活动p5、有什么保存策略、有什么保存策略n按需迁移策略按需迁移策略n风干保存策略风干保存策略n技术保存策略技术保存策略n格式管理策略格式管理策略1/2/202321三、如何保存三、如何保存p6、对保存者的要求(保存系统的认证)、对保存者的要
13、求(保存系统的认证)n 遵从遵从 OAIS Modeln 可承担起行政管理责任可承担起行政管理责任n 组织机构具有生存能力组织机构具有生存能力n 具有持续的财政支持具有持续的财政支持n 拥有合适的技术和程序拥有合适的技术和程序n 系统具有安全性系统具有安全性n 通过程序承担了责任通过程序承担了责任1/2/202322三、如何保存三、如何保存p7、具体一个图书馆如何做、具体一个图书馆如何做n针对集团采购的数据库:针对集团采购的数据库:p选择实力强的选择实力强的p经费分担经费分担n针对自己单独采购的数据库:针对自己单独采购的数据库:p永久使用权永久使用权p本地镜像保存:必要的数据和技术参数,必要的
14、授权本地镜像保存:必要的数据和技术参数,必要的授权n针对自建数字资源针对自建数字资源p网页保存:网页保存:Internet Archive,我国国家图书馆等,我国国家图书馆等p数据库:文件格式最好采用数据库:文件格式最好采用PDF 或开放格式,保存数据为主或开放格式,保存数据为主n无论保存什么,最好能参加至少一个保存联盟,同时无论保存什么,最好能参加至少一个保存联盟,同时要注意首先要自我先做好保存前期工作。要注意首先要自我先做好保存前期工作。1/2/202323四、典型案例介绍四、典型案例介绍p1、荷兰国家图书馆的国家保存、荷兰国家图书馆的国家保存n1999年荷兰国家图书馆与出版协会签订了年荷
15、兰国家图书馆与出版协会签订了“电子出版电子出版物自愿呈缴协议物自愿呈缴协议”。n自自2002年以后荷兰国家图书馆与年以后荷兰国家图书馆与ELSEVIER等公司等公司签订了国家保存协议:签订了国家保存协议:p市场失效前的限制性保存使用市场失效前的限制性保存使用p市场失效后的国家保存使用市场失效后的国家保存使用1/2/202324四、典型案例介绍四、典型案例介绍p2、澳大利亚网络信息资源保存、澳大利亚网络信息资源保存PANDORAn主要收集本国出版或记录本国事件的出版物。包括网主要收集本国出版或记录本国事件的出版物。包括网上免费开放资源,也包括商业型电子出版物。以文本上免费开放资源,也包括商业型电
16、子出版物。以文本文件和图像文件为主。由于技术上的原因,没有收录文件和图像文件为主。由于技术上的原因,没有收录数据库。数据库。1/2/202325四、典型案例介绍四、典型案例介绍p3、LOCKSS集中合作保存项目集中合作保存项目 u采用同一个软件实现相互间备份数据u通过技术可以控制图书馆只能备份曾经保存的数据u出版商也可以利用该系统实现保存自己数据的目的u一旦出版商停止提供服务,图书馆能够利用本地保存的数字资源在原有合同范围内提供服务u保留了出版商的标志1/2/202326四、典型案例介绍四、典型案例介绍p4、美国美国Portico的解决方案(商业型的)的解决方案(商业型的)n作为非营利机构,作
17、为非营利机构,Portico尝试了一种新的保存模式。尝试了一种新的保存模式。nPortico 将自己定位于第三方电子期刊保存实体,需将自己定位于第三方电子期刊保存实体,需要同时获取电子期刊出版商的保存授权和参与机构要同时获取电子期刊出版商的保存授权和参与机构(主要是指图书馆)的保存授权。(主要是指图书馆)的保存授权。nPortico平时的传递服务权利和约束平时的传递服务权利和约束nPortico在触发事件发生情况下的服务权利与约束在触发事件发生情况下的服务权利与约束 n与与Portico签约并支付相应费用的图书馆和其他组织签约并支付相应费用的图书馆和其他组织机构为参与机构。参与机构享有的权利,
18、一是可以享机构为参与机构。参与机构享有的权利,一是可以享受受“永久使用永久使用”的权利和服务;一是可以在触发条件的权利和服务;一是可以在触发条件下享用下享用Portico电子出版物存档版本的使用。电子出版物存档版本的使用。1/2/202327四、典型案例介绍四、典型案例介绍p5、因特网归档项目(、因特网归档项目(Internet Archive)nhttp:/www.archive.org/n是由非图书馆的非营利机构实施保存,在缺乏严密的是由非图书馆的非营利机构实施保存,在缺乏严密的授权机制下,自行收集和存档全球的公开网页,目前授权机制下,自行收集和存档全球的公开网页,目前也在积极和各方合作研
19、究授权问题。也在积极和各方合作研究授权问题。1/2/202328http:/www.nlc.gov1/2/2023291/2/2023301/2/2023311/2/2023321/2/202333四、典型案例介绍四、典型案例介绍p6、中国科学院国家科学图书馆、中国科学院国家科学图书馆n数字资源持久保存国际合作试验项目数字资源持久保存国际合作试验项目LOCKSSn构建长期保存系统(由由NSTL和和NSL联合资助联合资助)p保存对象:电子出版物保存对象:电子出版物pNature(60),Springer(1250),维普,维普(7953)1/2/202334四、典型案例介绍四、典型案例介绍p7、
20、中国国家图书馆的保存活动、中国国家图书馆的保存活动n争取国家政策上的支持和公众意识的提高争取国家政策上的支持和公众意识的提高n数字报纸数据库数字报纸数据库p2119种报纸种报纸p1800个报纸网站个报纸网站p80个网站上的个网站上的PDF文件文件n网络信息资源保存项目网络信息资源保存项目WICP http:/ 973和和985项目支持下,北京大学网络实验室开发建设项目支持下,北京大学网络实验室开发建设的中国网页历史信息存储与展示系统。目前已经的中国网页历史信息存储与展示系统。目前已经维护有维护有30亿以中文为主的网页,并以平均每月四亿以中文为主的网页,并以平均每月四千五百万网页的速度扩大规模。千五百万网页的速度扩大规模。1/2/202336http:/