网络数据存档的存在问题课件.pptx

上传人(卖家):三亚风情 文档编号:3019106 上传时间:2022-06-23 格式:PPTX 页数:32 大小:107.88KB
下载 相关 举报
网络数据存档的存在问题课件.pptx_第1页
第1页 / 共32页
网络数据存档的存在问题课件.pptx_第2页
第2页 / 共32页
网络数据存档的存在问题课件.pptx_第3页
第3页 / 共32页
网络数据存档的存在问题课件.pptx_第4页
第4页 / 共32页
网络数据存档的存在问题课件.pptx_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、网络数据存档的存在问题1感谢你的观看2019年6月23网络数据存档的存在问题 “网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4) “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3)2感谢你的观看2019年6月23网络存档的存在问题 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本 国际网络数据的存档库 例如:“wayback Machine”3感谢你的观看2019年6月23三个会议 数据储存图书馆的未来 达姆施塔特德国 2001.

2、9 国际数据网络存档大会 东京 2002.1 DPC论坛:网络数据存档 伦敦 2002.3 4感谢你的观看2019年6月23会议网站 http:/www.bnf.fr/pages/infopro/dliECDL2001.htm http:/www.ndl.go.jp/enews/sympoeng.html http:/www.jisc.ac.uk/dner/preservation/webforum.html5感谢你的观看2019年6月23存在问题 储存数字化信息的合法性? 版权? 是否允许访问和对公众开放? 选择一部分还是全部储存? 多长时间更新介质?何时更新? 如何在多变的网络中获得信息?

3、6感谢你的观看2019年6月23技术上面临的挑战 嵌入的外部链接和可执行程序 不变的名称和数据标识 复制控制 内容随时间的变化 表层网页和深层网页7感谢你的观看2019年6月23澳大利亚(潘多拉档案库) NLA:http:/www.nla.gov.au/pandora 仍没有合法地位 储存公有的出版物 选择性储存 ( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源) 允许公众访问 NDB条款8感谢你的观看2019年6月23澳大利亚(潘多拉档案库) 1700个标题(2001.11) 增长率:每月40站点 重新整理:每月35站点 ADRI(澳大利亚数字资源确认) 独特的确认方法 自身处理系统

4、9感谢你的观看2019年6月23美国(雅典娜议档案库)议会图书馆 将互联网资源制图,可视化档案库 可通过网页访问资源 版权的合法性正在论证阶段 选择性收录 对公众公开10感谢你的观看2019年6月23LC/IA 领航计划-“Election 2000” 将网上和议会资源库共享 目标:图书馆:选择收集和分类站点;建造原型访问站点网络档案库:在整理和归档站点的过程中学习经验 800多个站点(在这些站点中包括150多个选择后的站点和主要) 数据量有2-3万亿字节 每日归档(2000.82001.1)11感谢你的观看2019年6月23丹麦 皇家图书馆,哥本哈根 出版物的储存有一定法律权限 非动态的静态

5、出版物有限的站点 只允许皇家图书馆,国立图书馆和大学图书馆访问 只归档静态站点(专论和过刊) 奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点12感谢你的观看2019年6月23丹麦(统计数字) 9000 网络出版物 (2001.6)31为专论,69为过刊67.5来自公共部门和图书馆,32.5来自私立部门 工作人员中有0.5是技术人员,0.8是图书管理员13感谢你的观看2019年6月23瑞典皇家图书馆 每年若干次对本国站点进行扫描不选择,收录一切包括所有网页,所有电子刊物,所有新闻包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。只归档但不允许访问。14感谢你的

6、观看2019年6月23瑞典 软件 使用Whois软件鉴定本国的站点 使用COMBINE Robot软件收录站点自动从超链接中收集文章同时收录图片和声音文件全自动化无需人为帮助15感谢你的观看2019年6月23瑞典档案库(Kulturarw3) 所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面 文件命名:33个字符以及记录时间 截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量 储存在磁盘和碟片中,用分等储存管理(HSM)管理文件16感谢你的观看2019年6月23瑞典档案库(Kulturarw3) 直到2002.7,只有部分法定

7、权限(一些固定的网络文件) 2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。 2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位17感谢你的观看2019年6月23芬兰 国际图书馆 使用了和瑞典类似的方案,最初只是负责本国范围之内。 具有收集数据资源的合法性和版权 使用芬兰的来自NEDLIB的软件收集数据。 档案元数据 使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码 配合时间标识作为一种挽救措施18感谢你的观看2019年6月23芬兰现行的数据收集情况 2001-2002年度的数据采集始于2001.8止于2002

8、.4从29,000,000个URL中收集了9,400,000个文件压缩后的文件总计340G字节储存在国际超级计算中心提供的介质上硬件:SunE450服务器19感谢你的观看2019年6月23芬兰现行的数据收集情况 项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间”(Juha Haleka,“Finish Team”项目的主持人)20感谢你的观看2019年6月23北欧网络档案库 北欧国际图书馆联合计划 不取决于数据是用哪个软件收集的NEDLIB(芬兰 挪威 丹麦)COMBINE(瑞典) 选择挪威的搜索引擎(FAST) 软件:从100种不同

9、MIME转换称HTML格式识别大部分欧洲语言 预算:260,000欧元(AUS 475,000)21感谢你的观看2019年6月23相同的网页(表层)芬兰芬兰丹麦丹麦1.500,000 HTML1000,000 GIF550,000 JPEG36,500 PDF11,800 plain text6,000 word 5,300 JAVAetc59.3%Text/HTML37.9%Image(GIF,JPEG,PNG)1.7%PDF1.1%其他格式22感谢你的观看2019年6月23英国 英国图书馆“Domain.uk” 计划(始于2002) 选择了100个英国站点 给备选的站点发现以活得批准 每3

10、个星期重新访问 使用“Bluesquirrel Web whacker”软件 定期检查链接、变化和丢失有意图提高规模(2004 竞标)23感谢你的观看2019年6月23英国 UKOLN 研究计划“uk.domain”估计大小应该有3,000,000个站点,24,000,000左右的网页。 Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。医学网站2002.3提供咨询,2002.10 完成数据2002.8 初步报告,最后报告会散布在整体里。24感谢你的观看2019年6月23德国 档案库(德国藏书)收集目标资料的经验两次不完全的快速扫描(2000.12,2000.2)2

11、5感谢你的观看2019年6月23法国 档案库(法国藏书) 2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。结果并不是令人满意 一些非预期的特点 过大的站点正计划用两种不同的机器进行一次新的更为可行的研究。2001.6修改了允许储存的法律,但是扔未获得国会通过。26感谢你的观看2019年6月23日本 国家议会图书馆 WARP(Web Archiving Program) 初步是实行选择性获得数据 日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。27感谢你的观看2019年6月23国际档案库 1996年由Brewster Kahle以卖出WAIS

12、获得的15,000,000美元建立国际档案库。 非营利组织发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括19031973的电影资料28感谢你的观看2019年6月23国际档案库 每两个月完全扫描一次 机器排除,一些新闻、个人、照片。 完全拷贝了亚历山大港的档案库 在不同的洲复制。“复制是最好的保存方法” 版权?“也许这严重的侵害了合法的版权”(Lawrence Lessig,斯坦福的IP法和互联网空间专家)29感谢你的观看2019年6月23国际档案库(“wayback machine”) 以收集和归档国际互联网公共网页为目标 包括大部分的图像数据 2001.10发部 对公众完全开放 每天2万用户,每秒200人 不提供文本搜索,只由URL搜索 资金支持情况?未知30感谢你的观看2019年6月23结论 “我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10) “在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。” (B.Kahle,2002.5)31感谢你的观看2019年6月2332感谢你的观看2019年6月23

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(网络数据存档的存在问题课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|