1、571第九章第九章 网络信息资源管理网络信息资源管理 9.1 9.1 网络信息资源概述网络信息资源概述 9.2 9.2 网络信息资源管理的相关技术网络信息资源管理的相关技术 9.3 9.3 网络信息资源的检索网络信息资源的检索 9.4 9.4 网络信息资源管理与应用网络信息资源管理与应用 572 网络信息资源有哪些?网络信息资源有哪些? 网站,社区,微博网站,社区,微博 网络信息资源的获取网络信息资源的获取 网络信息资源的传输网络信息资源的传输 网络信息资源的存储网络信息资源的存储 网络信息资源的分析网络信息资源的分析 网络信息资源的使用网络信息资源的使用 网络信息资源的维护网络信息资源的维护
2、5739.1 网络信息资源概述网络信息资源概述 目前关于目前关于信息资源信息资源的含义有很多不同的解的含义有很多不同的解释,但归纳起来主要有两种:释,但归纳起来主要有两种:一是一是侠义侠义的理解,认为信息资源就是指的理解,认为信息资源就是指文献资源或者数据资源,或者各种媒介文献资源或者数据资源,或者各种媒介和形式的信息的集合,包括文字,声像,和形式的信息的集合,包括文字,声像,印刷品,电子信息,数据库等,这都是印刷品,电子信息,数据库等,这都是限于信息本身。限于信息本身。二是二是广义广义的理解,认为信息资源是信息的理解,认为信息资源是信息活动中各种要素的总称,包含了信息相活动中各种要素的总称,
3、包含了信息相关的人员,设备,技术和资金等各种资关的人员,设备,技术和资金等各种资源。源。574 网络信息资源网络信息资源可以理解为可以理解为“通过计算机网通过计算机网络可以利用的各种信息资源的总和络可以利用的各种信息资源的总和”。作。作为知识经济时代的产物,网络信息资源也为知识经济时代的产物,网络信息资源也称虚拟信息资源,它是以数字化形式记录称虚拟信息资源,它是以数字化形式记录的、以多媒体形式表达的、存储在网络计的、以多媒体形式表达的、存储在网络计算机的磁介质,光介质以及各类通讯介质算机的磁介质,光介质以及各类通讯介质上,并通过计算机网络进行传递信息内容上,并通过计算机网络进行传递信息内容的集
4、合。简言之,网络信息资源就是通过的集合。简言之,网络信息资源就是通过计算机网络可以利用的各种信息资源的总计算机网络可以利用的各种信息资源的总和。和。5759.1 网络信息资源概述网络信息资源概述 网络信息资源有狭义与广义之分。网络信息资源有狭义与广义之分。 狭义狭义的网络信息资源通常指在各种网络的网络信息资源通常指在各种网络( (包括互包括互联网、局域网联网、局域网) )上可以利用的、能满足广大用户上可以利用的、能满足广大用户科研与工作需求的各种信息资源的总和。科研与工作需求的各种信息资源的总和。 广义广义的网络信息资源指所有互联网上的信息资源,的网络信息资源指所有互联网上的信息资源,包括技术
5、,各种设备、标准规范等,包括技术,各种设备、标准规范等,5769.1.1 网络信息资源的分类与组织网络信息资源的分类与组织 网络信息资源的网络信息资源的特点特点网络信息资源作为一种新型的信息源,有不同网络信息资源作为一种新型的信息源,有不同于传统信息资源的特点,主要表现在数量、结于传统信息资源的特点,主要表现在数量、结构、分布、类型、传播范围、载体形态、控制构、分布、类型、传播范围、载体形态、控制方式等方面。方式等方面。 577 以网络为传播媒体以网络为传播媒体 传播迅速,数量大,增长快传播迅速,数量大,增长快 内容丰富、形式多样内容丰富、形式多样 信息组织的局部有序性与整体无序性并存信息组织
6、的局部有序性与整体无序性并存 信息质量良莠不齐信息质量良莠不齐 结构复杂、分布广泛结构复杂、分布广泛 信息资源组织方式非线性化信息资源组织方式非线性化 分布式存储、但关联程度强分布式存储、但关联程度强9.1.1 网络信息资源的分类与组织网络信息资源的分类与组织5789.1.1 网络信息资源的分类与组织网络信息资源的分类与组织 网络信息资源的网络信息资源的分类分类网上信息资源浩如烟海,可以从不同的角度进网上信息资源浩如烟海,可以从不同的角度进行划分和归类。依据不同的标准,网络信息资行划分和归类。依据不同的标准,网络信息资源可分成不同的类型,较典型的有如下几种。源可分成不同的类型,较典型的有如下几
7、种。 按信息资源的媒体形式,分为:按信息资源的媒体形式,分为:文本信息文本信息图片信息。图片信息。音频信息音频信息视频信息视频信息三维虚拟影像三维虚拟影像5799.1.1 网络信息资源的分类与组织网络信息资源的分类与组织 按照人类信息交流方式,可将网络信息资源按照人类信息交流方式,可将网络信息资源分为分为: :非正式出版信息非正式出版信息半正式出版信息半正式出版信息正式出版信息。正式出版信息。 按信息内容的表现形式和用途,可分为:按信息内容的表现形式和用途,可分为:全文型的全文型的 事实型的事实型的数值型数值型实时活动型实时活动型其他类型其他类型: :如图形、音乐、影视、广告等各种媒体如图形、
8、音乐、影视、广告等各种媒体 57109.1.1 网络信息资源的分类与组织网络信息资源的分类与组织按信息来源划分按信息来源划分, ,可分为可分为 政府信息资源政府信息资源 公众信息资源公众信息资源 商用信息资源商用信息资源按信息时效划分按信息时效划分, ,可分为可分为 电子邮件型信息资源电子邮件型信息资源 图书馆目录资源图书馆目录资源 书目与索引资源书目与索引资源 全文资料及电子出版物资源全文资料及电子出版物资源 数据库信息资源数据库信息资源57119.1.1 网络信息资源的分类与组织网络信息资源的分类与组织按网络传输协议划分按网络传输协议划分, ,可分为可分为 wwwwww信息资源信息资源 T
9、elnet Telnet 信息资源信息资源 FTP FTP 信息资源信息资源 用户服务组信息资源用户服务组信息资源 Gopher Gopher 信息资源信息资源 其他分类方法其他分类方法 IDG Book World Wide1996 IDG Book World Wide1996 年出版的年出版的WWWWWW指南指南就将网络信息资源进行混合分类,它以学科领域为就将网络信息资源进行混合分类,它以学科领域为依据将网络信息资源分为依据将网络信息资源分为57 57 类类 日本的户田慎一把网络信息资源分成日本的户田慎一把网络信息资源分成 7 7 类类 网络信息资源按信息源提供信息的加工深度分,可网络信
10、息资源按信息源提供信息的加工深度分,可分为一次信息源、二次信息源、三次信息源等分为一次信息源、二次信息源、三次信息源等 5712 网络信息资源的网络信息资源的组织组织是指人们根据网络信息本身是指人们根据网络信息本身的特征,运用各种工具和方法,对网络信息资源的特征,运用各种工具和方法,对网络信息资源进行加工、整理、排列、组合,使之有序化、系进行加工、整理、排列、组合,使之有序化、系统化、规律化,从而利于网络信息的存储、传播、统化、规律化,从而利于网络信息的存储、传播、检索、利用,以满足人们的网络信息需求的活动检索、利用,以满足人们的网络信息需求的活动过程。过程。 网络是网络信息资源的载体,由于载
11、体的特殊性网络是网络信息资源的载体,由于载体的特殊性而呈现出独特的组织形式。有学者结合网络信息而呈现出独特的组织形式。有学者结合网络信息资源组织开发形式的现状,将网络信息资源资源组织开发形式的现状,将网络信息资源组织组织与开发形式与开发形式归纳为超文本方式、搜索引擎方式、归纳为超文本方式、搜索引擎方式、指引库方式、元数据方式、图书馆编目方式等。指引库方式、元数据方式、图书馆编目方式等。9.1.2网络信息资源的组织方式网络信息资源的组织方式 57139.1.2 网络信息资源的组织方式网络信息资源的组织方式 文件方式文件方式 文件方式是网上数字化信息资源的一种主要存文件方式是网上数字化信息资源的一
12、种主要存储形式。以文件方式组织网络信息资源有如下储形式。以文件方式组织网络信息资源有如下优势优势 简单易操作简单易操作 文件是存储非结构化信息的单位文件是存储非结构化信息的单位57149.1.2 网络信息资源的组织方式网络信息资源的组织方式 文件方式是网络信息资源组织的简单方式。随文件方式是网络信息资源组织的简单方式。随着网络信息、资源利用的不断普及和信息量的着网络信息、资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息的不不断增多,以文件为单位共享和传输信息的不足逐步显现。足逐步显现。 随着网络信息资源利用的普及和信息量的增随着网络信息资源利用的普及和信息量的增加,以文件来传递
13、信息会使得网络的负载量加,以文件来传递信息会使得网络的负载量越来越大。越来越大。 对结构化信息组织与管理显得不足。对结构化信息组织与管理显得不足。 随着以文件形式保存和管理的信息资源的增随着以文件形式保存和管理的信息资源的增多,文件本身也需要作为对象来管理。多,文件本身也需要作为对象来管理。57159.1.2 网络信息资源的组织方式网络信息资源的组织方式 超文本方式超文本方式超文本是一种将网上相关文本的信息有机地组织在一超文本是一种将网上相关文本的信息有机地组织在一起,以节点为基本单位,节点间以链路相连,将信息起,以节点为基本单位,节点间以链路相连,将信息组织为网状结构的组织方式。人们可以通过
14、高度链接组织为网状结构的组织方式。人们可以通过高度链接的网络在各种信息库中自由航行,找到所需要的各种的网络在各种信息库中自由航行,找到所需要的各种媒体形式的信息。媒体形式的信息。超媒体的超媒体的优势优势在于:在于: 非线性编排,符合人们思维联想和跳跃的习惯;非线性编排,符合人们思维联想和跳跃的习惯; 节点中的内容可多可少,结构可以任意伸缩,具有节点中的内容可多可少,结构可以任意伸缩,具有良好的包容性和扩充性;良好的包容性和扩充性; 可组织各类媒体的信息,方便地描述和建立各媒体可组织各类媒体的信息,方便地描述和建立各媒体信息之间的语义联系,超越了媒体类型对信息组织信息之间的语义联系,超越了媒体类
15、型对信息组织的限制;的限制; 通过链路浏览的方式搜索信息,将信息控制机制融通过链路浏览的方式搜索信息,将信息控制机制融合进系统数据中,避免了检索语言的复杂性。合进系统数据中,避免了检索语言的复杂性。 57169.1.2 网络信息资源的组织方式网络信息资源的组织方式超文本方式同样有它的局限性超文本方式同样有它的局限性 : 它在文本之间的来回跳跃链接,很容易打断读者的它在文本之间的来回跳跃链接,很容易打断读者的思路,分散读者的注意力,甚至可能使读者被五花思路,分散读者的注意力,甚至可能使读者被五花八门的链接牵着鼻子走而偏离了信息浏览查询的初八门的链接牵着鼻子走而偏离了信息浏览查询的初衷。衷。 由于
16、超文本方式本身的特点,一组逻辑与联系较强由于超文本方式本身的特点,一组逻辑与联系较强的信息往往由各个节点,多个的信息往往由各个节点,多个webweb页组成,从而导页组成,从而导致用户在浏览和查询时,难以从整体上把握节点和致用户在浏览和查询时,难以从整体上把握节点和页面的完整的逻辑关系,检索结果往往失去整体性页面的完整的逻辑关系,检索结果往往失去整体性和全局性。和全局性。 很难保存遍历过程中所有的历史记录,故无法在需很难保存遍历过程中所有的历史记录,故无法在需要时立即返回到曾经浏览过的某一节点,即出现要时立即返回到曾经浏览过的某一节点,即出现“迷航迷航”现象。现象。57179.1.2 网络信息资
17、源的组织方式网络信息资源的组织方式 数据库方式数据库方式所谓数据库方式,就是将网络信息资源以固定的记录所谓数据库方式,就是将网络信息资源以固定的记录格式存储,并提供一些检索入口,用户通过检索入口,格式存储,并提供一些检索入口,用户通过检索入口,就可以找到所需要的信息线索,并利用超级链接功能就可以找到所需要的信息线索,并利用超级链接功能直接链接到相关站点或一次信息本身的方式。直接链接到相关站点或一次信息本身的方式。利用数据库技术组织网络信息资源具有如下优势利用数据库技术组织网络信息资源具有如下优势 对大量的结构化数据的处理效率有了很大的提高对大量的结构化数据的处理效率有了很大的提高 数据的最小存
18、取单位是信息项(字段),可以根据数据的最小存取单位是信息项(字段),可以根据用户需求灵活地改变查询结果集合的大小,从而大用户需求灵活地改变查询结果集合的大小,从而大大降低了网络数据传输的负载大降低了网络数据传输的负载 以数据库技术为基础已建立了大量的信息系统,形以数据库技术为基础已建立了大量的信息系统,形成了一整套系统分析、设计与实施的方法,为人们成了一整套系统分析、设计与实施的方法,为人们建立网络信息系统提供了现成的经验和模式建立网络信息系统提供了现成的经验和模式 57189.1.2 网络信息资源的组织方式网络信息资源的组织方式以数据库方式组织网络信息资源,其以数据库方式组织网络信息资源,其
19、不足之处不足之处在于在于: : 对非结构化信息的处理困难较大,对网络环境中日对非结构化信息的处理困难较大,对网络环境中日益增加的多媒体信息及表格程序、大文本等非结构益增加的多媒体信息及表格程序、大文本等非结构化信息的组织处理能力较差化信息的组织处理能力较差 无法有效处理结构日益复杂的信息单元无法有效处理结构日益复杂的信息单元 缺乏直观性和人机交互性缺乏直观性和人机交互性 为了满足利用数据库技术处理非结构化文本信为了满足利用数据库技术处理非结构化文本信息的需要,人们试图对全文文本进行结构化处息的需要,人们试图对全文文本进行结构化处理,并用数据库技术对经过处理的文本信息进理,并用数据库技术对经过处
20、理的文本信息进行管理,称之为行管理,称之为“全文数据库全文数据库”。 57199.1.2 网络信息资源的组织方式网络信息资源的组织方式 搜索引擎方式搜索引擎方式 自动搜寻工具主要有自动搜寻网络资源、自动自动搜寻工具主要有自动搜寻网络资源、自动索引、自动摘要、提供检索方法和用户界面等索引、自动摘要、提供检索方法和用户界面等功能功能。由于是自动搜寻,故这种方式的由于是自动搜寻,故这种方式的不足之处不足之处是是 收录的信息良莠不齐收录的信息良莠不齐 耗费大量的计算机资源耗费大量的计算机资源 查全率高但查准率低查全率高但查准率低搜索引擎搜索引擎“命中命中”的网上一次信息动辄上百成的网上一次信息动辄上百
21、成千,因此越来越多的搜索引擎提供二次检索功千,因此越来越多的搜索引擎提供二次检索功能,以及对检索结构进行再处理的功能。能,以及对检索结构进行再处理的功能。 57209.1.2 网络信息资源的组织方式网络信息资源的组织方式 目录指南方式目录指南方式 目录指南方式,又可称为目录指南方式,又可称为主题树方式主题树方式,组织信息资源,组织信息资源的方法是将信息资源按照某种事先确定的主题分门别的方法是将信息资源按照某种事先确定的主题分门别类地加以组织,用户通过浏览的方式层层遍历,直到类地加以组织,用户通过浏览的方式层层遍历,直到找到所需的信息的线索,再链接到相应的网页。找到所需的信息的线索,再链接到相应
22、的网页。 目录指南方式的目录指南方式的优点优点是是 信息的专题性较强,信息质量高,且能较好地满足信息的专题性较强,信息质量高,且能较好地满足族性检索的要求族性检索的要求 用户按照规定的范围和分类体系,逐级查看,按图用户按照规定的范围和分类体系,逐级查看,按图索骥,目的性强,查准率高索骥,目的性强,查准率高 屏蔽了网络资源系统相对于用户的复杂性,提供了屏蔽了网络资源系统相对于用户的复杂性,提供了一个基于树浏览的简单易用的网络信息检索与利用一个基于树浏览的简单易用的网络信息检索与利用界面,并且具有严密的系统性和良好的可扩充性界面,并且具有严密的系统性和良好的可扩充性 57219.1.2 网络信息资
23、源的组织方式网络信息资源的组织方式目录指南方式的目录指南方式的不足不足主要体现在主要体现在 : :很难确定一个全面的范畴体系作为目录指南很难确定一个全面的范畴体系作为目录指南结构的基础来涵盖所有的网络信息资源。结构的基础来涵盖所有的网络信息资源。用户为了迅速地找到所需信息还须对相应的用户为了迅速地找到所需信息还须对相应的体系有较全面的了解,这就增加了用户的智体系有较全面的了解,这就增加了用户的智力负担。力负担。 要保证目录结构的清晰性,每一类目下的条要保证目录结构的清晰性,每一类目下的条目也不宜过多,这就大大限制了所能容纳网目也不宜过多,这就大大限制了所能容纳网络信息资源的数量。因此,目录指南
24、结构不络信息资源的数量。因此,目录指南结构不适合建立大型的综合性的网络资源系统适合建立大型的综合性的网络资源系统 。但。但在建立专业性或示范性的网络信息资源体系在建立专业性或示范性的网络信息资源体系时,就显示出其结构清晰、使用方便的优点。时,就显示出其结构清晰、使用方便的优点。 57229.1.2 网络信息资源的组织方式网络信息资源的组织方式 图书馆编目方式图书馆编目方式 目前,图书馆编目已成为一种组织网络信息资源的重目前,图书馆编目已成为一种组织网络信息资源的重要方式,它用传统的机读目录格式来组织整理网络信要方式,它用传统的机读目录格式来组织整理网络信息资源。息资源。网上资源编目网上资源编目
25、需要精干的咨询机构、自动化系统的专需要精干的咨询机构、自动化系统的专门知识、馆藏发展与参考部门的共同合作,才能为用门知识、馆藏发展与参考部门的共同合作,才能为用户提供最为有效的目录产品。采用馆内合作的方式对户提供最为有效的目录产品。采用馆内合作的方式对网上资源进行编目,分为三个步骤:网上资源进行编目,分为三个步骤: 由负责馆藏建设的馆员选择网上资源,填写由负责馆藏建设的馆员选择网上资源,填写“网网络资源著录申请表络资源著录申请表”; 由编目人员根据由编目人员根据 MARC/AACRIIMARC/AACRII对网上资源进行编对网上资源进行编目;目; 由自动化系统工作人员将确切的网址和检索方式由自
26、动化系统工作人员将确切的网址和检索方式添加到添加到856 856 字段中。由于网上信息常常修改、变动,字段中。由于网上信息常常修改、变动,故人们要时刻关注故人们要时刻关注 856 856 字段相关内容的变化,这字段相关内容的变化,这并不是一件容易的事。并不是一件容易的事。57239.1.2 网络信息资源的组织方式网络信息资源的组织方式 数据库与超媒体结合方式数据库与超媒体结合方式 数据库技术与超媒体技术的结合,是网络信息数据库技术与超媒体技术的结合,是网络信息资源组织与开发技术的发展趋势资源组织与开发技术的发展趋势 两者的结合途径从当前来看,通常是将数据库两者的结合途径从当前来看,通常是将数据
27、库作为超媒体系统的一个节点来进行处理。在这作为超媒体系统的一个节点来进行处理。在这种方式中,数据库看成超媒体系统中一个独立种方式中,数据库看成超媒体系统中一个独立的特殊节点,由特殊的链接将数据库节点和其的特殊节点,由特殊的链接将数据库节点和其他的超媒体节点相连。其具体他的超媒体节点相连。其具体实现方法实现方法有:有: CGI (Common Gateway Inter-face)CGI (Common Gateway Inter-face)方法方法 Web API (Application Program Interface)Web API (Application Program Inter
28、face)方式方式 Active XActive X技术技术 JDBC(Java Database Connectivity)JDBC(Java Database Connectivity)技术技术 57249.1.2 网络信息资源的组织方式网络信息资源的组织方式 从网络信息组织对象的范围看,网络信息从网络信息组织对象的范围看,网络信息组织的模式可以划分为组织的模式可以划分为4 4个层次:个层次: 第一个层次为微观的组织模式第一个层次为微观的组织模式第二个层次为中观的组织模式,第二个层次为中观的组织模式,第三个层次为宏观的组织模式,第三个层次为宏观的组织模式,第四个层次为对网络信息进行分布式组
29、织的数第四个层次为对网络信息进行分布式组织的数字图书馆,其组织的资源己经远远超出网上信字图书馆,其组织的资源己经远远超出网上信息的范围。息的范围。57259.1.3 网络信息资源组织的三个层次网络信息资源组织的三个层次 语法信息、语义信息和语用信息分别对应语法信息、语义信息和语用信息分别对应着信息的形式、内容和效用三个层次,与着信息的形式、内容和效用三个层次,与此相关,语法信息组织、语义信息组织和此相关,语法信息组织、语义信息组织和语用信息组织也就形成了网络信息组织方语用信息组织也就形成了网络信息组织方法的三个层次。法的三个层次。语法信息组织是以信息的形式特征为依据序化语法信息组织是以信息的形
30、式特征为依据序化信息的方法。信息的方法。语义信息组织是以信息的内容或本质特征为依语义信息组织是以信息的内容或本质特征为依据序化信息的方法。据序化信息的方法。 语用信息的组织是以信息的效用特征为依据序语用信息的组织是以信息的效用特征为依据序化信息的方法。化信息的方法。57269.1.4信息系统资源组织的发展趋势信息系统资源组织的发展趋势 理想的网络信息组织模式应是以用户为中心,遵理想的网络信息组织模式应是以用户为中心,遵循系统性、实用性、易用性原则,综合运用自然循系统性、实用性、易用性原则,综合运用自然语言和人工语言,充分利用新兴技术和人们经验语言和人工语言,充分利用新兴技术和人们经验的积累,朝
31、着更符合用户需要的方向发展。的积累,朝着更符合用户需要的方向发展。 网络信息资源组织模式的发展呈现在以下几个方网络信息资源组织模式的发展呈现在以下几个方面。面。信息描述标准化信息描述标准化 组织技术智能化组织技术智能化 用户界面可视化用户界面可视化 组织方法多样化组织方法多样化 面向内容的信息组织面向内容的信息组织 面向对象的信息组织面向对象的信息组织 组织活动合作化组织活动合作化 57279.2网络信息资源管理的相关技术网络信息资源管理的相关技术 超文本标记语言(超文本标记语言(HTMLHTML)HTMLHTML是一个简单的标记语言,它主要用来描述是一个简单的标记语言,它主要用来描述WebW
32、eb文档的结构,文档的结构, HTMLHTML文档由两部分组成:一文档由两部分组成:一种是种是HTMLHTML标记标记(tag)(tag);另一种是普通文本。;另一种是普通文本。 57289.2网络信息资源管理的相关技术网络信息资源管理的相关技术HTMLHTML的弊端主要表现在:的弊端主要表现在: 难以扩展难以扩展 交互性差交互性差 语义性差语义性差 是一种表示技术,它包含了关于如何显示信息的标是一种表示技术,它包含了关于如何显示信息的标签,但是标签和数据是结合在一起的,很难进行分签,但是标签和数据是结合在一起的,很难进行分割割 不允许用户对数据进行变换以便进一步进行处理不允许用户对数据进行变
33、换以便进一步进行处理 对数据只提供了一个对数据只提供了一个“视图视图,如果你想要得到不,如果你想要得到不同的视图的话,你必须重新生成一个同的视图的话,你必须重新生成一个HTMLHTML网页;网页; 格式既不适合机器分析也不适合人阅读它的源码,格式既不适合机器分析也不适合人阅读它的源码,而且它的格式要求比较松散,而且它的格式要求比较松散,HTMLHTML解释器采用的是解释器采用的是尽量解释的机制。尽量解释的机制。 57299.2网络信息资源管理的相关技术网络信息资源管理的相关技术 可扩展标记语言(可扩展标记语言(XMLXML)XMLXML的的组成元素组成元素 模式模式(Schema) (Sche
34、ma) 可扩展样式语言可扩展样式语言(XSL(XSL,Extensible stylesheet Extensible stylesheet Language) Language) 可扩展链接语言可扩展链接语言(XLL(XLL,Extensible Link Language)Extensible Link Language) XMLXML是建立在数据由它的创建者和维护者管理是建立在数据由它的创建者和维护者管理这一信念的基础上的,对于那些准备提供内容这一信念的基础上的,对于那些准备提供内容的个人或团体将可以从中得到最好的数据格式的个人或团体将可以从中得到最好的数据格式服务。因此,它被认为是服务
35、。因此,它被认为是“2121世纪世纪WebWeb领域的领域的世界语世界语”。 57309.2网络信息资源管理的相关技术网络信息资源管理的相关技术XMLXML的出现大大弥补了的出现大大弥补了HTMLHTML和和SGMLSGML的局限性,的局限性,主要表现在:主要表现在: XMLXML可以用于本地计算的数据可以用于本地计算的数据 XMLXML可以为用户提供正确的结构化数据视图可以为用户提供正确的结构化数据视图 XMLXML允许集成不同来源的结构化数据允许集成不同来源的结构化数据 XMLXML描述来自多种应用程序的数据描述来自多种应用程序的数据 XMLXML通过粒度更新来提高性能通过粒度更新来提高性
36、能 XMLXML的的特点特点 跨平台性跨平台性 自描述性自描述性 灵活性灵活性 57319.2网络信息资源管理的相关技术网络信息资源管理的相关技术XMLXML的的优势优势 设计与特定领域有关的标记语言设计与特定领域有关的标记语言 异质系统间的通信异质系统间的通信开发灵活的开发灵活的WebWeb应用软件应用软件 在在WebWeb上发布数据上发布数据 更有意义和更准确的搜索更有意义和更准确的搜索 提供多语种支持提供多语种支持 57329.2网络信息资源管理的相关技术网络信息资源管理的相关技术 元数据(元数据(MetadataMetadata) 元数据的元数据的概念概念: :元数据即英文的元数据即英
37、文的MetadataMetadata。是。是关于数据的数据关于数据的数据(data about data)(data about data)。 IFLAIFLA将将MetadataMetadata定义为:定义为:“描述数据的数据,可用来描述数据的数据,可用来协助对网络电子资源的辨识、描述、指示其位协助对网络电子资源的辨识、描述、指示其位置的任何数据置的任何数据”。 目前出现了很多种元数据目前出现了很多种元数据规范规范 ,还有许许多,还有许许多多应用于各个专业领域的多应用于各个专业领域的MetadataMetadata标准标准 。在。在众多的元数据标准中,都柏林核心元数据已成众多的元数据标准中,
38、都柏林核心元数据已成为国际上最通用的元数据,也是万维网联盟为国际上最通用的元数据,也是万维网联盟( W3C)( W3C)推荐的元数据标准口。推荐的元数据标准口。57339.2网络信息资源管理的相关技术网络信息资源管理的相关技术元数据在网络信息资源整合方面的元数据在网络信息资源整合方面的作用作用有:有: 描述描述(Description)(Description) 定位定位(Location) (Location) 发现发现(Discovery) (Discovery) 评估评估(Evaluation) (Evaluation) 选择选择(Selection) (Selection) 从系统的角
39、度审视元数据,元数据的功能还包从系统的角度审视元数据,元数据的功能还包括提供浏览及检索的功能、管理功能以及组合括提供浏览及检索的功能、管理功能以及组合各个对象以及藏品的再呈现等。各个对象以及藏品的再呈现等。 57349.2网络信息资源管理的相关技术网络信息资源管理的相关技术 资源描述框架(资源描述框架(RDFRDF) 资源描述框架资源描述框架Resource Description Resource Description FrameworkFramework,简称,简称RDFRDF应运而生,为多种元数据应运而生,为多种元数据的交互操作性提供平台。的交互操作性提供平台。资源描述框架使用资源描述
40、框架使用XMLXML作为交换和加工元数据作为交换和加工元数据的通用语法。的通用语法。 RDFRDF是由是由W3CW3C组织开发的一种元数据格式,它的组织开发的一种元数据格式,它的模型结构包括资源模型结构包括资源(Resources)(Resources)、属性、属性(Properties)(Properties)和声明和声明(statement)(statement)三种对象,三种对象,采用采用“资源一属性一属性值资源一属性一属性值”的的“主谓宾主谓宾”结结构构( (或称三元组或称三元组) ),提供一种框架容器,并通过,提供一种框架容器,并通过XMLXML定义了一套形式化的方法,为机器语义理定
41、义了一套形式化的方法,为机器语义理解的结构基础。解的结构基础。57359.2网络信息资源管理的相关技术网络信息资源管理的相关技术目前目前RDFRDF应用应用于:于: 资源发现,以使搜索引擎功能更强定位资源发现,以使搜索引擎功能更强定位(Location) (Location) 智能软件,实现知识的共享与互换智能软件,实现知识的共享与互换 描述站点及其相关的内容,即站点编目等描述站点及其相关的内容,即站点编目等RDFRDF有两个重要有两个重要特点特点: 独立性独立性 ,它可以嵌入,它可以嵌入DCDC元数据,也可以嵌入别的元数据,也可以嵌入别的类型的元数据。类型的元数据。 使用使用XMLXML作为
42、其描述语法,作为其描述语法,xMLxML摒弃了摒弃了SGMLSGML过于复杂过于复杂及不利于在及不利于在WebWeb上传送的选项功能,又弥补了上传送的选项功能,又弥补了HTMLHTML过于简单的不足,是目前最具发展前景的标记语言。过于简单的不足,是目前最具发展前景的标记语言。 57369.2网络信息资源管理的相关技术网络信息资源管理的相关技术 本体(本体(OntologyOntology)StuderStuder等认为等认为ontologyontology是共享概念模型的明是共享概念模型的明确的形式化规范说明。这包含确的形式化规范说明。这包含4 4层含义:层含义: 概念模型概念模型(conce
43、ptualization)(conceptualization) 明确明确(explicit)(explicit) 形式化形式化(formal)(formal) 共享共享(share)(share)OntologyOntology的的目标目标是捕获相关领域的知识,提供是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给认可的词汇,并从不同层次的形式化模式上给出这些词汇出这些词汇( (术语术语) )和词汇间相互关系的明确定和词汇间相互关系的明确定义。义。57379.3.1 网络信息资源的检索网络信息资源
44、的检索 网络信息检索自身的网络信息检索自身的特点特点主要表现在:主要表现在:必须借助网络检索工具。必须借助网络检索工具。基于超文本结构。基于超文本结构。检索方法的多样性。检索方法的多样性。多媒体检索。多媒体检索。 57389.3.1 网络信息资源的检索网络信息资源的检索 网络信息检索的一般步骤有七个网络信息检索的一般步骤有七个主要过程主要过程: 明确检索需求。明确检索需求。 确定检索范围。确定检索范围。 确定有效的检索词。确定有效的检索词。 构造合适的检索表达式。构造合适的检索表达式。 选择合适的检索工具。选择合适的检索工具。 正式检索。正式检索。 评价检索结果。评价检索结果。57399.3.
45、1 网络信息资源的检索网络信息资源的检索 网络信息资源的网络信息资源的一般查询方法一般查询方法有:有: 基于超文本的信息检索基于超文本的信息检索 基于目录的信息检索基于目录的信息检索 基于搜索引擎的信息检索基于搜索引擎的信息检索57409.3.1 网络信息资源的检索网络信息资源的检索 影响影响网络信息检索的网络信息检索的因素因素:信息资源质量信息资源质量检索软件检索软件用户水平等用户水平等 57419.3.1 网络信息资源的检索网络信息资源的检索信息资源质量信息资源质量对信息检索的对信息检索的影响影响 : 信息资源收集不完整、不系统、不科学,导信息资源收集不完整、不系统、不科学,导致信息检索必
46、须多次进行,造成人力、物力致信息检索必须多次进行,造成人力、物力和时间上的浪费。和时间上的浪费。 信息资源加工处理不规范、不标准、使信息信息资源加工处理不规范、不标准、使信息检索的查全率、查准率下降。检索的查全率、查准率下降。 信息资源分散、无序、更换、消亡无法预测,信息资源分散、无序、更换、消亡无法预测,因此用户无法判断网上有多少信息同自己需因此用户无法判断网上有多少信息同自己需求有关,检索评价标准无法确定。求有关,检索评价标准无法确定。57429.3.1 网络信息资源的检索网络信息资源的检索信息资源由于版权和知识产权问题,也给信息信息资源由于版权和知识产权问题,也给信息检索带来麻烦。检索带
47、来麻烦。信息的语言障碍问题。信息的语言障碍问题。57439.3.1 网络信息资源的检索网络信息资源的检索检索软件检索软件对信息检索的对信息检索的影响影响 : 互联网上的信息存放地址转换和更名频繁,互联网上的信息存放地址转换和更名频繁,根据检索工具检索的结果并不一定就能获得根据检索工具检索的结果并不一定就能获得相应的内容。相应的内容。 基于一个较广定义的检索项,往往会获得数基于一个较广定义的检索项,往往会获得数以千万计的检索结果,而使用户难于选择真以千万计的检索结果,而使用户难于选择真正所需的信息。正所需的信息。 每种检索工具虽然仅收集各自范围内的信息每种检索工具虽然仅收集各自范围内的信息资源,
48、但也难免使各种检索工具的信息资源资源,但也难免使各种检索工具的信息资源出现交叉重复现象。出现交叉重复现象。57449.3.1 网络信息资源的检索网络信息资源的检索用户水平用户水平对信息检索的对信息检索的影响影响 : 用户对信息检索需求的理解和检索策略的制用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量。定关系到信息检索的质量。 用户的计算机操作能力及网络相关知识的掌用户的计算机操作能力及网络相关知识的掌握程度影响着信息检索的效率。握程度影响着信息检索的效率。 用户对网络信息检索工具的应用熟练程度影用户对网络信息检索工具的应用熟练程度影响着信息检索的效果。响着信息检索的效果。 用户的
49、外语水平影响着信息检索的广度与深用户的外语水平影响着信息检索的广度与深度。度。57459.3.2 网络检索工具网络检索工具 搜索引擎搜索引擎是一种信息搜索的软件。是一种信息搜索的软件。 狭义狭义理解,它是利用网络自动搜索技术理解,它是利用网络自动搜索技术(RobotRobot)对网络资源进行搜集、标引、储)对网络资源进行搜集、标引、储存和检索的一种技术和系统。存和检索的一种技术和系统。 广义广义上,搜索引擎可以看作是提供搜索和上,搜索引擎可以看作是提供搜索和分类导航信息查询服务的一系列网站。分类导航信息查询服务的一系列网站。 57469.3.2 网络检索工具网络检索工具 搜索引擎搜索引擎的的类
50、型类型(按(按检索机制检索机制划分)划分) :检索型搜索引擎检索型搜索引擎 : :以信息查询、检索为主以信息查询、检索为主目录型搜索引擎目录型搜索引擎 :以分类目录导航为主:以分类目录导航为主混合型搜索引擎混合型搜索引擎 :分类目录和关键词检索并:分类目录和关键词检索并重重 评价搜索引擎的优劣评价搜索引擎的优劣查询时间短、命中率高、重复率低查询时间短、命中率高、重复率低57479.3.2 网络检索工具网络检索工具 网络信息检索工具的网络信息检索工具的核心核心是其是其检索功能检索功能。 从现有的检索工具来看,它们都已具备诸从现有的检索工具来看,它们都已具备诸如如布尔检索布尔检索、截词检索截词检索