第2章-计算机信息检索技术共96页文档课件.ppt

上传人(卖家):三亚风情 文档编号:2878098 上传时间:2022-06-07 格式:PPT 页数:96 大小:1.72MB
下载 相关 举报
第2章-计算机信息检索技术共96页文档课件.ppt_第1页
第1页 / 共96页
第2章-计算机信息检索技术共96页文档课件.ppt_第2页
第2页 / 共96页
第2章-计算机信息检索技术共96页文档课件.ppt_第3页
第3页 / 共96页
第2章-计算机信息检索技术共96页文档课件.ppt_第4页
第4页 / 共96页
第2章-计算机信息检索技术共96页文档课件.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

1、12022-6-6第1节 计算机检索概述第2节 计算机信息检索系统组成第3节 计算机信息检索的分类第4节 计算机信息检索技术第5节 信息检索的方法*第6节 信息检索的策略*22022-6-61.1 1.1 国内外计算机信息检索发展阶段国内外计算机信息检索发展阶段1975年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;20世纪80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期,Internet网络化检索阶段。32022-6-6国外计算机信息检索发展阶段国外计算机信息检索发展阶段(P5)(P5)脱机检索阶段(20世纪50-60年代)联机检索阶段(20世纪

2、60-80年代)光盘检索阶段(20世纪80年代中-90年代)网络信息检索阶段(2019-)42022-6-61.2 计算机信息检索的定义计算机信息检索的定义n计算机信息检索的实质就是计算机信息检索的实质就是由计算机将由计算机将输入输入的的检索策略检索策略与与系统中系统中存储存储的的文献特征标识文献特征标识及其及其逻辑组配关系逻辑组配关系进行进行类比、类比、匹配匹配的过程,需要的过程,需要人人机协同作用机协同作用来完成。来完成。n信息存贮信息存贮是将文献、数值、事实等按一定的格式输入到计是将文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。算机中,加工处理成可供检索的数据

3、库。n信息检索信息检索是将检索提问式按一定的要求输入计算机中,经是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的数据按要求的格式输出。然后将符合检索提问的数据按要求的格式输出。1.3 1.3 计算机信息检索特点计算机信息检索特点n检索速度快,效益高;n检索功能强,数量大;n检索途径多,手段灵活;n检索范围广;n服务方式多。62022-6-61.4 1.4 计算机信息检索的原理计算机信息检索的原理(P8-11)(P8-11) 信息存储信息存储 原始信息原始信息 信息主题信息主题 数据

4、库记录及数据库记录及 信息特征标识信息特征标识 信息检索信息检索 信息需求信息需求 检索主题检索主题 检索提问式及检索提问式及 提问标识提问标识 计算机计算机 检索结果检索结果 主题主题分析分析著录著录标引标引类比类比输出输出主题主题分析分析选定选定编制编制检索语言(主题词表)检索语言(主题词表)72022-6-6信息存储过程信息存储过程n信息存储信息存储就是按照一定标准,将收集就是按照一定标准,将收集到的原始文献进行到的原始文献进行主题概念分析主题概念分析,用,用系统系统规定规定的的语言语言(主题词主题词、分类号分类号)进行进行标引标引,形成信息的,形成信息的特征标识特征标识,进,进行整理与

5、排序,构成可供检索的数据行整理与排序,构成可供检索的数据库,库,主要包括:主要包括:信息的采集、著录、信息的采集、著录、标引和整序等过程标引和整序等过程。82022-6-6信息的著录信息的著录n对所收集的原始信息的对所收集的原始信息的外表特征外表特征(如(如题名题名、著者著者、文献、文献出处出处等)和等)和内容特征内容特征(如(如分类分类号号、主题词主题词、摘要摘要等)进行描述,形成一等)进行描述,形成一条条款目或记录的过程。条条款目或记录的过程。n在数据库中,其外表特征和内容特征通常在数据库中,其外表特征和内容特征通常称之为称之为字段字段,一条记录由若干个不同字段,一条记录由若干个不同字段构

6、成。构成。92022-6-6信息的标引信息的标引n标引:标引:根据一定的规则和程序(根据一定的规则和程序(主题词典或词主题词典或词表表),对文献的主题内容进行分析),对文献的主题内容进行分析,给予每篇文,给予每篇文献献主题词主题词、关键词关键词作为作为存储存储和和检索标识检索标识;或者根;或者根据文献的学科归属,采用某种文献资料分类法,据文献的学科归属,采用某种文献资料分类法,给予给予分类号分类号作为作为检索标识检索标识。102022-6-6信息检索过程信息检索过程n用户用户对检索课题加以分析对检索课题加以分析,明确检索范围,明确检索范围,弄清弄清主题主题概念概念,然后用系统检索语言来,然后用

7、系统检索语言来表示表示主题概念主题概念,形成形成检检索标识索标识及及检索策略检索策略, ,输入到计算机输入到计算机进行检索进行检索。计算机。计算机按照用户的要求将检索策略按照用户的要求将检索策略转换转换成一系列成一系列提问提问,在专,在专用程序的控制下进行用程序的控制下进行逻辑运算逻辑运算,选出符合要求的,选出符合要求的信息信息输出输出。n计算机检索的过程实际上是一个计算机检索的过程实际上是一个比较、匹配的过程比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑检索提问只要与数据库中的信息的特征标识及其逻辑组配组配关系相一致关系相一致,则属,则属“命中命中”,即找到了符合要求,即找

8、到了符合要求的信息。的信息。2 计算机信息检索信息检索系统组成2.1 2.1 系统设备系统设备硬件:硬件:运算器、控制器、存储器、输入输出装置等软件:软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。通讯线路:通讯线路:电话通讯网、数据通讯网、卫星通讯网等。检索终端:检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。数据库:数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。122022-6-62.2 数据库的构成数据库的构成一定专业范围内的信息记录及其索引的集合体,是计算机

9、信息检索系统的重要组成部分,是信息资源,是检索对象。一定专业范围内的信息记录及其索引的集合体,是计算机一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源信息检索系统的重要组成部分,是信息资源, ,是检索对象。是检索对象。构成数据库的三大要素:构成数据库的三大要素: 文档文档记录记录字段字段检索时,计算机按输入检索词的字顺先从指定的倒排文档检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号中找到相匹配的索引词,然后根据索引词后的记录顺序号到顺排档中调出相应的记录。到顺排档中调出相应的记录。132022-6-6

10、文档(文档(FileFile)p数据库中一部分记录的集合数据库中一部分记录的集合, ,文档由若干记录构成。文档由若干记录构成。p数据库是由一个顺排文档和若干个倒排文档所构成数据库是由一个顺排文档和若干个倒排文档所构成 顺排文档顺排文档是数据库的主体,又称主文档,按每条记是数据库的主体,又称主文档,按每条记 录的顺序号大小排列,检索结果都来自于顺排文档。录的顺序号大小排列,检索结果都来自于顺排文档。 倒排文档倒排文档是从顺排档中抽取有检索意义的检索标识,是从顺排档中抽取有检索意义的检索标识,如主题词、著者姓名、化学物质名、刊名等,并如主题词、著者姓名、化学物质名、刊名等,并按索引词的字顺排列,同

11、时在检索标识后注明入按索引词的字顺排列,同时在检索标识后注明入藏顺序号,这就是常见的数据库中的主题词索引、藏顺序号,这就是常见的数据库中的主题词索引、著者索引、刊名索引。著者索引、刊名索引。142022-6-6152022-6-6n由由若干字段若干字段组成的文献单元,是数据库中的基本组成的文献单元,是数据库中的基本文献单元,文献单元,每条记录描述了原始信息的每条记录描述了原始信息的外部外部和和内内部特征部特征。数据库中的一条记录通常代表一篇文献。数据库中的一条记录通常代表一篇文献。n例如:在书目型数据库中,例如:在书目型数据库中,一条记录相当于一条一条记录相当于一条题录题录或或文摘文摘;在全文

12、型数据库中,一;在全文型数据库中,一条记录相当条记录相当于一篇于一篇完整的文献完整的文献;在其它类型数据库中,一条;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的记录则代表一个信息单元。记录越多,数据库的容量就越大。容量就越大。记录(记录(Record)Record)162022-6-6172022-6-6字段(字段(Field)Field)n字段是构成记录的基本单元,是对文献某一方字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描面的特征(包括外表特征和内容特征)进行描述的结果。述的结果。n 例如:题名、作者、作者地址、出版年、来源例如:题名

13、、作者、作者地址、出版年、来源(出处)、主题词、文摘等字段是书目数据库(出处)、主题词、文摘等字段是书目数据库中必备字段。为识别每一个字段所表达的文献中必备字段。为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符(或称字段标识符),如,题名字段的标识符为为TI,作者字段的标识符为,作者字段的标识符为AU等。等。 182022-6-62.3 数据库的类型数据库的类型*(P3-4)n参考(文献书目型)数据库n全文数据库n事实数据库n数值数据库192022-6-6参考(文献书目型)数据库参考(文献书目型)数

14、据库是指包含各种是指包含各种数据、信息数据、信息或或知识知识的原始来源和属性的数据的原始来源和属性的数据库;是机读的库;是机读的目录目录、索引索引和和文摘文摘检索工具,检索结果是文检索工具,检索结果是文献的线索而非原文。献的线索而非原文。p存储的是存储的是二次文献二次文献,包括文献的外部特征、题录、文摘,包括文献的外部特征、题录、文摘 和主题词等。和主题词等。p这类数据库占用很大的比例,其代表性的数据库有这类数据库占用很大的比例,其代表性的数据库有 EI Compendex Plus(工程索引工程索引)、INSPEC(科学科学 文摘文摘)和和全国报刊索引全国报刊索引等。等。p图书馆提供的基于网

15、络的联机公共检索目录(图书馆提供的基于网络的联机公共检索目录(OPACOPAC)系统)系统202022-6-6 事实数据库事实数据库存储的是用来描述人物、机构、事物等信息存储的是用来描述人物、机构、事物等信息的情况、过程、现象的事实数据。的情况、过程、现象的事实数据。如名人录、机构指南、大事记、百科全书、手如名人录、机构指南、大事记、百科全书、手册、地图集、企事业名录、计算机程序、音乐册、地图集、企事业名录、计算机程序、音乐等,均可归入事实数据库。等,均可归入事实数据库。例如:中国咨询行、国研网、万方数据(中国例如:中国咨询行、国研网、万方数据(中国企业、公司及产品、中国科技名人、中国科研企业

16、、公司及产品、中国科技名人、中国科研机构等等)机构等等)212022-6-6数值数据库数值数据库主要包含的是数字数据,如各种统计数据、主要包含的是数字数据,如各种统计数据、科学实验数据、科学测量数据等。科学实验数据、科学测量数据等。气像数据、地质资料、化学或物理化合物 特性 的文献数据、人口统计资料、市场调研数据等。222022-6-6全文数据库全文数据库n存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。n全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。如:如:中国知网(中国知网(CNKICNKI)、万方、维普、)、万方、维普、 ElsevierElsevi

17、er等全文数据库。3 计算机信息检索的分类计算机信息检索的分类1 按信息资源的存储形式分按信息资源的存储形式分2 按信息访问模式分按信息访问模式分 242022-6-63.1 按信息资源的存储形式分按信息资源的存储形式分* (P7-8)(1)全文检索。)全文检索。n以全文数据库存储为基础的检索方式,所谓全文数据库是将以全文数据库存储为基础的检索方式,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。的信息单元而形成的数据集合。n全文检索系统全文检索系统对对全文数据库全文数据库进行词(字)、句、段

18、落等深层进行词(字)、句、段落等深层次的编辑、加工,同时允许用户采用自然语言表达,借助次的编辑、加工,同时允许用户采用自然语言表达,借助逻逻辑组配辑组配、截词截词、邻词匹配邻词匹配等等检索手段检索手段直接查阅文献原文信息。直接查阅文献原文信息。n全文检索的应用范围包括全文检索的应用范围包括:各种科技期刊、专利文献、新闻各种科技期刊、专利文献、新闻报纸、年鉴、百科、手册、图书报纸、年鉴、百科、手册、图书等全文数据库,等全文数据库,例如:我国例如:我国引进的引进的OCLCOCLC的的first searchfirst search、IELIEL、Springer LinkSpringer Link

19、、EBSCOEBSCO等等全文数据库以及我国全文数据库以及我国CNKICNKI的中国期刊全文数据库、重庆维普的中国期刊全文数据库、重庆维普的中文科技期刊数据库、超星数字图书馆、万方资源系统的的中文科技期刊数据库、超星数字图书馆、万方资源系统的数字化期刊、学位论文、会议论文等。数字化期刊、学位论文、会议论文等。 252022-6-6(2)二次文献检索)二次文献检索*n是针对全文检索而言,也就是分别将文献的是针对全文检索而言,也就是分别将文献的内部特征内部特征(题名、分类等)和(题名、分类等)和外部特征外部特征(作者、出处、年代、(作者、出处、年代、ISSN、语言等)作为、语言等)作为存储存储和和

20、检索检索的匹配标识而形成的匹配标识而形成的数据集合,利用检索系统的检索结果是的数据集合,利用检索系统的检索结果是文献信息文献信息的的题录题录及及文摘文摘。n学科领域覆盖面广,信息量大,可以利用文献线索获学科领域覆盖面广,信息量大,可以利用文献线索获取到一次文献。取到一次文献。n例如:例如:COMPENDEX、INSPEC、SCI等国外数据库;等国外数据库;万方数据的学位论文、会议论文数据库、全国报刊索万方数据的学位论文、会议论文数据库、全国报刊索引、引、Calis西文期刊目次数据库等西文期刊目次数据库等262022-6-6(3)多媒体检索)多媒体检索n就是把就是把文字、声音、图像(形)文字、声

21、音、图像(形)等多种信息的传播载体等多种信息的传播载体通过计算机进行数字化加工、处理而形成的一种综合存通过计算机进行数字化加工、处理而形成的一种综合存储技术。储技术。n利用多媒体检索系统可分别进行利用多媒体检索系统可分别进行视频检索视频检索、声音检索声音检索、图像检索图像检索。多媒体信息检索系统有着广阔的应用前景,。多媒体信息检索系统有着广阔的应用前景,它将广泛用于它将广泛用于电子会议、远程教学、远程医疗、电子图电子会议、远程教学、远程医疗、电子图书馆、艺术收藏和地球资源管理、天气预报、时装设计、书馆、艺术收藏和地球资源管理、天气预报、时装设计、智能群体决策、计算机支持协同工作、金融市场、军事

22、智能群体决策、计算机支持协同工作、金融市场、军事指挥系统、防汛指挥系统指挥系统、防汛指挥系统等方面。等方面。n各大网站均可进行多媒体信息的检索,各大网站均可进行多媒体信息的检索,如:如:GOOGLEGOOGLE、百、百度度等搜索引擎、等搜索引擎、新华社多媒体数据库新华社多媒体数据库是国内最大规模的是国内最大规模的多媒体、多文种新闻信息综合性数据库。多媒体、多文种新闻信息综合性数据库。 272022-6-6(4)超文本检索)超文本检索n超文本超文本(Hyper text) 是利用计算机将多介质信息是利用计算机将多介质信息按照一定的逻辑按照一定的逻辑联接关系加工、贮存起来,构成可任意连接的、有层次

23、的网状结联接关系加工、贮存起来,构成可任意连接的、有层次的网状结构数据库,是一种联想式的综合信息管理系统。构数据库,是一种联想式的综合信息管理系统。n其中的某些其中的某些字字、符号符号或或短语短语、图形图形和和图像图像起着起着“热链路热链路”(Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下)的作用,在显示出来时其字体或颜色变化或者标有下横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,并且按了一下鼠标键之后,鼠标器光标便沿着这条链路并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文跳到该文件的另一处或另一个

24、文件。件的另一处或另一个文件。n计算机信息检索在经历了传统信息检索、全文文本检索之后,随计算机信息检索在经历了传统信息检索、全文文本检索之后,随着多媒体技术的发展和应用,出现目前这种着多媒体技术的发展和应用,出现目前这种超文本检索方式超文本检索方式。可。可用于用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文物、生物物、生物等内容广泛的各种信息。等内容广泛的各种信息。282022-6-63.2 按信息访问模式分按信息访问模式分(P5)根据检索方式分:(1)脱机检索(2)联机检索(3)国际联机检索(4)光盘检索(5)镜像检索(6)网络检索

25、(1) 脱机信息检索脱机信息检索是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费 用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委 托性检索。(2) 联机信息检索联机信息检索联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:特点:检索的速度快,检索结果可以得到 及时修改。缺点:缺点:检索费用高。(3)国际联机检索)国际联机检索*该系统是该系统是7070年代出现的一门现代化情报检年

26、代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有算机联机网络和检索终端已遍及世界所有主要国家和地区。主要国家和地区。优点:优点:(1)(1)可以实现资源共享;可以实现资源共享;(2)(2)检索速度快;检索速度快;(3)(3)信息资源专业化;信息资源专业化;(4)(4)查全率和查准率较高。查全率和查准率较高。2022-6-632国际联机检索的缺点 检索费用高;对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉;检索技术和技巧不易掌握世界上最著名的国际联机检索系统世界上最著名的国际联机检索系统1、D

27、IALOG系统系统*n是世界最大的国际联机检索系统是世界最大的国际联机检索系统n19631963年,原属美国洛克希德公司,系统设在加洲年,原属美国洛克希德公司,系统设在加洲Palo Palo AltoAlto市市,1988,1988年转让给美国年转让给美国Knight-RidderKnight-Ridder公司。公司。20002000年年又转入又转入DIALOGDIALOG公司经营。目前,该系统的联机服务网遍公司经营。目前,该系统的联机服务网遍布世界布世界7070多个国家和地区的多个国家和地区的200200多个城市,共设有联机检多个城市,共设有联机检索终端索终端2500025000余台。余台。

28、n系统中各类型数据库数量的发展速度相当快,系统中各类型数据库数量的发展速度相当快, 拥有数据库约拥有数据库约900900多个,占全世界机存总量的多个,占全世界机存总量的60%60%,内容,内容涉及自然科学、社会科学、经济、商业等各个领域。涉及自然科学、社会科学、经济、商业等各个领域。342022-6-6DIALOG系统主页系统主页(dialog/)352022-6-6DIALOG WEB系统检索平台系统检索平台2022-6-636世界上最著名的国际联机检索系统世界上最著名的国际联机检索系统2、ORBIT系统:系统:n是世界是第二大联机检索系统,他建于是世界是第二大联机检索系统,他建于1965年

29、,总部设在美国费吉尼亚洲的马库林。提供年,总部设在美国费吉尼亚洲的马库林。提供专利、化学、能源、市场、工程和电子等方面专利、化学、能源、市场、工程和电子等方面的信息,约有的信息,约有100个数据库,占全世界机存文个数据库,占全世界机存文献量的献量的25%。n主要提供补充主要提供补充DIALOG系统而不是与其竞争的系统而不是与其竞争的数据,特别是数据,特别是在专利、商标和科技信息在专利、商标和科技信息等领域等领域具有独特优势。具有独特优势。2022-6-637世界上最著名的国际联机检索系统世界上最著名的国际联机检索系统3 3、BRSBRS系统:系统:内容涉及医学、生物科学、教育、健康、物内容涉及

30、医学、生物科学、教育、健康、物理和社会科学及其它综合性学科。有理和社会科学及其它综合性学科。有154154个公用数据库个公用数据库和和4040多个私人数据库。多个私人数据库。4 4、ESA-IRSESA-IRS系统:系统:是欧洲最大的、也是世界第三大联机情是欧洲最大的、也是世界第三大联机情报检索系统,报检索系统,19641964年成立于法国,年成立于法国,19731973年迁移至意大利,年迁移至意大利,目前有目前有100100多个数据库。提供有原材料价格、宇航及高多个数据库。提供有原材料价格、宇航及高技术软件、美国化学数据、综合性数据库等。技术软件、美国化学数据、综合性数据库等。5 5、STN

31、STN系统:系统:由美国化学文摘社、德国由美国化学文摘社、德国KarlsruhlKarlsruhl专业信专业信息中心、日本科技信息中心联合开发的国际间网络系统,息中心、日本科技信息中心联合开发的国际间网络系统,约有约有200200多个数据库:其中包括各具特色的美、德、日多个数据库:其中包括各具特色的美、德、日三国专利数据库、化学全文数据库、化学物质结构图形三国专利数据库、化学全文数据库、化学物质结构图形数据库及部分医药数据库等。数据库及部分医药数据库等。(4) 光盘数据库检索光盘数据库检索光盘:光盘:80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能

32、存储数据、文字、图形、图像、声音、动画等各种信息。一张普通的光盘、信息存储量约为650兆。光盘的分类:光盘的分类:按存储方式分为 (1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM光盘检索的定义和特点定义:定义:是一种用激光技术在特制圆盘上 记录信息的检索方式。特点:特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。光盘检索的系统组成光盘检索的系统组成单机光盘检索系统组成:单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印

33、机等网络光盘检索系统组成:网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器412022-6-6(5)镜像数据库检索)镜像数据库检索*n镜像:镜像:最原始的含义是在镜子里看到的你自己的像,在最原始的含义是在镜子里看到的你自己的像,在IT界中,将界中,将“镜像镜像”这个词的含义进行了扩展,指的是这个词的含义进行了扩展,指的是完全一样的两个东西。完全一样的两个东西。n镜像数据库:镜像数据库:就是将光盘版、网络版数据库或主网站资就是将光盘版、网络版数据库或主网站资源的数据复制到不同的地理位置(某地或本地)的镜像源的数据复制到不同的地理位置(某地或本地)的镜像服务器上,成为该

34、服务器的镜像数据库,并为网络用户服务器上,成为该服务器的镜像数据库,并为网络用户提供检索服务。提供检索服务。n目的是分担访问流量目的是分担访问流量;如,如,CNKI、维普、万方数据、维普、万方数据、超星等超星等422022-6-6n通过通过计算机网络系统计算机网络系统可以连接世界上各种可以连接世界上各种公用数据库公用数据库和和商用数据库商用数据库,可以帮助用户获取希望得到的信息。,可以帮助用户获取希望得到的信息。n网络化信息检索系统的特点是:网络化信息检索系统的特点是:一般一般基于客户机基于客户机/服服务器务器, 客户与服务器客户与服务器是是同等关系同等关系,只要遵循共同协议只要遵循共同协议(

35、TCP/IP协议是目前最成功的网络体系结构和协议规协议是目前最成功的网络体系结构和协议规范范),一个服务器可被多个客户访问,一个客户可访,一个服务器可被多个客户访问,一个客户可访问多个服务器。问多个服务器。网络的用户数量不受到限制,它是一网络的用户数量不受到限制,它是一个开放系统而不是封闭式系统个开放系统而不是封闭式系统n网络化信息检索将在全球范围内网络化信息检索将在全球范围内实现信息资源共享实现信息资源共享,全球全球网络网络是信息是信息存贮存贮与与检索检索进一步进一步发展的方向发展的方向。n常见检索有:常见检索有:GOOGLE、百度、多媒体、咨询行及、百度、多媒体、咨询行及所有的外文数据库所

36、有的外文数据库(6)网络数据库检索)网络数据库检索*4 计算机信息检索技术计算机信息检索技术*(P11)1.布尔逻辑检索2.截词检索3.位置运算检索4.字段限定检索4.1 布尔逻辑检索布尔逻辑检索*(P11)布尔逻辑检索布尔逻辑检索 (Boolean logical):是用是用布尔逻布尔逻辑算符辑算符将将检索词检索词、短语短语或或代码代码进行进行逻辑组配逻辑组配, 指定文献的命中指定文献的命中条件条件和和组配次序组配次序, 凡符合逻辑凡符合逻辑组配所规定条件的为组配所规定条件的为命中命中文献文献, 否则为否则为非命中非命中。 布尔逻辑运算符:布尔逻辑运算符:在检索过程中用于在检索过程中用于表达

37、词与表达词与词之间的逻辑关系的算符词之间的逻辑关系的算符。分为三种逻辑关系:。分为三种逻辑关系:逻辑与逻辑与(AND )(*)、逻辑或、逻辑或(OR )(+)、逻辑非、逻辑非(NOT)()表示。表示。452022-6-6逻辑与逻辑与nA AND B:检索词:检索词A和检索词和检索词B同时出现同时出现在一条记录中,例如:在一条记录中,例如:汽车汽车和和飞机飞机发动机发动机。n其作用是缩小检索范围,提高查准率。其作用是缩小检索范围,提高查准率。 A=汽车发动机汽车发动机B=飞机发动机飞机发动机汽车与飞机发动机汽车与飞机发动机ABA and B逻辑逻辑“与与”运运算算462022-6-6逻辑或(逻辑

38、或(OR)nA OR B:记录中出现:记录中出现检索词检索词A或或检索词检索词B或两词同时出现在一条记录中。或两词同时出现在一条记录中。n其作用是扩大检索范围,其作用是扩大检索范围,提高查全率提高查全率汽车发动机或飞机发动机汽车发动机或飞机发动机AB逻辑逻辑“或或”运运算算472022-6-6逻辑非(逻辑非(NOT)nA NOT B:记录必须包含:记录必须包含检索词检索词A但但不不能包含能包含检索词检索词B。即在含有。即在含有A检索词的文检索词的文献中去除含有献中去除含有B检索词的文献。检索词的文献。n其作用是缩小检索范围,其作用是缩小检索范围,提高查准率提高查准率。A汽车发动机汽车发动机汽车

39、、飞机发动机汽车、飞机发动机飞机发动机飞机发动机BA not B逻辑逻辑“非非”运运算算482022-6-6布尔逻辑算符的运算次序布尔逻辑算符的运算次序n用布尔逻辑算符组配检索词构成的检索提问式用布尔逻辑算符组配检索词构成的检索提问式,逻辑算符逻辑算符ANDAND、OROR、NOTNOT的运算次序,的运算次序,在不同的检索系统中有不同的在不同的检索系统中有不同的规定规定。n在有括号的情况下,在有括号的情况下,括号内的逻辑运算先执行。括号内的逻辑运算先执行。n在无括号的情况下,在无括号的情况下,有下列几种处理顺序有下列几种处理顺序: NOTNOT最先执行,其次执行,最后执行。最先执行,其次执行,

40、最后执行。 最先执行,其次执行,最后执行。最先执行,其次执行,最后执行。 最先执行,其次执行,最后执行。最先执行,其次执行,最后执行。 按自然顺序,、谁在先就先执行谁按自然顺序,、谁在先就先执行谁。n检索时,要事先了解检索系统的规定,检索时,要事先了解检索系统的规定,避免逻辑运算次序避免逻辑运算次序处理不当而造成错误的检索结果。处理不当而造成错误的检索结果。因为,对同一个布尔逻因为,对同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。辑提问式,不同的运算次序会有不同的检索结果。4.2 截词检索截词检索截词检索截词检索就是就是把检索词截断,取其中的把检索词截断,取其中的一部分,在加上截词符

41、号一起进行检索。一部分,在加上截词符号一起进行检索。主要用于检索词的单复数、词性的词尾主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词变化、词根相同的一类词,以及同一词的拼法变异等。的拼法变异等。常用的截词符有常用的截词符有:“?”、“ * ”、“$”、“#”502022-6-6截词的作用:截词的作用:采用截词检索表达式,既能采用截词检索表达式,既能防止漏检,又能节省时间,能有效提高检防止漏检,又能节省时间,能有效提高检索效率。索效率。 截词符的使用:截词符的使用:利用截词检索时,注意截利用截词检索时,注意截词的部位,一定不能截的太深,否则误检词的部位,一定不能截的太深,否

42、则误检率会很大。率会很大。512022-6-6截词方法截词方法p 无限截断:无限截断:即该词根后可跟任何字符,且字符数不限;即该词根后可跟任何字符,且字符数不限; 如:如:childchild* *, ,可查到可查到child, childchild, childrenren,child,childishish, , child childhoodhood等所有以等所有以childchild开头的单词。开头的单词。 如:如:coumput?coumput?,可检出,可检出ComputCompute e,Comput,Computerer,Comput,Computinging, , compu

43、 computabletable 有限截断:有限截断:即该词根后至多可跟即该词根后至多可跟n个字符,如需要个字符,如需要n个有限个有限词符截词,请输入词符截词,请输入n个个?即可;即可;如,输入如,输入stud?stud?表示截表示截3 3个字母,可检出带有个字母,可检出带有studystudy、 studiestudies s、studstudinging等的文献。等的文献。 中间截断:中间截断:又称前后方一致,允许检索词中间有若干变化。又称前后方一致,允许检索词中间有若干变化。如,如, wom?n wom?n 可以检索出:可以检索出: womwoma an, womn, wome en n

44、 4.3 4.3 位置运算检索位置运算检索位置算符:位置算符:表示其连接的两个检索词之间的位置关表示其连接的两个检索词之间的位置关系系 ,不同的系统有不同的位置算符,以,不同的系统有不同的位置算符,以DIALOGDIALOG系统系统为例:为例:n(W)(W)与与(nW)(nW)算符算符withwith的缩写。表示其连接的两个的缩写。表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。空格或标点、符号。 如:如:high(W)classn(N)(N)与与(nN)(nN)算符算符nearnear的缩写。表示其连接的两个的缩写。表

45、示其连接的两个检索词的顺序可以互易,但两词间不允许插词。检索词的顺序可以互易,但两词间不允许插词。(nN)(nN)中的中的n n表示允许插词量少于或等于表示允许插词量少于或等于n n个。个。 如:如:internet(N)accessing 命中记录中匹配词可能有命中记录中匹配词可能有:internet accessing, accessing internet。532022-6-6n(S)(S)算符算符Subfield的缩写。表示其连接的两个检索词必须出现在同一子字段中。子字段是指字段中的一部分,如一句句子,一个词组、短语。字段不限,词序不限。 如:silicon(S)sensor 命中记录

46、出现的匹配情况如: A vacuum magnetic sensor(VMS) using a silicon field emitter tip was fabricated and demonstrated.n(F)(F)算符算符Field 的缩写。表示其连接的两个检索词必须出现在同一字段中,字段不限,词序不限。542022-6-6 4.4 4.4 字段限制字段限制针对特定年代、特定类别、特定检索点等针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符作限制,包括前缀限制符和后缀限制符后缀限制符例如:后缀限制符例如:/TI 限在题目中查限在题目中查/AB 限在文摘中查限在

47、文摘中查/DE 限在叙词标引中查限在叙词标引中查前缀限制符例如:前缀限制符例如:AU= 限查特定作者限查特定作者JN= 限查特定刊名限查特定刊名 LA= 限查特定语种限查特定语种PN= 限查特定专利号限查特定专利号PY= 限查特定年代限查特定年代552022-6-65 5 信息检索的方法信息检索的方法n检索方法是指查寻文献信息的具体方法。检索方法是指查寻文献信息的具体方法。选择科学有效的检索方法,对广、快、精、选择科学有效的检索方法,对广、快、精、准地获取文献信息,提高检索效率,是非准地获取文献信息,提高检索效率,是非常重要的。文献的检索方法主要有以下几常重要的。文献的检索方法主要有以下几种类

48、型。种类型。562022-6-65.15.1直查法直查法是指直接从有关的一次文献中获取所需信息的检是指直接从有关的一次文献中获取所需信息的检 索方法。索方法。利用直查法虽然可以较快地获取最新文献,能切利用直查法虽然可以较快地获取最新文献,能切 实地掌握文献内容和实质,但面对大量的、无序实地掌握文献内容和实质,但面对大量的、无序的文献,存在着很大的盲目性、分散性、偶然性,的文献,存在着很大的盲目性、分散性、偶然性,很难查全,费工费时。很难查全,费工费时。许多文献用户都有利用直查法的经历,在长期实许多文献用户都有利用直查法的经历,在长期实践中也摸索出一定的经验。践中也摸索出一定的经验。 57202

49、2-6-65.25.2追溯法追溯法是指利用是指利用引文关系引文关系获取所需文献信息的检索方法。获取所需文献信息的检索方法。被引用的参考文献被引用的参考文献多出自知名作者的论文、专著,所以通多出自知名作者的论文、专著,所以通过过追溯法追溯法检索到的文献大都具检索到的文献大都具有较高的学术价值有较高的学术价值。但是被。但是被引用的文献在全部发表的文献中只占少数,有些引文与作引用的文献在全部发表的文献中只占少数,有些引文与作者所写著作的主题关系也不大,所以追溯法会者所写著作的主题关系也不大,所以追溯法会漏检和误检漏检和误检。追溯法有两种情况追溯法有两种情况(1)由新及旧的追溯法)由新及旧的追溯法。当

50、查到一篇适用文献后,根据其当查到一篇适用文献后,根据其后面所附的引文、注释等,向前追溯出一个专题的文献,后面所附的引文、注释等,向前追溯出一个专题的文献,再再根据检出文献提供的线索根据检出文献提供的线索(参考文献参考文献),继续追溯,继续追溯。如此。如此一环扣一环地扩检,有可能找到一系列对口文献。这是一一环扣一环地扩检,有可能找到一系列对口文献。这是一种人们常用的方法,比较方便,但种人们常用的方法,比较方便,但文献信息越检越旧。文献信息越检越旧。(2)由旧及新的追溯法。)由旧及新的追溯法。一篇有价值的论文被谁引用过一篇有价值的论文被谁引用过?评论如何?有否发展?有否更新?评论如何?有否发展?有

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第2章-计算机信息检索技术共96页文档课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|