ImageVerifierCode 换一换
格式:PPT , 页数:53 ,大小:414KB ,
文档编号:3146734      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3146734.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(《现代科技信息检索》第二章课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

《现代科技信息检索》第二章课件.ppt

1、总总 目目 录(一)录(一)v 第一章第一章 概述概述v 第二章第二章 信息检索原理与检索技术信息检索原理与检索技术v 第三章第三章 网络信息资源检索网络信息资源检索v 第四章第四章 常用综合信息检索系统选介常用综合信息检索系统选介(一一)v 第五章第五章 常用综合信息检索系统选介(二)常用综合信息检索系统选介(二)2009.11总总 目目 录(二)录(二)v 第六章第六章 专利基本知识与专利基本知识与 专利信息检索专利信息检索v 第七章第七章 特种文献网络信息检索特种文献网络信息检索v 第八章第八章 数据与事实信息检索数据与事实信息检索v 第九章第九章 数字图书馆数字图书馆v 第十章第十章

2、信息资源的分析与利用信息资源的分析与利用2009.11v第二章第二章 信息检索原理与检索技术信息检索原理与检索技术2009.11内容提要(一)内容提要(一)v 2.1 信息检索信息检索 2.1.1 信息检索的定义 2.1.2 信息检索的类型 2.1.3 信息检索基本原理 v 2.2 信息检索系统信息检索系统 2.2.1 信息检索系统的特征及职能 2.2.2 信息检索系统的类型 2.2.3 数据库的类型和结构 2009.11内容提要(二)内容提要(二)v 2.3 信息检索语言信息检索语言 2.3.1信息检索语言的概念 2.3.2 信息检索语言的分类 2.3.3 分类语言 2.3.4 主题语言v

3、2.4 信息检索技术信息检索技术 2.4.1布尔检索 2.4.2 截词检索 2.4.3 限制检索 2.4.4 位置检索 v 2.5 信息检索策略与程序信息检索策略与程序 2.5.1 信息检索方法和途径 2.5.2 信息检索策略 2.5.3 信息检索的一般程序 2009.112.1 信息检索信息检索v 2.1.1 信息检索的定义信息检索的定义 信息检索,在广义上是指将信息按一定的方式组织、存储起来,并针对用户的需要查找所需信息的过程,包含了信息的存储和检索两个不可分的部分。v 2.1.2 信息检索的类型信息检索的类型 根据其检索对象的不同,可分为文献信息检索、数据信息检索、事实信息检索。其中文献

4、信息检索是最基本最主要的方式。2009.112.1 信息检索信息检索v 1.文献信息检索 文献信息检索通常是以获得各种类型文献信息为目的的检索,包括文献信息线索检索和文献信息全文检索。v 2.数据信息检索 数据信息检索是指检索系统中存储的是数值型数据,如科学技术常数、各种统计数据、人口数据、气象数据、市场行情数据、企业财政数据等。v 3.事实信息检索 事实信息检索是指系统存储的是从原始文献中抽取的关于某一事物(事件、事实)发生的时间、地点和过程等方面的信息。2009.112.1 信息检索信息检索v 2.1.3 信息检索基本原理信息检索基本原理 从信息检索的概念可以看出信息检索的全过程应该包含“

5、信息存储”与“信息检索”两个部分,存储与检索的过程可用图2-1表示。原始信息主题概念信息检索语言检索提问主题概念检索标识数据库信息需求命中文献标引组配图2-1 信息存储与检索过程 2009.112.1 信息检索信息检索v 从图2-1可以看出,检索过程是存储过程的逆过程,即检索的过程和存储的过程方向相反,但是思路一致。没有存储也就无从检索,检索是针对已存储到系统中的信息进行的。v 从以上的论述中我们总结信息检索的基本原理,可以概括为一句话:信息按照一定的方式存储,并在存储的逆过程中对信息进行选择与匹配。2009.112.2 信息检索系统信息检索系统 v 2.2.1信息检索系统的特征及职能信息检索

6、系统的特征及职能 1.信息检索系统的特征信息检索系统的特征 信息检索系统中的记录详细描述了信息的外部特征和内容特征。外部特征是指文献篇名、著者姓名、文献出处等。内容特征是指文献的主题词、分类号、内容摘要等。每条记录都具有各种检索标识(描述内外特征的专用于信息检索的词、词组或代码),例如主题词、分类号、著者姓名、文献序号等。全部记录科学地组织成一个有机的整体。能够提供多种检索途径。例如分类途径、主题途径、著者途径、号码途径等。2009.112.2 信息检索系统信息检索系统2.信息检索系统的职能信息检索系统的职能 报道职能。揭示某一时期、某一范围的科技文献信息的发展状况。通过检索系统对科技文献信息

7、的报道,了解学科的历史、现有水平和未来发展趋势。存储职能。把有关文献的学科内容特征和外部特征著录下来,按一定的次序排列组织起来,以便于查找各类科技文献信息。检索职能。提供一定的检索手段,使人们按照一定的检索方法,及时、准确、全面地查找出所需文献信息。2009.112.2 信息检索系统信息检索系统v 2.2.2信息检索系统的类型信息检索系统的类型 1.按照信息存储和检索的设备划分按照信息存储和检索的设备划分 手工检索系统:主要指各种印刷型检索工具和目录卡片。计算机检索系统:按照信息访问模式划分,可以分为联机检索系统、光盘检索系统和网络信息检索系统。2009.112.2 信息检索系统信息检索系统v

8、 联机检索(online retrieval),是指用户利用计算机检索终端设备,通过拨号、专线或计算机互联网络,从联机服务中心(国际或国内)的数据库中检索出自己需要的信息的过程。v 光盘检索是指利用计算机设备对只读式光盘数据库(CD-ROM)进行检索。v 网络信息检索系统是指通过人工或自动索引程序广泛收集网络信息资源数据,并经一系列加工处理后,以Web页面的形式向用户提供有关的资源导航、目录索引以及检索界面的一类检索系统。2009.112.2 信息检索系统信息检索系统2.按照收录文献的范围划分按照收录文献的范围划分 综合性检索系统:收录范围广泛,涉及多门学科。例如中国期刊全文数据库、重庆维普数

9、据库、万方数据库以及SCI、EI、ScienceDirect数据库等等。专业性检索系统:收录范围只限于某一学科领域,但报道的文献类型是多样的。例如化学文摘、数学评论、应用力学评论、金属文摘等。单一性检索系统:只收录某一种类型的文献,但学科范围可宽可窄。包含各种特种信息的数据库即属此类,例如国家知识产权局专利检索系统、中国重要会议论文全文数据库、中国博硕士论文全文数据库等。2009.112.2 信息检索系统信息检索系统3.按照揭示文献的方式划分按照揭示文献的方式划分目录:是对一批图书、期刊等单独出版的文献进行系统化的著录,并按照一定的规则编排而成的检索工具,例如全国总书目、全国新书目等。索引:是

10、将文献中某些重要的、具有检索意义的内容特征标识或外部特征标识,按某种顺序排列并注明文献条目线索的检索工具。索引可分为两类:篇目索引和内容索引。文摘:将文献内容进行压缩,以简练和概括的文字予以揭示文献的检索工具。例如科学文摘、化学文摘等。全文:此种类型检索系统的数据库中的记录内容实际上是“文摘+文献全文”,这样的检索系统可以直接获取所需的全文信息。例如:中国期刊全文数据库。2009.112.2 信息检索系统信息检索系统v 2.2.3数据库的类型和结构数据库的类型和结构 1.数据库的类型数据库的类型 根据所提供的信息内容,数据库可分为参考数据库和源数据库:参考数据库 存储的主要是一些描述性信息内容

11、,指引用户到另一信息源以获得完整的原始信息的一类数据库,主要包括书目数据库和事实型数据库。源数据库 存储的主要是全文、数值、结构式等信息,能直接提供原始信息,不必再转查其它信息源的数据库,主要包括全文数据库和数值数据库。2009.112.2 信息检索系统信息检索系统2.数据库的结构数据库的结构 由于文献数据库大多是书目型的数据库,本书就以书目型数据库为例,具体介绍数据库的结构。书目数据库是一个包含反映文献信息内容特征和外表特征的著录款目的集合,主要由记录和字段构成。2009.112009.112.3.1 信息检索语言的概念信息检索语言的概念v检索语言是根据检索的需要而编制的人工语言,是信息检索

12、系统存储和检索信息时共同使用的一种约定性语 言,以达到信息存储标识和检索的一致性,使标引人员和检索用户利用检索语言通过检索系统实现交流的语言。v检索语言依据文献内外部特征对其进行标识,文献的标识成为其在检索系统中的“存取点”。v信息检索语言主要特点是:有必要的语义和语法规则;表达概念的同一性;具有将检索标识和检索提问进行比较和识别的方便性。2009.112009.112.3.2 信息检索语言的分类信息检索语言的分类v各种信息检索语言的功能基本上是一致的,但它们在表达各种学科、主题概念及其相互关系时所采用的方式不同,各种检索语言具体的特点、功能、优缺点也不尽相同。v按表述文献有关特征划分可分为:

13、表述文献外部特征的检索语言、表述文献内容特征的检索语言。v按标识组配方式划分:先组式检索语言、后组式检索语言。v按检索语言的结构划分:分类检索语言、主题词检索语言。2009.112009.112.3.2 信息检索语言的分类信息检索语言的分类信息检索语言表述文献外部特征表述文献内容特征著者语言号码语言分类语言主题语言体系分类语言组配分类语言混合分类语言单元词语言标题词语言关键词语言检索语言分类图:题名语言叙词语言2009.112009.112.3.3 分类语言分类语言 v分类语言是一种把知识信息按学科门类组织起来的一种检索语言,其中最常用的就是等级体系分类语言,其基本原理是从学科分类角度,将知识

14、门类按一定逻辑排定次序,再将知识门类概念从总到分进行层层划分,从而形成不同级别且具有隶属关系的知识门类等级体系的类目,类目以符号做标记,每个符号表达特定的知识门类。v体系分类语言 的编排结构。以中国图书馆图书分类法为例,中图法由类目表、辅助表、索引构成。类目表由22个基本大类、简表、详表构成。辅助表分通用复分表和专类复分表。通用复分表适用于整个详表。专类复分表适用于某个学科类目。索引是中图法(第四版)的配套工具书,收录了中图法类目和注释中出现的全部有检索意义的概念,并且对同一类目制作多条索引款目,共约12万余条,同时使分类表具有一定的主题检索功能。2009.112009.112.3.3 分类语

15、言分类语言A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术 U交通运输V航空、航天X环境科学、安全科学Z综合性图书TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电 信技术TP自动化技术、计算 机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程TP1自动化基本 理论T

16、P2自动化技术 及设备TP3计算技术、计算机技术TP6射流技术 (流控技术)TP7遥感技术TP8远动技术TP30一般问题TP31计算机软件TP32一般计算器和计算机TP33电子数字计算机TP34电子模拟计算机TP35混合电子计算机TP36微型计算机TP37多媒体技术与多媒体计算机TP38其它计算机TP39计算机应用2009.112009.112.3.3 分类语言分类语言v分类语言的优缺点分类语言的优缺点 优点:体系分类法以学科分类为基础,符合认识事物的规律与处理事务的习惯,容易 被熟悉和掌握。体系分类法以学科专业集中文献,系统地揭示知识内容,便于查全某学科专业 的文献,具有较高的查全率,族性检

17、索的效果好。体系分类法采用国际通用的阿拉伯数字和拉丁字母作为分类符号,通用性强。体系分类法将主题概念逐级划分,便于缩小或者扩大检索范围。体系分类法既能组织检索工具和检索系统,又能组织图书文献的分类排架。缺点:体系分类法是一种先组式检索语言,不能随时修改和补充,因而新兴学科产生 的类目不能及时体现,较难标引和检索新兴学科的文献信息。体系分类法能较好地反映学科之间直线序列的纵向关系,而不易反映学科与学 科间相互交叉渗透的横向关系,对于标引和检索主题概念复杂的交叉学科文献 不够确。体系分类法使用时必须熟悉了解学科分类体系,否则不能准确标引和检索,且 标引和检索时必须遵从从大类到小类、从上位类到下位类

18、的过程,标引和检索 的效率较低。体系分类法本身的系统性、聚类性有利于族性检索,不利于特性检索。2009.112009.112.3.4 主题语言主题语言 v主题语言是表述文献内部特征的检索语言,它是用表达事物或概念的名词标引、检索文献信息资源的一种检索语言。根据词表的编制方法、使用规则、主题词的规范化处理的不同,主题词语言分为标题词言、单元词语言、叙词语言和关键词语言。v叙词语言叙词语言 叙词语言是以自然语言词汇为基础,把表示单元概念的规范化词汇进行组配为基本使用原则,以能表达信息资源主题的最小概念单元标引、存储、检索信息资源的一种检索语言。叙词语言吸收了多种检索语言的优点,具有直观性、专指性、

19、组配性、语义相关性、多维检索性等特点,适合手工检索和计算机检索,有很强的适应性和使用价值。叙词的概念组配有概念相交、概念并列、概念限定和概念删除四种。2009.112009.112.3.4 主题语言主题语言叙词的组配原则:词表中有能够表达主题概念的叙词时不使 用组配标引。必须使用概念组配,相组配的几个叙词之 间应具有概念交叉关系或概念限定关系。必须选用与文献主题最密切、最邻近、最 专指的叙词进行组配。在没有合适的专指 词时,才允许使用其上位词组配,在没有 合适的上位概念时,可以选择近义词组配。优先选用具有概念交叉关系的叙词组配,当无概念交叉关系的叙词时,可选用具有 概念限定关系的叙词组配。叙词

20、语义参照表参照关系参照项符号简称英文简称及全称等同关系用项Y用USE-Use代项D代UF-Used for属分关系分项F分NT-Narrow term属项S属BT-Broad term族项Z族TT-Top term相关关系参项C参RT-Related term2009.112009.112.3.4 主题语言主题语言Y(用):标引和检索时使用的正式叙词。D(代):意为替代,指出被叙词所替代的非规范词,不能作叙词检索。F(分):是正式叙词的狭意词,是叙词的下位词,紧缩检索概念,该下位词也是叙 词,可用于检索。S(属):意为广义词,指出本叙词的上位词,扩宽检索概念,该上位词也是叙词。Z(族):意为族

21、首词,指出本叙词的最高上位词,它也是叙词。C(参):意为相关词,指出与本叙词概念相关的其它叙词。汉语主题词表:汉语主题词表是我国第一部全面反映自然科学和社会科学领域名词术语的大型综合性汉语叙词表。该词表分自然科学和社会科学两大系统编制,由主表、索引和附表组成,共分三卷十个分册。汉语主题词表主表将主题词按字顺排列,每一主题款目包括汉语拼音、款目主题词、范畴分类号、以参照符号表示与款目主题词语义关系的关系词。索引包括词族索引、范畴索引、英汉对照索引、轮排索引。附表包括世界各国政区名称表、自然地理区划分表、组织机构名称表、人物名称表和英汉对照表。2009.112009.112.3.4 主题语言主题语

22、言v关键词语言关键词语言 关键词指出现在文献题名或是文摘、正文中,对表达文献内容特征具有实际意义、能够作为检索入口的语词。关键词语言就是将文献题名或是正文、文摘中能描述文献主题概念的具有检索意义的词汇抽出,并将抽出词汇按字顺轮排成索引的检索语言。关键词索引的编制过程:将文献题名输入编目系统。编目系统抽取关键词,剔出禁用词表中的词。将抽取出的关键词进行轮排,形成多个款目并在款目中保留关键词的上下文。将款目进行排序最后形成关键词索引。2009.112009.112.3.4 主题语言主题语言关键词语言作为一种自然语言,具有以下特点:关键词语言不受限制,可随时输入新词,能容纳新学科、新类目,能跟踪学科

23、 最新发展。关键词抽取于文献标题、文摘和正文,表达文献主题客观、准确,避免了标引 人员对文献主题的误读和受控语言表达概念的偏差。关键词语言专指度高,可以使用在标题、文摘、索引、正文中出现的任何一个 具有实际意义、反映文献内容的词进行检索,检准率高。关键词检索符合检索者语言习惯和使用习惯,无需更多的专业知识,使用简 便。关键词语言标引文献简便、易行,建立索引速度快,甚至在有些数据库和搜索 系统中不进行标引。2009.112009.112.3.4 主题语言主题语言单纯关键词索引:单纯关键词索引纯粹由若干关键词组成的索引。其索引款目一般从题名、文摘或正文中抽出1到5个关键词,将每一个关键词依次轮流移

24、至款目的左端作为标目,将其余关键词用作说明语,最左端的标目即为检索入口,最右端为文献编号或文献地址,依编号或地址即可找到文献。如以电力电子系统计算机仿真和辅助分析为例,在单纯关键词索引中,抽取的两个关键词进行轮排形成以下两个款目:电子电力电子电力 计算机仿真和辅助计算机仿真和辅助 000001 计算机仿真和辅助计算机仿真和辅助 电子电力电子电力 000001 检索者可以根据两个关键词中的任何一个检索到文献编号为000001的文献。题内关键词索引:题内关键词索引的标目在款目的中部,左右均为该标目的上下文,索引款目按位于款目中部作为标目的关键词的字顺排列。格式如下:上文上文 关键词关键词 下文下文

25、 文献编号(文献地址)文献编号(文献地址)计算机仿真和辅助分析计算机仿真和辅助分析 /电力电子电力电子 系统系统 000001/电子电力系统电子电力系统 计算机仿真和辅助计算机仿真和辅助 分析分析 0000012009.112009.112.3.4 主题语言主题语言 题内关键词索引在使用时先查到款目中部的关键词,再从“/”往右读起,读完“/”右侧部分再读“/”左侧部分,最终检索到切题文献。题外关键词索引:与题内关键词索引相比,其标目的位置不在款目的中部而是在款目的左端,标目之后仍保留完整的文献题名,有时文献题名包含的关键词会用符号代替,易读性强且能明确表达文献主题概念。其款目格式一般为:关键词

26、关键词 文献题名文献题名 文献编号文献编号电力电子 电力电子系统计算机仿真和辅助分析 000001计算机仿真和辅助 电力电子系统计算机仿真和辅助分析 000001v其他检索语言其他检索语言 在检索语言中除了上面介绍的分类法中的等级体系分类法外还有分面分类法,主题语言中还有标题词语言,单元词语言,另外还有代码语言等分类语言。2009.112.4 信息检索技术信息检索技术 信息检索技术主要包括文本信息检索技术和非文本信息检索技术(图像检索、音频检索、视频检索等),由于目前非文本检索技术尚不成熟,在实践中少有应用,因此本节将主要讨论文本信息检索技术。2009.112.4 信息检索技术信息检索技术v

27、2.4.1布尔检索布尔检索 布尔检索是最基本、最常用的一种检索技术,是指通过布尔逻辑运算符将检索词组配起来而形成检索式,进而在系统中进行匹配处理以获得查询结果的检索方法。这里布尔逻辑运算符是构造检索式的一组连接组配符号,主要包括逻辑与、逻辑或和逻辑非三种。2009.112.4 信息检索技术信息检索技术1.逻辑与:逻辑与:一般用符号“AND”或“*”表示。若有两个检索词A和B,用“逻辑与”组配,则可以表示成:A AND B 或 A*B 在上式中,用“逻辑与”表示的含义为:数据库中同时含有检索词A和检索词B的记录被检出。其含义可直观的用文氏图(见图2-2)来表示:图2-2 逻辑与 2009.112

28、.4 信息检索技术信息检索技术2.逻辑或逻辑或 一般用符号“OR”或“+”表示。若有两个检索词A和B,用“逻辑或”组配,则可以表示成:A OR B 或 A+B 在上式中,用“逻辑或”表示的含义为:数据库中含有检索词A或含有检索词B或两者都含有的记录被检出。其含义如图2-3所示:图2-3 逻辑或 2009.112.4 信息检索技术信息检索技术3.逻辑非逻辑非 一般用符号“NOT”(有的检索系统用“ANDNOT”)或减号“-”表示。若有两个检索词A和B,用“逻辑非”组配,则可以表示成:A NOT B(A ANDNOT B)或 A-B 在上式中,用“逻辑非”表示的含义为:数据库中凡含有检索词A而不含

29、有检索词B的记录被检出。其含义如图2-4所示:图2-4 逻辑非 2009.112.4 信息检索技术信息检索技术v 2.4.2 截词检索截词检索 截词检索是指在检索中使用专门的符号(称之为截词符)将检索词在合适的地方截断,然后使用被截断的字符串在系统中进行匹配处理以获得查询结果的检索方法。截词技术有多种不同的方式,可以有前截断、中截断和后截断,其中后截断还可分为有限截断和无限截断。2009.112.4 信息检索技术信息检索技术1.后截断后截断 后截断是最常用的截断方式,是指将截词符置于一个字符串右侧形成检索表达式进行检索,从检索匹配性质上,属于满足“前方一致”的检索。后截断可分为有限后截断和无限

30、后截断。2009.112.4 信息检索技术信息检索技术v 有限后截断有限后截断 主要用于词的单、复数,年代和词尾变化等。如构造检索式book?,则表示至多截一个字符,可检索出book、books;work?表示至多截三个字符,可检索出work、works、worker、workers、working等;用19?表示20世纪,等等。v 无限后截断无限后截断 主要用于同根词、作者等的检索。如构造检索式comput*,则可检索出compute、computed、computer、computers、computing、computable、computations、computerize、compu

31、terization等同根词汇;Smith*可检索出所有姓Smith的作者或人物。2009.112.4 信息检索技术信息检索技术2.中间截断中间截断 又称“屏蔽词”或“内嵌字符截断”,是把截词符置于一个检索词的中间进行检索,主要用于英、美拼写不同形式的词以及单、复数拼写不同的词。一般地,中间截断只允许检索词的有限截断。例如用analy?er可检索出analyzer和analyser;用defen?e可检索出defense和defence等等。2009.112.4 信息检索技术信息检索技术v 2.4.3 限制检索限制检索 1.字段限制检索字段限制检索 字段检索就是限制检索词出现在记录的不同字段位

32、置,使用这种检索技术可以缩小检索的范围,提高检索的准确率。字段的限制主要有两种方式:菜单选择方式 字段代码方式 2009.112.4 信息检索技术信息检索技术2.二次检索二次检索(在结果中检索)(在结果中检索)“二次检索”,又称在结果中检索,是目前各检索系统(包括搜索引擎)普遍提供的在检索结果中进行再次检索(Refine Search)的一种限制检索方式。二次检索是在初次检索已经获得的检索结果的基础上进行的检索,这些初次检索结果中可能已经包括有相当一部分命中纪录,但有时为了缩小检索结果,用户可以将新一轮检索操作限制在已检出的结果之内进行。使用二次检索可以使检索结果更加准确,专指度更高。2009

33、.112.4 信息检索技术信息检索技术v 2.4.4 位置检索位置检索 位置检索是针对自然语言文本中检索词之间特定位置关系而进行的检索匹配技术。允许用户使用自然语言作为检索入口,并可深入到原文的全文范围内进行信息的查找与匹配,因此,这种检索技术可以显著提高文本信息的检索精度。目前,各类信息检索系统提供的位置检索方法有多种,主要分为邻位检索、同句检索、同字段检索以及同纪录检索等。2009.112.4 信息检索技术信息检索技术1.邻位检索邻位检索 邻位检索是指利用专门的位置运算符规定在其两侧的检索词在检索结果出现时应满足的相对位置要求。经常使用的位置运算符主要有以下两种(以DIALOG系统为例):

34、(W)与(nW)算符W:是with的缩写,(W)算符表示其两侧的检索词必须按前后顺序出现在记录中,两词之间不允许插入其他词,只可能有空格、一个标点符号或一个连接号。(nW)表示两侧的检索词中间允许插入最多n个词,且检索词的位置不能颠倒。通常,n可以在一定范围内取值,如110。(N)与(nN)算符N:是near的缩写,(N)算符表示其两侧的检索词位置可以互换,在两词之间不能插入其他词,但允许有空格、一个标点符号或一个连接号。(nN)表示允许在此算符两侧的检索词之间最多插入n个词,且两个检索词的位置可颠倒。同样地,n可以取值110。2009.112.4 信息检索技术信息检索技术2.同句检索同句检索

35、 所谓同句检索,是指检索式中同句检索运算符两侧所包含的检索词必须在同一自然句中出现,其先后顺序可以不受限制。以DIALOG系统为例,其同句检索运算符为(S),“S”为“sentence”的首字母。如有如下检索式:技术(S)经济(S)法律 该检索式中包含有三个检索词:技术、经济和法律,其含义为检索在同一个自然句中含有这三个检索词的结果,而不论这三个词在该句中出现的顺序如何。2009.112.4 信息检索技术信息检索技术3.同字段检索同字段检索 所谓同字段检索,是指检索式中同字段检索运算符两侧所包含的检索词必须在数据库记录的同一个字段中出现,其先后顺序可以不受限制。以DIALOG系统为例,其同字段

36、检索运算符为(F),“F”为“field”的首字母。4.同纪录检索同纪录检索 所谓同记录检索,是指检索式中同记录检索运算符两侧所包含的检索词必须出现在数据库的同一条记录中。以DIALOG系统为例,其同记录检索运算符为(C),“C”为“citation”的首字母。2009.112.5 信息检索策略与程序信息检索策略与程序 v 2.5.1 信息检索方法和途径信息检索方法和途径 1.信息检索方法信息检索方法 所谓检索方法,就是根据现有的条件,能够省时、省力获取最佳检索效果而采取的方法。信息检索的方法有很多种,针对检索目的和检索要求的不同,主要分为以下三类:追溯法追溯法:可分为向前追溯法和向后追溯法。

37、工具法工具法:就是利用目录、索引、文摘等检索工具或计算机化的检索系统查找信息的方法,是最常用的一种方法,它有顺查、倒查和抽查三种方式。综合法:综合法:是一种综合追溯法和工具法的方法,两种方法循环交替使用。2009.112.5 信息检索策略与程序信息检索策略与程序 2.信息检索途径信息检索途径 内容途径内容途径 著者途径著者途径 号码途径号码途径 题名途径题名途径2009.112.5 信息检索策略与程序信息检索策略与程序 v 2.5.2信息检索策略信息检索策略1.信息检索策略制定信息检索策略制定 计算机检索策略有很多,其中美国学者鲍纳提出的联机检索策略影响较广,共有以下5种:积木型策略 引文珠型

38、增长策略 逐次分馏策略 最专指面优先策略 最低登录量面优先策略 2009.112.5 信息检索策略与程序信息检索策略与程序 v 2.检索式的构造检索式的构造 所谓检索式是指由检索词和各种布尔逻辑运算符、截词符、位置算符以及系统规定的其它符号组配连接而成的在计算机信息检索中用来表达用户检索提问的逻辑表达式。一般地,构造检索式可分为以下两部分:选择合适的检索词 选择合适的连接符 2009.112.5 信息检索策略与程序信息检索策略与程序 在构造检索式时应注意以下几点:在构造检索式时应注意以下几点:应正确分析课题,选取其核心概念,排除无关概念、合并重复概念。注意检索式不要过繁也不要过简,过繁可能会造

39、成大量漏检或检索结果为零,过简则可能导致大量无关结果的出现。尽量使用通用词汇,少用生僻词。注意缩写和全称,考虑同义词、近义词和上位词、下位词,注意西文的不同拼写形式等。正确使用各种连接符号,注意它们的运算先后顺序,注意括号的使用。2009.112.5 信息检索策略与程序信息检索策略与程序 3.检索式的调整检索式的调整 对于需要提高查全率的检索课题,可以用以下方法来进行检索式的调整:减少用“AND”或“NOT”联结的检索词数量;增加用“OR”联结的相关检索词数量;降低词的专指度,选择上位词、相关词,考虑同义词、近义词补充至检索式中;采用截词检索法;取消某些限制过严的检索条件,例如年代、语种、文献

40、类型等方面的限制。2009.112.5 信息检索策略与程序信息检索策略与程序v 对于需要提高查准率的检索课题,可以用以下方法来进行检索式的调整:增加用“AND”联结的检索词数量;利用“NOT”进行限制;将检索词向下位类收缩,提高专指性;在检出记录中选取新的检索词对结果进行再次限制,即进行“二次检索”;采用字段限制检索,或利用位置算符限制检索词的位置与顺序。2009.112.5 信息检索策略与程序信息检索策略与程序v 2.5.3 信息检索的一般程序信息检索的一般程序 信息检索就是根据课题的要求,利用检索(工具)系统,按照一定的程序(步骤)查找信息的过程。其基本程序如下:1、课题分析 2、选择检索系统(工具)3、确定检索途径 4、选择检索方法 5、查找信息线索 6、索取文献原文 2009.11

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|