1、1知识发现与信息检索知识发现与信息检索 2课程目标面对日益增长的Internet的信息和文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息,并综合成章。这就是本课程所希望解决的问题。3分三部分:1.1.知识发现知识发现2.2.信息检索基本概念信息检索基本概念3.3.信息检索信息检索4第一部分:知识发现第一部分:知识发现5 l知识经济时代,知识、知识创新与知识经济时代,知识、知识创新与知识知识资源利用问题资源利用问题引起社会的高度关注。引起社会的高度关注。l 知识知识成为经济社会发展的首要资源,是成为经济社会发展的首要资源,是衡量国家能力的主要因素。知识作为一衡量国家能力的
2、主要因素。知识作为一种创造财富的战略资源,随着现代信息种创造财富的战略资源,随着现代信息技术和国家信息化进程的迅速发展,以技术和国家信息化进程的迅速发展,以及科技、文化的进步在经济发展竞争中及科技、文化的进步在经济发展竞争中作用日益增强,人们对获取知识的能力作用日益增强,人们对获取知识的能力和和利用知识的水平利用知识的水平得到了空前的提高得到了空前的提高。2022-11-1151知识发现知识发现 6 伟大的科学家牛顿说过:伟大的科学家牛顿说过:“假如说我比别人看的假如说我比别人看的略微远些,那是因为我略微远些,那是因为我站在巨人的肩膀上。站在巨人的肩膀上。”2022-11-1161知识发现知识
3、发现 7塞缪尔塞缪尔约翰逊(约翰逊(Samuel JohnsonSamuel Johnson)说:知说:知识分成两类:识分成两类:一类是我们要掌握的学科知识;一类是我们要掌握的学科知识;另一类是要知道在哪儿可以找到有关知另一类是要知道在哪儿可以找到有关知识的信息。识的信息。Knowledge is of two kinds.We know a subject ourselves,or we k n o w w h e r e w e c a n f i n d information upon it.1知识发现知识发现8 2022-11-1181知识发现知识发现 9 传统文献信息资源的数量庞大
4、,传统文献信息资源的数量庞大,类型多样,但开发利用是有限的。类型多样,但开发利用是有限的。传统的文献资源共享主要是信息物质载体的共享,即文献的共享。这种共享由于受共享交易成本的限制,只能是在一定时间、空间范围内有限的共享。2022-11-1191知识发现知识发现 10 现代计算机技术、网络技术的发现代计算机技术、网络技术的发展,改变了人们获取、利用和交展,改变了人们获取、利用和交流知识的方式,打破了知识信息流知识的方式,打破了知识信息传递的时空限制,使知识信息的传递的时空限制,使知识信息的交流、获取形式更为生动和直观,交流、获取形式更为生动和直观,为知识信息服务提供了崭新的信为知识信息服务提供
5、了崭新的信息环境,开辟了知识资源无限共息环境,开辟了知识资源无限共享的新天地。享的新天地。2022-11-11101知识发现知识发现 11 网络信息技术加快了知识的传送,拓展了知识领域的广度。网络环境下信息和知识服务已不再局限于一个固定建筑实体形态,其服务边界不断扩大并日益模糊化,知识提供与传播形式呈现多向性、共享性、交互性、实时性等特点,社会知识需求的复杂性日益增加,查询、利用知识信息的手段趋于计算机化、网络化。2022-11-11111知识发现知识发现 12 知识的获得、组织与传播,通过异地共享和远程传播越来越显示出无比的优势。基于计算机网络的快速、虚拟知识空间,可构建一个具有扩展和辐射能
6、力的开放化、立体化的知识资源共享保障服务系统。在这种现代技术网络环境之中,可最大限度地满足人们对知识信息的无时空障碍的知识需求,实现知识资源共享所应达到的一种高级境界。2022-11-11121知识发现知识发现 13 为了使人们进入网络环境下为了使人们进入网络环境下知识资源高度共享的境界,多年知识资源高度共享的境界,多年来国内外专家、学者和企业在知来国内外专家、学者和企业在知识资源共享方式的设计和服务技识资源共享方式的设计和服务技术的实现上不断改革创新,陆续术的实现上不断改革创新,陆续推出了不少新的知识产品和服务推出了不少新的知识产品和服务技术与模式:技术与模式:2022-11-11131知识
7、发现知识发现 14 知识挖掘、个性化服务、知识可视化等。“知识服务”理念,成为当今知识资源共享模式设计的核心指导思想。在这种共享模式之下,人们从知识资源中获取的不仅仅是一条条信息,而是一个个针对特定问题的解决方案,即知识。这样的知识资源共享方式,已经成为现代知识服务业所追求实现的高级境界。*2022-11-11141知识发现知识发现 15 基于“知识元”水平上的全文关联的、数据结构标准化的、人与资源可实时以多媒体信息交互的知识服务平台,无论数据库的物理位置何在,无论数据库专业性质和具体结构如何,都可使其在知识信息的内容上跨越数据库界限而浑然成为一体。人们在这个平台上可以用平台的各种个性化服务手
8、段,从所有数据库中任意获取所需要的知识信息,并可在人与人的交流互动过程中得到新的知识。2022-11-11151知识发现知识发现 16第二部分第二部分:信息检索基本概念信息检索基本概念17信息信息知识知识文献2信息检索基本概念信息检索基本概念18 2 21 1 信息信息 定义物质存在的一种方式,一般指数据、消息中所包含的意义。可以使消息中所描述的事件的不定性减少。(*注:中国情报与文献工作词汇基本术语(GB48944-85)有关信息的定义。2信息检索基本概念信息检索基本概念19 信息的概念十分广泛,围绕信息而信息的概念十分广泛,围绕信息而出现的信息资源、信息技术、信息出现的信息资源、信息技术、
9、信息系统、信息产业、信息化社会和社系统、信息产业、信息化社会和社会信息化等相关术语不胜枚举。那会信息化等相关术语不胜枚举。那么,什么是信息,至今仍无确切、么,什么是信息,至今仍无确切、统一的定义,站在不同的角度旧有统一的定义,站在不同的角度旧有不同的理解或解释。不同的理解或解释。2信息检索基本概念信息检索基本概念20 信息既不是物质,也不是能信息既不是物质,也不是能量,而是依附于自然界客观量,而是依附于自然界客观事物而存在,只要有物质存事物而存在,只要有物质存在,就有表征其属性的信息。在,就有表征其属性的信息。2022-11-11202信息检索基本概念信息检索基本概念21信息的概念,实际上就是
10、客观事信息的概念,实际上就是客观事物运动状态、时空特征、能量大物运动状态、时空特征、能量大小、质料系统特征、相互联系方小、质料系统特征、相互联系方式等一切反映事物客观属性的总式等一切反映事物客观属性的总称。从这种意义上看,信息比客称。从这种意义上看,信息比客观事物的属性更具一般性与普遍观事物的属性更具一般性与普遍性性。2022-11-11212信息检索基本概念信息检索基本概念22 信息概念的实质在于它以某种编码信息概念的实质在于它以某种编码形式储存或传输于某种介质之中,如储形式储存或传输于某种介质之中,如储存在书本、纸张上的文字信息,记录在存在书本、纸张上的文字信息,记录在唱片、录音带上的声音
11、信息,印制在画唱片、录音带上的声音信息,印制在画报、照片、录象带上的图像(形)信息,报、照片、录象带上的图像(形)信息,计算机系统种的信息系统各种数字、数计算机系统种的信息系统各种数字、数据信息等。据信息等。2022-11-11222信息检索基本概念信息检索基本概念23 例子:据说上古时期,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,意味着带回了洪水已退的信息。2022-11-11232信息检索基本概念信息检索基本概念24 从自然界角度看,表征物质的属性:地从自然界角度看,表征物质的属性:地球昼夜的变化是一种信息,它反映出地球昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状
12、态;山的球绕太阳自转的运动特性和状态;山的高度是一种信息,它反映出山的空间特高度是一种信息,它反映出山的空间特性;树干的年轮是一种住处它反映了树性;树干的年轮是一种住处它反映了树木成长的时间特性木成长的时间特性树龄等等。树龄等等。2022-11-11242信息检索基本概念信息检索基本概念25 1 1)按信息的加工程度划分)按信息的加工程度划分 l l零次信息资源零次信息资源指尚未被记录下来,只是通过口头携指尚未被记录下来,只是通过口头携带和传播的信息资源。零次信息资源的出现和传递带有极带和传播的信息资源。零次信息资源的出现和传递带有极大的偶然性。其特点是鲜活、生命力旺盛。大的偶然性。其特点是鲜
13、活、生命力旺盛。l l一次信息资源一次信息资源 指经加工或粗略加工的原始信息资源,指经加工或粗略加工的原始信息资源,如正在研究或创造过程中产生的信息,包括会议记录、论如正在研究或创造过程中产生的信息,包括会议记录、论文报告、统计报表、专利等。其特点是比较零散,系统性文报告、统计报表、专利等。其特点是比较零散,系统性不强,半包括所有的主要内容。不强,半包括所有的主要内容。l l二次信息资源二次信息资源指在一次信息资源基础上加工整理而指在一次信息资源基础上加工整理而成的信息资源,如文摘、索引、目录等,它们是引导和使成的信息资源,如文摘、索引、目录等,它们是引导和使用一次信息资源必不可少的工具。用一
14、次信息资源必不可少的工具。l l三次信息资源三次信息资源通过二次信息资源提供的线索,对某通过二次信息资源提供的线索,对某范围内的一次文献进行分析、研究加工而成的信息资源,范围内的一次文献进行分析、研究加工而成的信息资源,亦称三次文献,包括综述、述评、专题情报研究报告、百亦称三次文献,包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、手册、词典等。科全书、年鉴、指南、手册、词典等。2022-11-11252信息检索基本概念信息检索基本概念 262 2)按信息表现形式划分)按信息表现形式划分文字信息文字信息图像信息图像信息数值数据信息数值数据信息语音信息语音信息2022-11-11262信息
15、检索基本概念信息检索基本概念 27 信息交流渠道:信息交流渠道:正式渠道:信息是指由正式组织发布并经由正式组织渠道向外传播,如官方新闻发布会、正式报告、国家统计部门发布统计信息等。非正式渠道:非正式渠道信息指从正式渠道以外获取的信息。2022-11-11272信息检索基本概念信息检索基本概念28 2.2知识知识 是人类的主观世界对客观世界概括是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。关于事实和思想的有组织的陈述。提供某种经过思考的判断和某种实提供某种经过思考的判断和某种实验的结果。验的结果。2022-11-11282
16、信息检索基本概念信息检索基本概念29知识的来源:知识的来源:第一类是直接源于产生信息的客观事第一类是直接源于产生信息的客观事物;物;第二类是通过信息载体或媒介(文献、第二类是通过信息载体或媒介(文献、电视、广播、他人等)的传递、交流电视、广播、他人等)的传递、交流而间接获得。而间接获得。2022-11-11292信息检索基本概念信息检索基本概念30 据经合组织(据经合组织(OCEDOCED)出版的以知识为基础的经济报出版的以知识为基础的经济报告对知识的分类:告对知识的分类:1 1)“知事(知事(Know-whatKnow-what)”,关于事实方面的知识,可关于事实方面的知识,可理解为理解为K
17、now-whenKnow-when、Know-whereKnow-where;即在什么样的时间即在什么样的时间(Know-whenKnow-when)、)、什么样的地点或条件下什么样的地点或条件下(Know-where)Know-where)能解决什么样的问题;能解决什么样的问题;2 2)“知因(知因(Know-whyKnow-why)”,自然原理和规律方面的科学自然原理和规律方面的科学理论,知识生产是在专门研究机构如实验室和大学完成的;理论,知识生产是在专门研究机构如实验室和大学完成的;3 3)“知道怎样做的知识(知道怎样做的知识(Know-howKnow-how)”,做某些事的技做某些事的
18、技艺和能力,称为技术情报和商业秘密,其典型是企业开发艺和能力,称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术;和保存于其内部的技术诀窍或专有技术;4 4)“谁以及是怎样创造知识的(谁以及是怎样创造知识的(Know-whoKnow-who)”侧重创侧重创造思想、方法、手段、过程以及特点等的了解。造思想、方法、手段、过程以及特点等的了解。2022-11-11302信息检索基本概念信息检索基本概念312.32.3文献文献 记录有知识的一切载体。记录有知识的一切载体。权威的定义主要权威的定义主要 1 1)是文献情报术语国际标准(草案)()是文献情报术语国际标准(草案)(IS
19、OISODIS5127DIS5127):“为了把人类知识传播开来和继承下去,人为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存贮在磁盘上。这种附着在各种载体上的记录唱片上,或存贮在磁盘上。这种附着在各种载体上的记录统称为文献。统称为文献。”2 2)国标:各种媒介和形式的信息集合,包括文字、声像)国标:各种媒介和形式的信息集合,包括文字、声像印刷品、电子信息、数据库等。印刷品、电子信息、数据库等
20、。2022-11-11312信息检索基本概念信息检索基本概念32 1 1)按文献出版类型划分)按文献出版类型划分 a a图书图书 b b期刊期刊 c c政府出版物政府出版物 d d科技报告科技报告 e e专利文献专利文献 f f会议文献会议文献 g g学位论文学位论文 h h技术标准和规范技术标准和规范 i i产品样本说明书产品样本说明书 j j技术档案技术档案2022-11-11322信息检索基本概念信息检索基本概念 33 按文献的存储载体分:按文献的存储载体分:印刷型 缩微型 声像型 电子型2022-11-11332信息检索基本概念信息检索基本概念 34文献的构成要素文献的构成要素:A、文
21、献信息是文献的内容B、符号系统是信息的携带者 C、载体是符号赖以依附的“寄主”D、记录方式是将文献的符号进入载体的方法和过程2022-11-11342信息检索基本概念信息检索基本概念 352022-11-11352信息检索基本概念信息检索基本概念 传递运传递运用后用后事事物物运运动动 知知识识新新的的信信息息信信息息产生产生人 脑 有 序人 脑 有 序化化用于实践用于实践文文献献记录在载体记录在载体上上36 知识是有组织的大量的信息,获得知识知识是有组织的大量的信息,获得知识有赖于获得信息有赖于获得信息;信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人
22、类对信息加工处理后的产物。2022-11-11362信息检索基本概念信息检索基本概念 37第三部分:信息检索第三部分:信息检索383.13.1概述概述 3.1.13.1.1信息检索概念信息检索概念 信息检索信息检索InformationRetrieval/Access:是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。从原理上看,它包括存储与检索检索两方面。*2022-11-11383信息检索信息检索 39 文献检索原理是:将检索提问标识与存贮在检索工具中文献检索原理是:将检索提问标识与存贮在检索工具中的标引标识相比较,两者一致或信息标识包含着检索提的标引标识相比较,两者
23、一致或信息标识包含着检索提问标识,则含有该标识的信息就从检索工具中输出;问标识,则含有该标识的信息就从检索工具中输出;对信息的著录是按一定规则对信息的外表特征和内容特对信息的著录是按一定规则对信息的外表特征和内容特征加以简单明确的表述,信息的标引是对其内容按一定征加以简单明确的表述,信息的标引是对其内容按一定的分类表或主题词表给出分类号或主题词;的分类表或主题词表给出分类号或主题词;检索过程则是按同样的主题词表或分类表及组配原则分检索过程则是按同样的主题词表或分类表及组配原则分析课题,形成检索提问标识,根据检索工具所提供的检析课题,形成检索提问标识,根据检索工具所提供的检索途径,从信息集合中查
24、找与检索提问标识相符的信息索途径,从信息集合中查找与检索提问标识相符的信息特征标识的过程。(如下图)特征标识的过程。(如下图)2022-11-11393信息检索信息检索40 3信息检索信息检索信信息息源源信息信息的选的选择与择与收集收集信息信息特征特征标标识识语语言言检索工具检索工具匹配匹配检索式检索式提问提问检检索索结结果果数据库数据库用用户户信信息息需需求求检索检索提问提问检索提问式41What?Where?How?42 检索是信息组织的反变换过程。信息组织的目的是将零散的信息组成一个有序的体系,检索的目的则是迅速从这个体系中搜寻所需的信息。3信息检索信息检索43 信息检索分类信息检索分类
25、 1)按存储和检索的内容划分为:文献信息检索文献信息检索数据信息检索数据信息检索事实数据检索事实数据检索 ReferencebookDatabase:NumericDatabase(数字)数字)PropertyDatabase(特性)特性)Textual-numericDatabase(文本数字)文本数字)Full-textDatabase(全文)全文)TerminologicalDatabase(专业)专业)GraphicDatabase(图形)图形).*2022-11-11433信息检索信息检索44 对应于信息检索方法的操作主体对应于信息检索方法的操作主体,检索方法可分为:手工检索;机器检
26、索。3信息检索信息检索45 信息检索特征:信息检索特征:1)有确定的目标;2)有一个可能的信息解的集合;3)有一定的线索(即启发信息);4)搜索过程是针对一定的目标、遵循一定的线索,不断缩小搜索范围的求解过程。2022-11-11453信息检索信息检索46 从信息资源管理的角度讲,信息检索是从已存储的信息资源中检索出与用户提问相关的文献、知识、事实、数据的逻辑运算和技术操作过程的总和,以文献检索为本源。2022-11-11463信息检索信息检索47 也就是说,这是一种从大量集合的文献中查找出主题及其属性符合用户要求的情报过程。查找的对象不一定就是文献,有时也可能是正在研究中的项目,或正在进行某
27、项工作的人员与机构,或图书馆的藏书目录等,但基本原理是一致的。48 信息检索能力(信息技能):信息检索能力(信息技能):寻求有关新知识的能力 具体表现为以下6种技能:2022-11-11483信息检索信息检索49 1)明确任务(Task Definition):了解问题的症结,确定所需信息和目的,分清任务的轻重缓急;2)信息查询策略(Information Seeking Strategies):了解各种信息源,能够作出评价并确定优先查找的次序;2022-11-11493信息检索信息检索50 3)查找和检索(Location and Access):确定信息藏址,从信息源中找出信息;4)信息利
28、用(Use of Information):能够读懂(或听懂、理解)查出的信息,了解信息在满足需求中的特定价值;2022-11-11503信息检索信息检索51 5)信息综合(Synthesis):能够组织信息,提供信息产品(论文、报告等);6)信息评价(Evaluation):评价查找结果和解决问题的过程(效率)。2022-11-11513信息检索信息检索52 检索者一方面要弄清文献的组织编排方式,检索者一方面要弄清文献的组织编排方式,要具有要具有“解构解构”能力;另一方面要善于分能力;另一方面要善于分析提问,善于将信息需求转化为可检索的析提问,善于将信息需求转化为可检索的概念术语。这是一个双
29、向分析和匹配的过概念术语。这是一个双向分析和匹配的过程,是一个以满足用户信息需求为目标,程,是一个以满足用户信息需求为目标,以用户提问为线索,不断缩小检索范围并以用户提问为线索,不断缩小检索范围并查找用户所需信息的过程。查找用户所需信息的过程。2022-11-11523信息检索信息检索53信息检索方法:信息检索方法:检索方法的运用离不开各种检索工具(如目录、索引、文摘等),检索技术的利用则离不开相关硬件和软件。它们共同构成了联结信息资源体系和用户信息需求的纽带与桥梁。2022-11-11533信息检索信息检索54 对应于信息组织方法,信息对应于信息组织方法,信息检索方法可分为:字顺(如题名、著
30、者等)检索方法;类号检索方法;主题检索方法;*2022-11-11543信息检索信息检索55 检索点检索点:主题主题 subjectsubject 分类分类 classificationclassification 著者著者 authorauthor 名称名称 titletitle 号码号码 code,coden .code,coden .2022-11-11553信息检索信息检索56 主题途径:主题途径:是根据文献所论述的主题,利用主题语是根据文献所论述的主题,利用主题语言编制的主题索引而进行的信息检索。言编制的主题索引而进行的信息检索。主题索引大多按字母排列方式,因此,主题索引大多按字母排
31、列方式,因此,检索也要用相应的方式。检索也要用相应的方式。2022-11-11563信息检索信息检索57 分类途径(classificationclassification):是根据文献所论述的主题内容,利用分是根据文献所论述的主题内容,利用分类语言的学科专业体系进行的检索。大类语言的学科专业体系进行的检索。大多数检索工具都采用分类语言作为正文多数检索工具都采用分类语言作为正文编排体系的依据,分类目次通常不采用编排体系的依据,分类目次通常不采用字顺排列类目和检索类目,而是按照学字顺排列类目和检索类目,而是按照学科专业角度的层层逻辑划分建立分类类科专业角度的层层逻辑划分建立分类类目体系。检索时要
32、选择合适的分类类目。目体系。检索时要选择合适的分类类目。2022-11-11573信息检索信息检索58 著者途径:作者作者(Author)/团体著者团体著者(CorporateAuthor/AuthorsAffiliation)检索中,著者是一个广义的概念,是对文献内容负有责任检索中,著者是一个广义的概念,是对文献内容负有责任的作者、编者、译者等,可以是个人、团体、机构、组织,的作者、编者、译者等,可以是个人、团体、机构、组织,甚至还包括著者的单位。通过著者途径进行检索,主要可甚至还包括著者的单位。通过著者途径进行检索,主要可利用著者索引。所有著者索引都采用字顺排列方式,如果利用著者索引。所有
33、著者索引都采用字顺排列方式,如果著者是个人,就以个人姓名字顺排列,如果著者是机构,著者是个人,就以个人姓名字顺排列,如果著者是机构,就以机构名称字顺排列。因此,检索也应该按相应的途径就以机构名称字顺排列。因此,检索也应该按相应的途径。2022-11-11583信息检索信息检索59 题名途径(Title):检索中,文献题名是一个广泛的概念,包括文献篇名、图书书名、期刊刊名。常见的题名索引主要有篇名索引、书名索引、刊名索引等。题名索引通常按字顺排检方式,因此,检索也应该采取相应的途径。2022-11-11593信息检索信息检索60 序号途径:许多文献除普通外表特征外,还具有序号特征,许多文献除普通
34、外表特征外,还具有序号特征,如,专利文献有专利号、标准文献有标准号、馆如,专利文献有专利号、标准文献有标准号、馆藏文献有索书号。藏文献有索书号。序号索引一般按照文献序号的大小顺序排列,如序号索引一般按照文献序号的大小顺序排列,如文献序号纯粹由数字组成,就按数字大小生序排文献序号纯粹由数字组成,就按数字大小生序排列,如果序号包含数字和字母,就按数字大小和列,如果序号包含数字和字母,就按数字大小和字母顺序升序排列。如果前面是字母后面是数字字母顺序升序排列。如果前面是字母后面是数字混合组成的序号,就先按字母顺序排列,字母相混合组成的序号,就先按字母顺序排列,字母相同,再按后面的数字大小排列。因此,序
35、号检索同,再按后面的数字大小排列。因此,序号检索也应按照同样方法。也应按照同样方法。2022-11-11603信息检索信息检索61 直检法:专业核心期刊跟踪 常规法:顺查法,倒查法,抽查法 追溯法:参考文献,引用目录 综合法:分段法,循环法,交替法3信息检索信息检索62u常用法常用法顺查法:顺查法:从远及近查,用于了解某一事物发展的全过程,倒查法:倒查法:由近及远查,重点为近期抽查法:抽查法:查找某一段时间的文献3信息检索信息检索63 检索词检索词/语言语言:Searching Language&ThesaurusSearching Language&Thesaurus描述检索系统中信息特征与
36、表达用户信息提问的一种专门描述检索系统中信息特征与表达用户信息提问的一种专门语言,语言,是为沟通文献信息用户和文献信息之间的语言,理论上讲,是用于文献标引和检索提问的约定语言。非规范词非规范词(非受控词非受控词 自由词自由词)uncontrolled,free-uncontrolled,free-term/term/自然语言自然语言 natural Language natural Language F规范词规范词(受控词受控词)controlled/controlled/人工语言人工语言 Artificial Language Artificial Language 主题词表主题词表2022
37、-11-11633信息检索信息检索64 按照表达文献主题概念的语词形式,有分类语言和主题语言。描述文献信息内容特征的语言描述文献信息内容特征的语言:标题词语言标题词语言 Subject HeadingSubject Heading单元词语言单元词语言 UnitermUniterm叙词语言叙词语言 DescriptorDescriptor关键词语言关键词语言 KeywordKeyword分类语言分类语言 2022-11-11643信息检索信息检索65 例如规定:aircraft 表示“飞机”而不用airplane;plane;aeroplane。作到文献存储和检索的一致性。这些规范化词的集合构成
38、了词表。2022-11-11653信息检索信息检索66检索效果检索效果F查全率查全率 R(Recall ratio)R(Recall ratio)F R=R=检出的相关文献量检出的相关文献量/检索系统中相关文献总量检索系统中相关文献总量*100%100%F查准率查准率 P(Precision ratio)P(Precision ratio)F P=P=检出的相关文献量检出的相关文献量/检出的文献总量检出的文献总量*100%100%3信息检索信息检索67检索方式检索方式 (1)(1)命令检索命令检索(command search)command search)算符算符(operator)oper
39、ator)检索式检索式(statement formula)statement formula)(2)(2)菜单检索菜单检索(menu search)menu search)提示提示 选项选项 填空填空2022-11-11673信息检索信息检索 68 检索技术检索技术 (1)(1)常用算符常用算符 F 逻辑算符逻辑算符 (boolean operator)boolean operator)2022-11-11683信息检索信息检索69 常用的布尔逻辑算符有三种常用的布尔逻辑算符有三种:分别是逻辑或分别是逻辑或OR,+逻辑与逻辑与AND,*,+,+逻辑非逻辑非NOT,-。2022-11-1169
40、3信息检索信息检索70 (1)逻辑或“OR”逻辑或(A OR B)检索出凡含有检索词A或者含有检索词B或者同时含有检索词A和B的信息资源。逻辑或“OR”可以扩大信息的检索范围,使用它相当于增加检索词主题的同义词与近义词,能提高检索的查全率。*E 概念大小、关系2022-11-11703信息检索信息检索71 (2)逻辑与“AND”逻辑与(A AND B)检索出同时含有检索词A和检索词B的信息。如果A和B无关,则没有命中文献,Q=0;如果A和B有一定相关性,则有MQ0,或NQ0;这表明,逻辑与“AND”可以缩小信息的检索范围,提高检索的查准率。*t2022-11-11713信息检索信息检索72(3
41、)逻辑非“NOT”逻辑非(逻辑非(A NOT BA NOT B)检索出含有检索词检索出含有检索词A A而不含有检索而不含有检索词词B B的信息资源。的信息资源。如果如果A A与与B B无关,则无关,则Q=MQ=M;如果如果A A与与B B有一定相关性,则有一定相关性,则Q QM M;如果如果A A与与B B 密切相关,则当密切相关,则当M MN N时,时,Q=M-NQ=M-N,当当M MN N时,时,Q=0Q=0;因此,逻辑非因此,逻辑非“NOT”NOT”可以用来排除不希望出现的检索可以用来排除不希望出现的检索词,它与逻辑与词,它与逻辑与“AND”AND”的作用类似,能够缩小命中信的作用类似,
42、能够缩小命中信息的范围,提高检索的查准率。息的范围,提高检索的查准率。*W W 2022-11-11723信息检索信息检索73信息检索过程和检索策略信息检索过程和检索策略 无论是作为一种方法还是一种技术,信息检索都表现为一种过程,该过程始于用户的信息提问而终于检索结果的输出。检索策略检索策略是针对一定的检索目标,围绕信息检索过程而制订的具体实施计划或实施方案,其实质是对检索过程的科学规划,与检索方法和检索技术相比较,检索策略更为具体,更为实用,更富于可操作性。3.信息检索信息检索743信息检索信息检索开始开始提问提问弄清(明确)问题的实质弄清(明确)问题的实质提问的分析综合处理提问的分析综合处
43、理用情报检索语言表达提问,编制提问检索式和检索提问式用情报检索语言表达提问,编制提问检索式和检索提问式切题文献和信息的检索形成检索结果显示检索结果分析结果与提问的相关性结果不相关不相关相关相关75维药老鼠瓜抗风湿性关节炎有效部位的新维药老鼠瓜抗风湿性关节炎有效部位的新药研究药研究 The study concerning with Capparis spinosa L.as a new medicine 76检索词检索词#1老鼠瓜老鼠瓜或或槌果藤槌果藤或或野西瓜野西瓜Capparis spinosa L.Capparis spinosa L.#2#2 类风湿性关节炎类风湿性关节炎 Rheuma
44、toid arthritis or RARheumatoid arthritis or RA检索式检索式#1#1*#2#277聚合物光漂白及其在光聚合物光漂白及其在光波导器件制备技术中的波导器件制备技术中的研究研究Studyonphotobleachingofpolymeranditsapplicationinfabricatingofopticalwaveguides78检索策略:检索词:检索词:#1光漂白photobleaching;#2聚合物polymer(PMMA/DR1、Poly-3BCMU和 polydiacetylene);#3波导光栅waveguide grating;#4、非
45、线性光学 the third order nonlinearities;#5单光束扫描法z-scan;#6、双光束扫描法two beam scan technique#7非线性定向耦合器nonlinear directional coupler;#8 光栅耦合器chirped grating coupler;检索式:#1*(#2+#3+#4+#5+#6+#7+#8)79精氨酸基因工程菌中试发酵工艺研究检索词:检索词:1.精氨酸 arginine 2.基因工程菌 gene-engineering strain 3.黄色短杆菌 brevibacterium flavum 4.大肠杆菌 escher
46、ichia coli 5.合成 component or synthesis or synthetiae 6.发酵 fermentation检索式:检索式:1*(2+3+4+5+6)80计算机检索的特点计算机检索的特点 信息量大信息量大 信息及时信息及时 检索功能强检索功能强 检索效率高检索效率高3信息检索信息检索81确定检索点/词检索课题用户 主题分析选择检索系统 选择数据库制定检索式计算机处理结果检验 词表NY82 数据库检索数据库检索 网络资源检索网络资源检索3信息检索信息检索833.2.13.2.1数据库的基本概念数据库的基本概念 数据库的定义数据库的定义:至少由一种文档组成至少由一种
47、文档组成,能满足特定能满足特定目的的或特定数据处理系统需要的目的的或特定数据处理系统需要的数据集合数据集合.3信息检索信息检索842.2.数据库的类型数据库的类型(1)(1)参考数据库参考数据库F书目数据书目数据(bibliographic database)bibliographic database)目录数据库目录数据库(catalog database)catalog database)文摘索引数据库文摘索引数据库(abstract/index abstract/index database)database)F指南数据库指南数据库(directory database)director
48、y database)3信息检索信息检索85 (2)(2)源数据库源数据库(source database,data bank)source database,data bank)数值数据库数值数据库(numeric database)文本文本-数值数据库数值数据库(text-numeric database)全文数据库全文数据库(full-text database)3信息检索信息检索86有3.2.3四个必要的层次:字段(field)记录(record)文档(file)数据库(database)3信息检索信息检索871.字段(数据项)是组成数据库的最小基本单位。它的作用是描述一个数据处理对象
49、的某些属性。如书目型的数据库,字段可为文献的篇名,作者,作者单位,刊名等。882.记录 与某一数据处理对象有关的一切数据项构成了该对象的一条记录。如书目型数据库,一条记录反映了一篇文献的相关信息89例2 书目型数据库中的记录Automatic detection of lung cancers in chest CT images by the variable N-quoit filter Miwa,Tomoko;Kako,Jun-Ichi;Yamamoto,Shinji;Matsumoto,Mitsuomi;Tateno,Yukio;Iinuma,Takeshi;Matsumoto,Tor
50、u Author Affiliation:Knowledge-Based Info.Eng.Dept.,Toyohashi University of Technology Source:Systems and Computers in Japan v 33 n 1 January 2002 p 53-63.In EnglishAbstract 90 内容内容 ContentContent 范围范围 Coverage Coverage 时效时效 CurrencyCurrency 费用费用 CostCost选库的选库的4 4C C原则原则:91中文数据库的类型中文数据库的类型q1)按提供信息加工
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。