1、广义的信息含有信息存储和信息检索两个过程,信息存储是信息检索的基础,信息检索是信息存储的目的。第一节 文献数据库所谓信息检索系统,是指根据人类社会对知识信息的普遍性需要,由一定的硬件设备和软件条件所构成的,具有选择、整理、加工、存储和检索信息功能的有序化信息资源集合体。(一)按对信息收录的学科范围划分1 综合性数据库 如Web of Science、中国知网(CNKI)、万方数据知识服务平台2 专业性数据库 信息仅限于某一学科领域,专业性强,用于检索特定专业文献。如PubMed/MEDLINE、CA和中国生物医学文献数据库(Chinese BioMedical Literature Datab
2、ase,以下简称CBM)3 专题性数据库 收录信息仅限于某一特定对象或专题,适用于专题检索。如中国药物专利数据库、GenBank(核酸系列数据库)等。(二)按收录信息内容的类型不同划分1 文献型数据库(literature database)是指以各类型文献为内容的数据库,包括书目数据库(bibliographic database)和全文数据库(full-text database)书目数据库是指存储二次文献信息的数据库,包括题录数据库、文献数据库、目录数据库等,是信息检索最常用的数据库。如CBM、MEDLINE等。全文数据库是存储文献全文的数据库,包括图书全文数据库、期刊全文数据库、学位论
3、文全文库先进,是信息检索中最受欢迎的数据库。如书生之家数字图书馆、超星数字图书馆、CNKI、万方数据知识服务平台等。是存储有关科研数据、数值,包括各种统计数据、实验数据、临床检验数据等数值型信息的数据库。如美国化学物质毒性数据库RIECS,包含了10万多种化学物质的急慢性毒理实验数据。也称指南数据库(directory database),主要存储某种具体事实、知识数据的非文献信息源的一般参考性、指示性资料信息,每个条目都是对一个事实确切、完整的描述。如美国医生数据咨询库PDQ(Physicean Data Query)是指以图像、图面、图形等为信息主体数据集合。如美国国立医学图书馆(NLM)
4、的可视人计划数据库(the visible human project)和哈佛大学医学院的全脑图谱数据库(the whole brain atlas)等。是存储数值、文字、表格、图形、图像、声音等多种媒体信息的数据库,如NLM的医学史数据库(history of medcine).数据库(database)是按照数据结构来组织、存储和管理数据的数据集合。数据库通常由若干个文档(file)组成,每个文档又由若干条记录(record)组成,每条记录则包含若干字段(field)1 文档 一方面,文档是数据库中一部分记录的有序集合。另一方面,从数据库内部结构来看,文档又是数据库内容组成的基本形式。2
5、记录 是数据库中文档的组成单元,是对某一文献或一则信息的全部相关属性进行描述的结果。一条记录代表一篇文献的信息,每条记录描述了一篇文献的外部特征和内部特征。3 字段 是比记录更小的单位,字段集合组成记录。每个字段描述文献的某一特征,即数据项,并有唯一的供计算机识别的字段标识符(field tag)。篇名(TI)、著者(AU)、摘要(AB)等文献特征就是一个个字段。1 主题词途径 利用主题词途径就是对主题词字段进行检索来查找文献,其检索标识是主题词。主题词是一种规范化的检索语言,能够在一定程度上提高检索效率。常用的支持主题词检索途径的检索系统有CBM和PubMed。关键词途径:是选取关键词字段作
6、为检索入口。关键词往往是从文章题目、摘要或正文中抽取的能够反映文章主题内容的词汇。文献数据库中的关键词一般由论文作者提取或者由数据库自动标引抽取。3 分类途径 是将课题内容的学科属性在分类体系中的位置(分类号或类名)作为检索文献的入口,便于族性检索。检索标识是分类号或类目名称。4 题名途径 是利用文献题名(篇名、书名、专利名等)作为检索入口查找文献。是利用文献上署名的作者、编者、译者或机构名为检索入口查找文献的途径。在原文中,我国著者是姓在前名在后,而欧美国家作者则名在前姓在后。因此检索著者途径时须将欧美国家著者姓名顺序颠倒,如原文中姓名为David Saliven Crawford 检索词应
7、为Crawford DS一 信息组织方法信息组织方法 是指将信息按一定规律进行有序排列的方法。1 形式信息组织法(1)号码法号码法,如通过专利号组织专利信息;(2)物名法物名法,根据事物名称字顺组织信息,如通过书名编制书名目录;(3)引证关系法引证关系法 是利用信息之间引证与被引证的关系来组织信息依信息的内容特征来组织信息就是内容信息组织法。常用的内容特征组织法有分类法、主题词法。(1)分类法:是一种按学科性质,依类别特征组织排列文献信息的方法。中国图书馆分类法是目前国内最常用的体系分类法。是以自然语言中的词语或规范化的证词作为揭示文献主题的标识,并以此标识编排组织和查找文献的方法。世界许多著
8、名的检索系统都采用主题法组织文献信息,如医学主医学主题词表(题词表(medical subject headings,MeSH)即是主题法应用于医学领域的一个典型工具。3 效用信息组织法 是根据信息的实用价值来组织信息的方法,主要有权值组织法(赋予不同信息以不同的权重值)、特色组织法(按某些特殊需要组织信息)、重要性递减组织法(按重要性程序化信息)和概率组织法(按事物出现概率组织信息)。检索语言检索语言:又称文献存储与检索语言、标引语言等,是信息检索系统存储与检索过程中共同使用的一种专用语言,是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。分为规范化语言和非规范化语言。检索
9、语言标识文献的内容特征和外部特征,而形成描述文献特征的标识系统。1 描述文献外部特征的检索语言 以文献信息的外部特征,如著者、书名、刊名、文献序号等作为文献信息标引和检索途径的检索语言。属非规范化检索语言(1)分类语言:又叫分类检索语言。分类语言有多种类型。常用的有中国图书馆分类法、中国科学院图书馆图书分类法(简称科图法)、杜威十进分类法(DeweyDecimalClassifcatipn RelativeIndex,简称DDC)、美国国会图书馆图书分类法(Library of Congress Classification,简称LCC)等。又称主题检索语言。主题语言是一系列反映文献评理内容的
10、概念标识。目前应用较多的是关键词和叙词(主题词)1)关键词(keyword):是从文献题目、文摘或正文中抽取出来的具有实质意义,未经或略经规范化了的能代表文献主题内容的词汇。主题词:亦称叙词(主题词:亦称叙词(descriptor),指能代表文献内容实质的从自然语言中精选并经严格规范化处理的名词术语或词组。主题词文编制灵活,利于用户使用。我国常用的主题词表有汉语主题词表、中国中医药主题词表,美国的医学主题医学主题词表词表(MeSH)是世界医学领域最著名也是应用最多的主题词表,被著名医学检索系统MEDLINE/PubMed和中国生物医学中国生物医学文献数据库(文献数据库(CBM)用于组织其文献信
11、息。(一)中国图书馆分类法中图法是目前国内最常用的一种等级体系分类法。(二)医学主题词(medical subject headings,简称MeSH)是美国国立医学图书馆(NLM)编制的世界医学领域最权威、最常用的一部规范化的、可扩充的动态叙词表。MeSH是多功能的,每年更新。用户可在网上免费使用其浏览器MeSH Browser(1)叙词(descriptor):又称主题词(subject heading),是MeSH的主要部分。(2)款目词(entry term):又称入口词,是MeSH中收录的主题词的同义词或近义词,作用在于指引用户找到主题词。(3)限定词(qualifier),又称副主
12、题词(subbeading)。其作用是增加主题概念的专指性,提高检索的查准率。目前MeSH有83个副主题词。(4)特征词(check tag):是用于表达文献中涉及的关于实践或研究对象、性别、年龄、文献类型、资助类型等方面的词。2 MeSH选词的原则(1)首选专指词(2)次选组配词(3)选择上位词或近义词1 国际疾病分类法 国际疾病分类法的全称为国际疾病及相关健康问题统计分类法(The International Statistical Classification of Diseases and Related Health Problems,ICD)是按照既定疾病分类标准将各种疾病名称归入
13、相应类目的一种系统。全称是标准系统化人类及兽医学术语表(Systematized Nomenclature of Human and Veterinary Medicine),简称SNOMED,是美国病理医师学会编撰。一 文献检索方法1 检索工具法2 浏览法3 引言追踪法4 综合法,双叫循环法能够有效表达信息需求的一系列可为人-机“共识”的技术方法,即计算机检索技术计算机检索技术。是计算机检索最基本、最重要的运算方式,是利用布尔逻辑运算对若干个检索词进行组合以表达检索要求的方法。布尔逻辑运算符主要有三种,即“逻辑与”(AND)、“逻辑或”(OR)和“逻辑非”(NOT)。布尔运算符AND、OR、
14、NOT,分别表示逻辑与、逻辑或、逻辑非三种逻辑运算关系,如下图所示。A AND BA OR B逻辑“与”,检索表达式为“A and B”数据库中同时含有检索词A和B的文献为命中文献;作用是缩小检索范围,提高查准率;例如,查找“胰岛素治疗糖尿病”的文献,检索式为 insulin and diabetes。逻辑“或”,检索表达式为“A or B”数据库中的文献中含有检索词A或B的文献为命中文献;作用是扩大检索范围;例如,查找“肿瘤”的文献,检索式为cancer(癌)or tumor(瘤)or carcinoma(癌)or neoplasm(新生物)。逻辑“非”,检索表达式为“A not B”数据库
15、中凡含有检索词A而不含B的文献为命中文献;作用是缩小检索范围,提高查准率;例如,查“动物的乙肝病毒(不要人的)”的文献,检索式为 hepatitis B virus(乙肝病毒)not human(人类)。布尔逻辑运算的优先顺序当一个检索表达式含有多个布尔算符时,执行的顺序为notandor可用圆括号改变运算顺序,将需要优先运算者置于()中。例如,查找“维生素C或维生素E对糖尿病患者肾脏的保护作用”,检索式为:(维生素C or 维生素E)and 糖尿病 and 肾。截词检索截词检索:又称通配词检索(wildcardsearching)。把检索词截断,取其中的一部分片段,再加上截词符号一起输入检索
16、,系统按照词的片段与数据库里的索引词对比匹配,凡是包含这些词的片段的文献均被检索出来。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。(1)无限截词:又称任意截词,是使十五过词串与被检索词实现部分一致的匹配。常用“*”来表示一串字符。有前截词,中间截词,后截词。常用的截词符号有“*”、“?”*可代替0-n个字母?可代替0-1个字母根据被截断部位的不同:前截断,*hydroxy后截断,hyperten*中间截断,h*ophilia是指检索词串与被检索词只可以在指定的位置不一致的检索。常用“?”来代替一个字符或空字符,也可使用多个。如检索词“acid?”可以配备a
17、cid acids acidic acidly,但不能检索出acidicty的文献。限定检索限定检索(limit Searchinglimit Searching)又称)又称限限定字段检索定字段检索(limit Field limit Field SearchingSearching),),是利用检索词出现的字段进行的检索;用户可以指定检索某一字段或某几个字段以使检索结果更为准确,减少误检;会采用缩写形式的字段标识符;如 PubMed中AU著者、AD作者机构等邻近检索邻近检索(proximity searching)是用来表示检索词与检索词之间位置关系的检索技术,通常用位置算符来实现。采用的位
18、置算符有near,with。u“near”,表示检索词位置相邻,检索词出现的顺序可前可后,如gene NEAR apoptosis;u“with”,表示检索词位置相邻,且两词出现的顺序与输入顺序一致,如liver WITH cancer。位置检索大致包括以下四个层次的限制:A记录级 B字段级 C 子字段或自然句级 D 词组的词位限定扩展检索(expand searching)是同时对多个相关检索词执行逻辑或检索的技术;即当用户输入一个检索词后,系统不仅能检出该检索词的文献,还能检出与该检索词同属于一个概念的同义词或下位词的文献,如PubMed中主题词的扩展检索。加权检索加权检索(weighin
19、g searchingweighing searching)不仅检索提问词是否存在,而且计算提问词的权值,当权值之和超过阈值的记录才能在数据库中被检出来。在某些数据库中表现为仅检索主要概念主题词,如pubmed;而有些数据库表现为词频检索,如中国学术期刊全文数据库。精确检索精确检索(exact searching)是指所检信息与输入的词组完全一致的匹配检索技术;在许多系统中用引号来表示,如检索“Acute Pancreatitis”;模糊检索模糊检索(fuzzy searching)允许所检信息与检索提问之间存在一定的差异。如检索Acute Pancreatitis,可检索出Pancreati
20、tis、Acute Pancreatitis等。跨库检索(cross database searching)是一次对多个数据库同时进行检索的技术。能为用户提供统一的检索接口,将用户检索需求转化为不同数据库的检索表达式,并发地检索本地和广域网上的多个分布式异构数据库,并对检索结果加以整合,以统一的格式将结果呈现给用户。是将与已检结果存在某种程度相关的信息检索出来的检索技术,多由检索系统自动进行检索。如PubMed的“Related Articles”。CNKI的相似文献自动实现检索词、检索词对应主题词及该主题词所含下位词的同步检索。如 中国生物医学文献服务系统(SinoMed)的智能检索。Pub
21、Med的“自动词语匹配检索”属于智能检索。其他网络检索技术1)包含或排除检索技术2)检索结果翻译与多语种检索一 文献检索步骤分析检索课题,明确实质需求分析检索课题,明确实质需求选择合适的数据库选择合适的数据库制定检索策略制定检索策略检索检索检索结果是否满意检索结果是否满意修正检索策略修正检索策略输出检索结果输出检索结果是是否否分析主题概念,确定分析主题概念,确定检索用词检索用词(1)扩大检索范围的方法:增加同义词或近义词,用OR组配;主题词扩展检索(有下位词)或使用上位主题词进行检索;检索相关主题词;使用截词符或通配符;减少检索的字段限定;横向检索;检索引文。(2)缩小检索范围的方法:使用逻辑
22、运算符“and”或“not”;选择专指性的检索词;使用副主题词;主题词加权检索;限制字段检索。查全率(查全率(recallrecall):指系统在进行某一检索时,检出的相关文献量占系统文献库中相关文献量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。R(检出相关文献量/系统文献库中相关文献总量)100%查准率(查准率(precisionprecision):指系统在进行某一检索时,检出的相关文献量占检出的文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。P=(检出相关文献量/检出文献总量)100%实验证明,在查全率与查准率之间存在着相反的相互依赖关系:如果提高查全率,就会降低查准率;反之亦然。查全率一般为60%70%,查准率约为40%50%,当查全率超过70%时,若想提高查全率就必然会降低查准率。谢谢!
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。