1、计算机检索概论计算机检索概论参考教材:P74-80周满英周满英 信息检索机检概论信息检索机检概论计算机检索相对手工检索的优势v 速度快,耗时少速度快,耗时少v 途径多途径多v 种类齐全种类齐全v 数据更新快数据更新快v 组配灵活组配灵活v 结果输出多样结果输出多样周满英周满英 信息检索机检概论信息检索机检概论计算机检索目前主要方式 1 1.光盘检索光盘检索(1980s-)(1980s-)光盘的优点是存贮量大、稳定性好、使用方便、成本低廉等,光盘的优点是存贮量大、稳定性好、使用方便、成本低廉等,能存贮数据、文字、图象、声音、动画等各种信息,且不受通信能存贮数据、文字、图象、声音、动画等各种信息,
2、且不受通信线路的影响。线路的影响。2 2.网络检索网络检索(1990s-)(1990s-)因特网具有广泛性、方便性,还增加了许多新的动态信息服务,因特网具有广泛性、方便性,还增加了许多新的动态信息服务,同时以搜索引擎为核心的网络搜索技术也日益发展。同时以搜索引擎为核心的网络搜索技术也日益发展。周满英周满英 信息检索机检概论信息检索机检概论计算机检索的原理v 计算机信息检索就是利用计算机进行信息的计算机信息检索就是利用计算机进行信息的存储存储和和检索检索的过程,存的过程,存储和检索对应于数据库的建立和利用。储和检索对应于数据库的建立和利用。v 将大量的文献信息加工处理,以一定的结构有序地存储在计
3、算机的将大量的文献信息加工处理,以一定的结构有序地存储在计算机的存储介质上,建成数据库,这是计算机的存储介质上,建成数据库,这是计算机的存储存储过程。过程。v 将检索需求以一定的方式输入计算机中,由计算机对其进行处理,将检索需求以一定的方式输入计算机中,由计算机对其进行处理,与已存储在数据库中的信息进行查询和匹配,并按要求的格式输出与已存储在数据库中的信息进行查询和匹配,并按要求的格式输出检索结果的过程,就是计算机的检索结果的过程,就是计算机的检索检索过程。过程。周满英周满英 信息检索机检概论信息检索机检概论计算机检索原理图信息存储信息检索信息源主题概念文献标识数据库信息需求提问概念检索提问式
4、检索结果周满英周满英 信息检索机检概论信息检索机检概论数据库的类型v 书目数据库书目数据库 包括文摘、目录、题录等书目数据,如文章的标题、作者、文献出处(刊名、年、卷期、页码)、馆藏单位、文摘信息等,又称二次文献数据库。如:PubMed、CBM(中国生物医学文献数据库)v 全文数据库全文数据库 提供原始文献的全文,实现检索的一次到位。如:OVID、维普数据库、CNKI期刊全文数据库 v 数值数据库数值数据库 提供数值、参数、公式等信息,包括统计数据、实验数据、人口数据、化学品理化参数等 如:美国国立生物技术信息中心(NCBI)的Genbank(基因库)、世界卫生组织的统计信息系统(WHOSIS
5、)周满英周满英 信息检索机检概论信息检索机检概论数据库的类型v 事实数据库事实数据库 提供事实信息,如人物、机构、事件、疾病的诊断和治疗、药物的用法和不良反应等。如:疾病诊疗数据库、中国非处方药数据库 v 图像数据库图像数据库 以图像为信息主体,配有文字解释,如解剖图谱、中草药图谱、诊断图谱、手术图谱等。如:美国国立医学图书馆的The Visible Human Project(可视人计划)、哈佛大学医学院的The Whole Brain Atlas(全脑图谱)v 多媒体数据库多媒体数据库 将文字、数值、声音、图像等不同信息形式进行统一处理和管理的数据库 周满英周满英 信息检索机检概论信息检索
6、机检概论常见的生物医学文献数据库 中文 中国生物医学文献数据库中国生物医学文献数据库(CBM)(CBM)中文科技期刊数据库中文科技期刊数据库(重庆维普,重庆维普,VIP)VIP)中国期刊全文数据库中国期刊全文数据库(清华同方清华同方,CNKI),CNKI)万方数据库资源系统万方数据库资源系统 外文 Medline/PubMedMedline/PubMed OVID OVID EM(EM(荷兰的荷兰的医学文摘医学文摘)BA(BA(美国的美国的生物学文摘生物学文摘)CA(CA(美国的美国的化学文摘化学文摘)周满英周满英 信息检索机检概论信息检索机检概论数据库的结构v 字段(字段(fieldfiel
7、d)是组成记录的数据项,如篇名、著者、来源、主题是组成记录的数据项,如篇名、著者、来源、主题词等。词等。v 记录(记录(recordrecord)由字段组成,每条记录都描述了原始信息的外部特由字段组成,每条记录都描述了原始信息的外部特征和内容特征,一条记录代表一篇文献。征和内容特征,一条记录代表一篇文献。v 文档(文档(filefile)是数据库中一部分记录的集合。是数据库中一部分记录的集合。周满英周满英 信息检索机检概论信息检索机检概论数据结构举例数据结构举例周满英周满英 信息检索机检概论信息检索机检概论常用的记录字段ABAB 文摘文摘 MH MH 主题词主题词ADAD 地址地址(第一著者第
8、一著者)PPPP 出版地出版地AU AU 著者著者 PYPY 出版年出版年TITI 文章标题文章标题 PTPT 文献类型文献类型TTTT 翻译标题翻译标题 CNCN 分类号分类号TA TA 刊名刊名 CT CT 特征词特征词TWTW 关键词关键词 CRFCRF 参考文献参考文献LALA 语种语种 PGPG 页码页码MMHMMH 主要主题词主要主题词ISIS ISSNISSN(国际标准连续出版物编号)(国际标准连续出版物编号)SOSO 出处出处(刊名、年、卷、期、页)刊名、年、卷、期、页)周满英周满英 信息检索机检概论信息检索机检概论常用计算机的检索途径 自由词途径自由词途径 主题词途径主题词途
9、径 分类浏览分类浏览 著者检索著者检索 引文检索引文检索 索引检索索引检索 期刊检索期刊检索 基本检索基本检索 高级检索高级检索 专业检索专业检索周满英周满英 信息检索机检概论信息检索机检概论计算机的检索技术v 布尔逻辑检索布尔逻辑检索v 截词检索截词检索v 限制检索限制检索v 位置算符位置算符周满英周满英 信息检索机检概论信息检索机检概论布尔逻辑检索 反映概念之间交叉和限定关系的一种组反映概念之间交叉和限定关系的一种组配配,常用常用“ANDAND”或或“*”表示。表示。表示检索结果中的每一条记录必须同时表示检索结果中的每一条记录必须同时包含有检索词包含有检索词A A和和B B。逻辑与周满英周
10、满英 信息检索机检概论信息检索机检概论举举 例例 查找查找“冠心病的舌诊研究冠心病的舌诊研究”方面的文献方面的文献 冠心病冠心病 AND AND 舌诊舌诊 查找查找“吸烟与肺癌关系吸烟与肺癌关系”的文献的文献 吸烟吸烟 *肺癌肺癌 周满英周满英 信息检索机检概论信息检索机检概论布尔逻辑检索 反映概念之间并列关系的一种组配,常反映概念之间并列关系的一种组配,常用用“OROR”或或“+”表示。表示。表示一篇文献中表示一篇文献中A A、B B两者中有一即可,也两者中有一即可,也包括两者同时存在。包括两者同时存在。逻辑或周满英周满英 信息检索机检概论信息检索机检概论举举 例例 查找查找“消渴消渴”方面
11、的文献方面的文献 消渴消渴 +糖尿病糖尿病 查找查找“维生素维生素C”C”方面的文献方面的文献 维生素维生素C OR C OR 抗坏血酸抗坏血酸周满英周满英 信息检索机检概论信息检索机检概论布尔逻辑检索 是从原检索中排除一部分,常用是从原检索中排除一部分,常用“NOTNOT”或或“”表示。表示。表示检索结果中每一条记录必须包含检索词表示检索结果中每一条记录必须包含检索词A A,但不能包含检索词但不能包含检索词B B。逻辑非周满英周满英 信息检索机检概论信息检索机检概论举举 例例 查找查找“非儿童哮喘非儿童哮喘”方面的文献方面的文献 哮喘哮喘 儿童儿童 查找查找“肝炎非流行病学肝炎非流行病学”方
12、面的文方面的文献献 肝炎肝炎 NOT NOT 流行病学流行病学周满英周满英 信息检索机检概论信息检索机检概论优先级说明 可以在一个检索式中同时使用多个逻辑运算可以在一个检索式中同时使用多个逻辑运算符,还可以用括号来改变运算次序:符,还可以用括号来改变运算次序:()()NOTANDORNOTANDOR 例如:检索有关例如:检索有关“微量元素铜、铁、锌与儿微量元素铜、铁、锌与儿童营养不良童营养不良”方面的文献。方面的文献。(铜(铜 OR OR 铁铁 OR OR 锌)锌)ANDAND(婴儿(婴儿 OR OR 幼儿幼儿 OR OR 儿童)儿童)AND AND 营养不良营养不良周满英周满英 信息检索机检
13、概论信息检索机检概论截 词 检 索v 用符号取代检索中部分字母,保留检索词中的相同部用符号取代检索中部分字母,保留检索词中的相同部分。分。v 常用的截词符号有常用的截词符号有“*”、“?”。v 不同的检索系统中采用不同的符号。不同的检索系统中采用不同的符号。v 按照截断的字符数量,可分为按照截断的字符数量,可分为无限截断无限截断和和有限截断有限截断两两种。种。v 按照截词的位置,可分为按照截词的位置,可分为前(左)截断、中间截断、前(左)截断、中间截断、后(右)截断后(右)截断。周满英周满英 信息检索机检概论信息检索机检概论截 词 检 索v 有限截断有限截断 一般用一般用“?”?”表示有限截断
14、,一个表示有限截断,一个“?”?”表示一个字符或零个表示一个字符或零个字符。字符。如:输入如:输入“computer?”computer?”来检索,可以查到含有来检索,可以查到含有computercomputer、computercomputers s、computercomputeringing的记录,但对含有的记录,但对含有computercomputerizationization的记录检索无效。的记录检索无效。v 无限截断无限截断 一般用一般用“*”表示无限截断,一个表示无限截断,一个“*”表示表示0 0N N个字符。个字符。如:输入如:输入“immunimmun*”来检索,可以查到含
15、有来检索,可以查到含有immunimmune e、immunimmunologyology、immunimmunodeficiencyodeficiency等所有以等所有以“immunimmun”开头的单开头的单词。词。周满英周满英 信息检索机检概论信息检索机检概论限 定 检 索u将检索范围限定在某个特定字段或某一时间范围进行将检索范围限定在某个特定字段或某一时间范围进行检索。检索。u常用表达形式有:字段标识符检索词,检索词常用表达形式有:字段标识符检索词,检索词 in in 字段标识符,字段标识符字段标识符,字段标识符 检索词检索词 u常用的限制符有:常用的限制符有:“inin”、“=”。E
16、nglish in LA,表示限制检索结果的语种为英语。PY=1998,表示把结果限定在1998年。等同于PY1998 周满英周满英 信息检索机检概论信息检索机检概论位 置 算 符反映两个检索词在文献中的邻近关系。不同的检索系统的位置算符是不一样的。常见的有near、with两个。with表示检索词在同一个字段中。near表示检索词在同一个句子中,词序可以颠倒,可以在near后面加上数字来限定两个词语之间可以插入的词的数目。周满英周满英 信息检索机检概论信息检索机检概论计算机的检索策略v 分析课题,明确检索要求分析课题,明确检索要求v 选择数据库和检索途径选择数据库和检索途径v 确定检索词,构
17、建检索式确定检索词,构建检索式v 上机检索操作和反馈调节上机检索操作和反馈调节v 整理检索结果,获取原始文献整理检索结果,获取原始文献周满英周满英 信息检索机检概论信息检索机检概论检索结果的反馈与调整分析课题,明确检索需求选择数据库,确定检索途径确定检索词,编写检索式输入计算机,进行匹配运算浏览检出文献,结果是否满意输出检索结果分析失败原因调整检索式YESNO检检 索索周满英周满英 信息检索机检概论信息检索机检概论检检 索索 效效 率率v检全率检全率 在进行某一检索时,检出的相关信息量与系统信息库中相关信息总量的比率。检全率高则漏检少,但是有可能误检率高。v检准率检准率 在进行某一检索时,检出
18、的相关信息量与检出的信息总量的比率。检准率高则误检少,但是可能漏检。周满英周满英 信息检索机检概论信息检索机检概论检检 索索 要要 领领v 有主题词的数据库,尽量选择主题词检索。有主题词的数据库,尽量选择主题词检索。v 进行主题词检索时,要尽量借用副主题词的限定来使进行主题词检索时,要尽量借用副主题词的限定来使文献查准,要注意用下位词扩检来避免文献的漏检。文献查准,要注意用下位词扩检来避免文献的漏检。v 用关键词和自由词检索时应选择有实质意义的词,同用关键词和自由词检索时应选择有实质意义的词,同时要全面考虑其同义词,避免漏检。时要全面考虑其同义词,避免漏检。v 当检出文献太多或太少时要考虑逻辑
19、运算或者增加或当检出文献太多或太少时要考虑逻辑运算或者增加或减少同义词、检索词以及限定。减少同义词、检索词以及限定。周满英周满英 信息检索机检概论信息检索机检概论缩小检索范围缩小检索范围v选用专指性较强的下位词或限定副主题词。选用专指性较强的下位词或限定副主题词。v增加增加andand连接,进一步限定主题概念。连接,进一步限定主题概念。v用字段限定检索范围,如篇名字段、主题词字段、用字段限定检索范围,如篇名字段、主题词字段、年份字段等。年份字段等。v用位置运算符将检索词限定在一个句子中或者同用位置运算符将检索词限定在一个句子中或者同一字段中一字段中v用用notnot排除无关概念。排除无关概念。
20、周满英周满英 信息检索机检概论信息检索机检概论扩大检索范围扩大检索范围v从词表或检出文献中选同义词、相关词补充,用从词表或检出文献中选同义词、相关词补充,用OROR连接在检索式中。连接在检索式中。v采用截词符采用截词符,把所有不同后缀的词都作为检索词。把所有不同后缀的词都作为检索词。v进行族性检索,可采用分类检索,网罗所有同一进行族性检索,可采用分类检索,网罗所有同一类目的文献。类目的文献。v取消某些限制过严的限制检索。取消某些限制过严的限制检索。v对主题词或副主题词进行扩展检索。对主题词或副主题词进行扩展检索。周满英周满英 信息检索机检概论信息检索机检概论思思 考考 题题以下检索式中,哪个查出文献最多,哪个最少?以下检索式中,哪个查出文献最多,哪个最少?vA and BA and Bv(A or B)and C(A or B)and CvA and B and CA and B and CvA and B or CA and B or C