1、 第二讲第二讲检索技术与检索技巧检索技术与检索技巧2.1计算机信息检索原理计算机信息检索原理检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息。存储:信息资源的有序化 检索:用户信息需求与信息集合匹配2.2 关键词选取关键词选取从特征描述讲起体会:1,检索的原理简单的说就是在相应的字段内关键词与描述词相匹配。2,检索能力体现在优良的检索策略检索策略(关键词选取和检索步骤、检索工具等)以及检索结果。文献的特征文献的特征 期刊论文 题名、作者、地址、刊名、摘要、英文摘要、主题词、英文主题词、全文等 图书
2、题名、责任者、丛书名、出版年、出版社、ISBN、主题词、分类号等 学位论文 题名、作者、指导老师、学位级别、授予单位、时间、摘要、关键词等具有独立的主题意义,反映检索内容的实词查找文献时需要选取良好的关键词 如果希望查找“玻璃复合薄膜的研究”这个课题相关的文献,较好的检索词应该是_。A玻璃,复合,薄膜,研究B玻璃,复合,薄膜,C.复合,薄膜,研究D玻璃,薄膜,研究 如果希望查找“对用后均法进行数据处理的讨论”这一题目的相关文献,较好的检索词应该是_进行检索的途径。A.后均法 进行 数据处理B.后均法 数据处理C.后均法 进行 数据处理 讨论D.用 后均法 进行 数据处理 关键词的范围关键词的范
3、围同义词同义词 近义词近义词 反义词反义词 上位类词上位类词 下位类词下位类词概念概念_之间属于同一概念的扩展关系。之间属于同一概念的扩展关系。A Acomputer aided designcomputer aided design与与CADCADB B计算机与电脑计算机与电脑C C材料与无机材料材料与无机材料D金属与轻金属金属与轻金属 概念概念_之间属于同一概念的扩展关之间属于同一概念的扩展关系。系。A.A.因特网与局域网因特网与局域网 B B手机与移动电话手机与移动电话 C C电脑与通讯设备电脑与通讯设备 Dcolor与与colour (1 1)布尔逻辑检索)布尔逻辑检索 (2)(2)截
4、词检索截词检索 (3)(3)字段检索和全文检索字段检索和全文检索 (4 4)其他检索技术)其他检索技术 2.3计算机检索技术计算机检索技术 逻辑逻辑“或或”(和)(和)AB用符号用符号“or”or”或或“+”+”表示,其逻辑表达式为:表示,其逻辑表达式为:A or B A or B 或或 A+BA+B 其意义为检索记录中凡含有检索词其意义为检索记录中凡含有检索词A A或检索词或检索词B B,或同时含有检索词或同时含有检索词A A和和B B的,均为命中文献。的,均为命中文献。布尔逻辑检索布尔逻辑检索(Boolean Logical)逻辑逻辑“与与”AB用符号用符号“and”and”或或“*”表示
5、,其逻辑表达式为:表示,其逻辑表达式为:A A*B B 或或 A and BA and B 其意义为检索记录中必须同时含有检索词其意义为检索记录中必须同时含有检索词A A和和B B的的文献,才算命中文献。文献,才算命中文献。逻辑逻辑“非非”AB用符号用符号“not”not”或或“-”-”,其逻辑表达式为:,其逻辑表达式为:A not B A not B 或或 A-BA-B 其意义为:检索记录中含有检索词其意义为:检索记录中含有检索词A A,但不能,但不能含有检索词含有检索词B B的文献,才算命中文献。的文献,才算命中文献。符号两边的词检索结果或Or、+同义词、近义词 扩大检索范围与And、*不
6、同的词缩小检索范围非Not、-上下位关系词排除不需要检索式:例:课题例:课题“当前商业银行经营体系的特点当前商业银行经营体系的特点”,用布尔逻辑算符构成检索策略。(无需,用布尔逻辑算符构成检索策略。(无需扩展概念,无需使用英语)扩展概念,无需使用英语)思路:以写论文、做项目、科学研究为目的得文献检索,需要获得是有价值的全面的系统的信息。步骤 1,选取关键词 2,选择逻辑运算符 3,写出检索式 商业银行商业银行AND经营经营AND体系体系 例例:逻辑逻辑“或或”算符是用来组配算符是用来组配_。A.不同检索概念,用于扩大检索范围不同检索概念,用于扩大检索范围B.相近检索概念,用于扩大检索范围相近检
7、索概念,用于扩大检索范围C.不同检索概念,用于缩小检索范围不同检索概念,用于缩小检索范围D.D.相近检索概念,用于缩小检索范围相近检索概念,用于缩小检索范围 1希望提高百度引擎搜索结果的查全率,在检索策略中可增希望提高百度引擎搜索结果的查全率,在检索策略中可增加加_。A A同义词和近义词同义词和近义词 B B“或或”运算运算C“与与”运算运算D词组运算词组运算 截词检索(Truncation searchingTruncation searching)指在检索式中用专门的符号(截词符号:?/*/$/%)表示检索词的某一部分允许有一定的词形变化。截词检索按截断部位划分有:右截断、左截断、中截断、
8、复合截断等 按截断长度划分有:有限截断和无限截断。截词检索(Truncation searching)1)右截断右截断(后截断后截断)Comput*可检出:包含Computer,computers,computering等词的文献 信息?:表示在数据库中含有信息?:表示在数据库中含有信息、信息技术、信息检索信息、信息技术、信息检索等方面的文等方面的文献记录均为命中文献。献记录均为命中文献。2)左截断左截断(前截断前截断)*history 可检出:包含Prehistory,post-history,history等词的文献?经济:表示数据库中含有?经济:表示数据库中含有经济、工业经济、农业经济经
9、济、工业经济、农业经济等方面的文献等方面的文献均为命中文献。均为命中文献。3)中间截断 sul*ur,可检出含有sulphur、sulfur等检索词的文献。m?n 可检出含man、men等检索词的文献。4)复合截断 *cognit*可检出含有cognition、cognitive、recognition等检索词的文献。有限截断和无限截断的区别在于对被截断部分的字符数是否限制。截词检索在不同的计算机检索系统中规定不同,请截词检索在不同的计算机检索系统中规定不同,请使用时注意查看不同检索工具的说明。使用时注意查看不同检索工具的说明。ne?t可以检出哪几个词:可以检出哪几个词:neat,nest,n
10、ext。*Chemi*可以检出哪几个词:可以检出哪几个词:chemical、chemist、chemistry、Electrochemistry、electrochemical、physicochemical、thermochemistry题名(题名(TI)、)、作者(作者(AU)、)、出处(出处(SO)、)、摘要(摘要(AB)、)、出版年(出版年(PY)、)、主题(主题(SU)等,指定字段检索可提高检索资料的相关性等,指定字段检索可提高检索资料的相关性和精确性和精确性不同数据库提供的检索字段不尽相同,字段不同数据库提供的检索字段不尽相同,字段标识也不一样。标识也不一样。字段检索 主要字段:主
11、要字段:利用字段进行限制,如题名、摘要、全文等通常的字段限制范围的大小顺序是:题名关键词摘要主题全文全文检索全文检索 指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。搜索的关键字包含在网页标题中搜索的关键字包含在网页标题中 “intitleintitle”和和“allintitleallintitle”示例:查找明星示例:查找明星xxxxxx的影片集。的影片集。搜索:搜索:intitle:xxx intitle:xxx 影片集
12、影片集搜索:搜索:intitle:intitle:爱上图书馆爱上图书馆查找特定格式的文件查找特定格式的文件l filetype:filetype:类型名类型名 能检索微软的能检索微软的OfficeOffice文档如文档如.xls.xls、.ppt.ppt、.doc.doc,.rtf.rtf,WordPerfectWordPerfect文档,文档,Lotus1-2-3Lotus1-2-3文档,文档,AdobeAdobe的的.pdf.pdf文档,文档,ShockWaveShockWave的的.swf.swf文档(文档(FlashFlash动画)等动画)等 对搜索的网站进行限制对搜索的网站进行限制l
13、 site:site:网站名网站名示例:搜索新浪科技频道中关于搜索引擎技巧的信息。示例:搜索新浪科技频道中关于搜索引擎技巧的信息。site:site:搜索的关键字包含在搜索的关键字包含在URLURL链接中链接中l InurlInurl:关键字:关键字示例:查找示例:查找 MIDIMIDI曲曲“沧海一声笑沧海一声笑”搜索:搜索:“inurl:midi inurl:midi“沧海一声笑沧海一声笑”注意:注意:“inurl:inurl:”后面不能有空格后面不能有空格信息检索需要技术:信息检索需要技术:目的是把所有相关的有用的信息全部检索目的是把所有相关的有用的信息全部检索出来出来 选择检索工具选择检索工具 确定检索词、思索检索词之间的关系、检确定检索词、思索检索词之间的关系、检索式索式 不同的检索策略得到的结果也不同不同的检索策略得到的结果也不同 查全率查全率 查准率查准率 查全率=(检索出的相关信息量/系统中的相关信息总量)x100%查准率=(检索出的相关信息量/检索出的信息总量)x100%例:检索得到文献50篇,经浏览发现30篇可以借鉴,实际上系统中相关的文献有100篇,问查全率与查准率各是多少?请查找一段音乐