1、1& 如何使用网络数据库或电子资源?& 如何获取原文?& 我可以使用的免费资源有哪些?& 如何科学、合理地确定检索词、检索式? 2 这门课的目的(Purpose)是什么 目的:系统了解和较为熟练地掌握各类网络数据库的检索、浏览和下载方法。 解决的问题 信息的选择 信息的检索3 课 程 内 容 第一讲 文献检索基础知识和理论 第二讲 中外文专业检索系统和数据库 第三讲 特种文献检索 第四讲 网络信息资源利用4 参考教材参考教材1赖茂生,徐克敏等 科技文献检索 1994 G252/36 重点:信息检索基础知识和原理、手工检索。2赖茂生,王延飞等 计算机情报检索 1996 G354/128 重点:计
2、算机检索基础知识和原理。3张惠惠等 情报联机检索 1993 G354/106 重点:详细介绍世界著名联机检索系统Dialog、 ESA/IRS、 ORBIT、 STN 等。4 4肖珑、张春红等肖珑、张春红等 数字信息资源的检索与利用数字信息资源的检索与利用 2003 2003 (新)(新) 重点:详细介绍国内外重要检索系统及专业数据库的网络版使用方法重点:详细介绍国内外重要检索系统及专业数据库的网络版使用方法及网络信息资源(主要学术站点)的利用。及网络信息资源(主要学术站点)的利用。5. 邓要武、王星华 科技信息检索 2001 G354.2/435 第一讲 文献检索基础知识和理论 第一节 信息
3、检索基本概念 第二节 科技文献类型与识别 第三节 文献检索工具 第四节 文献检索的方法和途径 第五节 计算机检索基础知识 第六节 计算机检索技术 本讲要点:本讲要点:信息检索、文献检索、计算机检索的基本概念和原理,各出版类型文献的特点,检索工具的类型和作用,计算机检索技术。 6第一节信息检索基本概念第一节信息检索基本概念 一、信息、知识、文献的概念一、信息、知识、文献的概念 1. 信息 ( information ): 信息是事物发出的体现它存在和运动状态的信号和消息。是物质的一种普遍属性,是生物以及具有自动控制系统的机器,通过感觉器官和相应的设备与外界进行交换的一切内容。 2. 知识: 知识
4、是信息的一部分,是一种特定的人类信息。知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。 3. 文献(document): 记录有知识和信息的一切载体。由四要素组成:所记录的知识和信息、记录知识和信息的符号图像、用于记录知识和信息的物质载体、记录的方式或手段。7二、信息检索定义二、信息检索定义 广义的信息检索: 是指将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索” 。 狭义的信息检索: 指该过程的后半部分,即从信息集合中找出所需要的信息的过程, 相当于人们通常所说的信息查寻。三、信息检索的本质三、信息检索的本质
5、是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。用户根据检索需求,对一定的信息集合采用一定的技术手段,根据一定的线索与准则找出相关的信息。 8 三、检索方式三、检索方式 1.1. 根据信息的存储媒体和检索技术手段的不同根据信息的存储媒体和检索技术手段的不同, , 信息检索可分为:信息检索可分为: 手工检索:手工检索:通常使用的是一些印刷载体的工具书和检索期刊,检索过程由人脑和手翻书刊的配合来完成的,匹配是人脑的思考、比较和选择。 计算机检索:计算机检索: 使用的是检索系统。系统包括计算机设备、终端、通信设施、数据库和检索、应用软件等。 2. 2. 根据检索对象形式的不同根据
6、检索对象形式的不同, , 信息检索可分为信息检索可分为: : 文献检索文献检索: : 凡以文献(包括文摘、题录或全文)为检索对象的, 是一种相关检索,不直接解答用户所提出的技术问题本身,只提供与之相关的文献供用户参考。 数据或事实检索数据或事实检索: : 凡以数据或事实为检索对象的, 是一种确定性检索, 直接回答用户提出的技术问题,提供用户所需要的确切数据或事实。检索结果一般是确定性的有或无,对或错。9 传统的图书馆是专用于典藏书籍的处所,其收藏的主要是纸本文献。随着科学技术的迅速发展,现代的记录形式和出版方式有了很大变化,“图书”这个概念已经不能概括当前所有的出版物。今天,人们将数据、期刊、
7、资料等出版物统称为“文献”,图书馆文献资源类型的划分标准纷繁复杂,这里主要介绍三种划分方法 。 1. 根据文献的载体形式划分 2. 根据文献的编辑出版形式划分 3. 按文献的结构等级(文献的加工程度)划分一、文献资源类型一、文献资源类型第二节第二节 科技文献类型与识别科技文献类型与识别101. 根据文献的载体形式划分根据文献的载体形式划分印刷型印刷型缩微型缩微型机读型机读型视听型视听型图图 书书连续出版物连续出版物资资 料料缩微平片缩微平片缩微胶卷缩微胶卷缩微胶片缩微胶片磁带、磁盘磁带、磁盘光光 盘盘联机网络版联机网络版录音带、录像带录音带、录像带唱片、幻灯片唱片、幻灯片电影胶卷电影胶卷11
8、例:例:OCLCOCLC 122. 根据文献的编辑出版形式划分根据文献的编辑出版形式划分图图 书书连续出版物连续出版物特种文献特种文献普通图书普通图书(book)工具书工具书(gjs)期刊型书籍期刊型书籍报报 纸纸期期 刊刊科技报告科技报告专利文献专利文献学位论文学位论文标准规范标准规范政府出版物政府出版物产品资料产品资料会议文献会议文献131. 图书图书 ( book ) ISBN定义:定义:指内容比较成熟、资料比较系统、有完整定型的装祯形式的出版物。格式格式:著者、书名MM、版本(第1版不标注)、出版地、出版者、出版年、引文所在的起始或起止页码。 【例】翟婉明. 车辆-轨道耦合动力学M.
9、北京:中国铁道出版社, 1997. 74-80. (fenlei) 2. 期刊期刊 ( journal、 periodical ) ISSN定义定义:一种以印刷形式或其他形式逐次刊行,通常有数字或年月顺序编号,并打算无限期地连续出版下去的出版物。期刊一般都有固定的刊名。格式格式:著者、题(篇)名JJ、刊名、出版年、卷号(期号)、引文所在的起始或起止页码。【例】史峰,李致中.铁路车流路径的优选算法JJ.铁道学报,1993,15(3):70. .14 工具书概述工具书概述一、概念 人们根据一定的目的全面系统地搜集某一方面的有关资料,经过筛选、加工整理、概括、浓缩等手段,用一定的编排方法加以组织编排
10、,专供查考问题和检索文献线索的一种特种图书。二、特性 1.知识的密集性 2.知识的价值性 3.知识的有序性 4.检索性三、根据编制特点和功能分类 1. 字典、辞典; 2. 百科全书;中国大百科全书、不列颠百科全书 3. 年鉴、手册、名录;上海经济年鉴 4. 年表、历表;中国历史纪年表 (fenlei)153. 科技报告科技报告 ( report、 technical report )定义定义:是科学技术工作者围绕某个课题研究所取得的成果的正式报告,或对某个课题研究过程中各阶段进展情况的实际记录。其中绝大多数涉及高、精、尖科学研究和技术设计及其阶段进展情况,客观地反映科研过程中的经验教训。格式格
11、式:著者、报告题名RR、出版地、出版者、出版年、页码。 【例】朱家荷,韩调.铁路区间通过能力计算方法的研究R.北京:铁道部科学研究院运输及经济研究所,1989.34. 4. 会议文献会议文献 ( conference、 paper )定义定义:会议文献是在各种学术、专题会议上发表的论文和报告。会议文献多数以会议录的形式出现。是专业领域最新研究成果报道的一种主要方式。格式格式:文献著者、题(篇)名AA、论文集名CC、出版地、出版者、出版年、引文所在起始或起止页码。【例】张玉心.重载货车高摩擦系数合成闸瓦的研制和应用A.见:中国铁道学会编译.国际重载运输协会制动专题讨论会论文集C.北京:中国铁道学
12、会,1988.242. 165. 专利文献专利文献 ( patent document )定义定义:发明人或专利权人申请专利时向专利局所呈交的一份详细说明发明的目的、构成及效果的书面技术文件,经专利局审查,公开出版或授权后的文献。广义包括专利申请书、专利说明书、专利公报、专利检索工具以及与专利有关的一切资料。格式格式:专利所有者、题名PP、专利国别、专利号、出版日期。【例】曾德超.常速高速通用优化犁P.中国专利:85203720.1,1986-11-13. 6. 标准文献标准文献 ( standard、 specification、 requirement )定义定义:指经过公认的权威当局批准
13、的以文件形式表达出的统一规定,包括技术标准、技术规格和技术规则等文献的总称。 格式格式:标准代号(标准顺序号-发布年)、标准名称SS。 【例】 GB J111-87,铁路工程抗震设计规范S. 177. 学位论文学位论文 ( dissertation、 thesis )定义定义:高等学校或研究院所的学生在导师指导下从事某一学术课题的研究,为获得某种学位而撰写的学术性较强的研究论文。格式格式:著者、题(篇)名DD、保存地点、保存单位、年份、引文所在起始或起止页码。 【例】党建武.神经网络方法求解组合优化问题的研究D.成都:西南交通大学,1996.20-25. 8. 政府出版物政府出版物 ( gov
14、ernment document ) 政府出版物是各国政府部门及其所属机构发表、出版的文件,其内容广泛,概括可以分为行政性文献和科技文献两大类。9. 产品资料、技术档案等产品资料、技术档案等(product literature、technical record) 各厂商为推销产品而印发的商业宣传品,包括产品样本、产品目录、产品说明书、厂商介绍、技术座谈资料等。 企业或科研机构在技术工作中形成的、有一定的工程对象的技术文件。如任务书、协议书、技术经济指标和审批文件、研究计划方案大纲和技术措施等。18 各类型出版物特点比较各类型出版物特点比较 内 容 新颖性: 科技报告、专利、期刊、会议文献、图
15、书 信息报道速度: 科技报告、期刊、会议文献、专利 流通范围广度: 期刊、图书、会议文献、专利、政府出版物 发 行 量: 期刊、专利、图书、会议文献 具有法 律 性: 专利、标准 易于获取程度: 期刊、图书、会议文献、专利、标准、政府出版 物、学位论文、科技报告193. 3. 按文献的结构等级按文献的结构等级( (文献的加工程度文献的加工程度) )划分划分 按文献中信息量的变化情况来划分,可分成三个结构等级。 1. 一次文献(primary document) 即原始文献。是指人们以自己的经验和研究成果为依据而形成的文献,不管文献以何种物质形式出现。如期刊论文、会议论文、科技报告、专利说明书、
16、标准等,一次文献的信息比较具体、详尽和系统化。 维普维普中文科技期刊数据库中文科技期刊数据库、Elsevier Science Elsevier Science 、UMIUMI博硕士论文全文库博硕士论文全文库 2. 二次文献(secondary document) 是通过对大量分散、无序的一次文献进行加工、提炼、压缩和组织,成为系统的、便于查找一次文献的工具。如书目、索引、文摘书目、索引、文摘等检索工具即是二次文献。二次文献的重要性在于它可以提供一次文献的线索。 工程索引工程索引 Ei Ei 、ISTP ISTP 、中国学术期刊数据库(题录文摘版)、中国学术期刊数据库(题录文摘版) 3. 三次
17、文献(tertiary document) 在利用二次文献的基础上,对检索到的一次文献进行广泛、深入的分析研究之后,再次加工出来的成果。如综述、述评、进展等。 百科全书、年鉴百科全书、年鉴20 二、二、科技文献出版类型的辩识科技文献出版类型的辩识 为了获取原始文献,应学会辨识科技论文后所附参考文献的不同出版类型。一般著录项目都包括篇名、著者姓名、文献出处,可以从文献出处识别各种文献的出版类型。 (1)图 书: 有出版社名称和出版年份。 (2)期 刊: 包括刊名、卷、期、页码、月年。 (3)会议文献: 包括会议名称、时间、地址、会议录出版单位及其地址、出版年份、会议录提供单位及其地址、页码。 (
18、4)专利文献: 有专利国家名称或国家代号、专利号,有的还有出版时间。 (5)科技报告: 最明显是出处中有报告号,有的有出版时间。 (6)学位论文: 一般著录学位和学位论文的名称, 颁发的单位及地址、时间。 (7)标准文献: 一般有标准编号。212223第三节第三节 文献检索工具的基本概念文献检索工具的基本概念一检索工具定义一检索工具定义 定义:用来报道,存储和查找文献的印刷型出版物或数据库系统。文献检索工具是指对体积庞大、无序的一次文献经过加工压缩而成体积较小的二次文献,再根据一定的原理和规则编制而成的工具。可满足各种用户的不同层次的检索需求。24二、检索工具的类型二、检索工具的类型 检索工具
19、可以依据不同的标准来划分,根据著录内容可划分为以下四种: 1.目录目录 ( catalog ) 目录是对一批相关文献外部特征的揭示和报道。通常以一个完整的出版或收藏单位为著录的基本单位来报道和记录文献。只记录文献外部特征(如名称,著者,出版事项等)。目录一般按分类或字顺编排,主要供人们了解出版或收藏机构是否拥有所需图书、期刊等出版物。 目录类型:目录类型: 馆藏目录:馆藏目录:反映一个图书馆文献收藏情况的目录。 中国国家图书馆中国国家图书馆 http:/ 联合目录:联合目录:反映一个地区或一个系统甚至全国或世界范围的图书馆、信息服务机构文献收藏情况的一种统一目录。 全国中西文期刊联合目录全国中
20、西文期刊联合目录http:/159.226.100.50/catalog/default.htm CALIS联机公共数据库联机公共数据库 http:/ ,Online Public Access Catalog )等。 目录示例:目录示例: 可参照图书馆主页熟悉了解。可参照图书馆主页熟悉了解。 http:/202.112.150.129/index.htm OPAC :是指以计算机编码形式存贮在计算机系统内,供读者通过终端设备进行联机检索的图书馆目录,即书目数据库的一种形式。26 2. 题录题录 ( bibliography 、bibliographic、citation ) 题录是单篇文献外
21、表特征的揭示和报导,即对某一文献外部特征的描述,由一组著录项目构成一条文献记录。 题录的著录项目一般有著者,篇名及出处著者,篇名及出处等,常以一个内容上独立的文献单元(如一篇文章,图书中的一部分,有时也可以是整本出版物)为基本著录单位。题录在揭示文献内容的深度方面,比目录深入,但又比文摘简单。 示例1:27题录示例2:Ei CPX Web (工程索引网络版记录题 录显示格式)28文摘示例文摘示例1: 3. 文摘文摘 ( abstract ) 文摘是指对一份文献(或称一个文献单元)的内容所做的简略、准确的描述,文摘的著录项目除了著者,篇名及出处著者,篇名及出处等外,还有表示文献内容特征的摘要摘要
22、。29文摘示例2:Ei CPX Web (工程索引网络版记录文摘显示格式)30 4. 索引索引 ( index ) 索引是对一组信息集合的有系统的指引。索引是一种附属性的检索工具,通常称为辅助索引。索引具有便于检索,揭示事物比较深入、全面、明细等方面的优点。 索引的用途在文献检索中体现得极为突出,科技文献数量庞大、内容复杂多样,使用面广且频繁。虽然已将其中绝大部分加工压缩成文摘或题录等。但如果没索引,查检起来还是很不方便。严格地说,没有索引的检索工具不能称为完善的检索工具。 最常用的索引是主题索引、分类索引和著者索引等。31索引示例:Ei CPX Web (工程索引网络版索引显示格式)32三、
23、网络信息检索工具三、网络信息检索工具 搜索引擎搜索引擎( Search Engine ) 定义:是一些在网页中主动搜索信息并将其自动索引的Web网站,与普通网站不同的是,搜索引擎网站的主要资源是它的索引数据库,收集了全世界成百万上千万个网站和网页的信息,存储在可供检索的大型服务器中,建立索引和目录服务。 主要功能:是为人们搜索Internet上信息并提供获得所需信息的途径。 “搜索引擎”也就是指充分利用各种网络自动搜索技术,对网络信息资源提供强有力检索的工具。 常用搜索引擎介绍与链接: 1.OCLC中的WorldCat 2.EI中的Sircus 3.百度搜索 http:/ 4.http:/33
24、第四节第四节 文献检索的方法和途径文献检索的方法和途径一一、检索方法检索方法 文献检索的方法(查找文献的方法)大致可以归纳为三种: 1.1.直接法:直接法:即直接利用文献检索工具或检索系统来查找文献的方法,是一种常规的科学检索方法。分为顺查法、倒查法和抽查法。 2.2.追溯法:追溯法:又称引文法,是一种跟踪查找法。是利用文献(尤其是评述性论文或有关专著) 后面所附的参考文献,进行逐一地追踪查找原文。(例如:SCI) 3. 3.综合法:综合法:1、2两种方法的综合。利用检索工具或检索系统进行常规检索,再利用文献后所附参考文献进行追溯检索,分期分段交替使用这两种方法,直到满足要求为止。可以查得较全
25、面较准确,尤其适用于那些过去年代内文献较少的课题。34二检索途径二检索途径 文献检索的途径主要可以分为以下几种: 1. 内容途径 文献检索一般是根据课题内容查找有关的文献信息,因此该途径是主要的检索途径。内容途径又可分为以下两种检索途径: 分类途径分类途径 是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一般检索系统均提供数据库所使用的分类表的分类号索引。 主题途径主题途径 通过文献信息的内容主题进行检索的途径。计算机检索主要是主题检索,检索系统可提供多个检索点。分类语言分类语言 分类表分类表 分类语言分类语言 是一种按学科范畴和体系来划分事物的检索语言,以分类表的是一种按学科范
26、畴和体系来划分事物的检索语言,以分类表的形式体现。它展示了学科的系统性,反映了事物的从属、派生关系,从上至下,形式体现。它展示了学科的系统性,反映了事物的从属、派生关系,从上至下,从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达各种概念,构成一个完整的分类类目表。各种概念,构成一个完整的分类类目表。 如如: :中国图书馆分类法中国图书馆分类法35中图法中图法的分类原则的分类原则 根据当前社会科学和自然科学所包括的学科多、发展快等特点,按图书学科内容作为分类的主要标准与依据。将图书在五个基本部类的基础上分为2
27、2个大类,分别以拉丁字母AZ表示。36示例:中图法社会科学自然科学37 索书号索书号: 是识别一种图书的唯一标识,图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书次号与分类号一起共同构成索书号。图书馆的文献就是按照索书号的顺序排架管理的。 中文书索书号如:TP312/ 39, 西文书索书号如:O6/ FC5638 2. 著者途径 是根据已知文献著者姓名来查找文献的途径。文献著者包括个人著者和团体著者。一般检索系统都有著者(个人)索引,有的还有团体著者(机构)索引,均按字顺编排,其下为记录个数或文摘号。在利用内容途径查文献有困
28、难时,如一些新近发展起来的学科或技术,往往难于确定类目或检索词,使用著者途径查找文献就显出其优越性,但该方法不能满足全面检索某一课题文献的需要。 3. 名称途径 根据文献的名称查找文献的途径。一般多用于查找图书、期刊、会议名称。常用于目录性检索工具/系统,如书名目录期刊目录期刊联合目录等。 4. 序号途径 以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。 5. 其他途径 如分子式、元素符号、数字等。3940核心期刊:核心期刊: http:/ 由IP地址限制,专线访问,免费使用
29、并发用户( 3-15人 )注意:严禁过量下载注意:严禁过量下载即在一定时间内集中、即在一定时间内集中、批量下载全文数量批量下载全文数量超过超过50篇以上篇以上 电子资源知识产权第五节第五节 计算机检索基础知识计算机检索基础知识42二、数据库的类型二、数据库的类型 目前在计算机检索领域中数据库种类繁多,为便于学习,归纳为文献数据库和非文献数据库两大类。 文献数据库包括:题录文摘数据库、全文数据库; 非文献数据库包括:事实数据库、数值数据库等。 1. 题录、文摘数据库题录、文摘数据库 (bibliographic database): 是一种二次文献二次文献数据库,主要存贮相关主题领域的各类文献资
30、料的书目信息,包括机读版的文摘、题录、目录、索引等。用户可从大量文献记录中筛选出有参考价值的文献源,并依据记录提供的来源指示获取一次文献。如:Ei CPX Web(工程索(工程索引)、引)、中文期刊数据库(文摘题录版)中文期刊数据库(文摘题录版)等。43 2.全文数据库全文数据库(full-text database): 是将一个完整的信息源的全部内容转化为计算机可识别和处理的信息单元而形成的数据集合,即机读化的一次文献。用户可直接检索出原始文献,也可检索全文中的段、节、章等内容。 如如:中国学术期刊数据库中国学术期刊数据库、维普中文科技期刊(全文版)维普中文科技期刊(全文版)等。 3.事实数
31、据库事实数据库 (fact database): 这类数据库能直接向用户提供可用的数据 (包括文字、图形、图象、声音、计算机程序等)。如:百科全书、辞典、手册、指南、地图集、人名录、企事业名录、计算机程序、音乐等。 如:如:中经专网(教育版)、中国资讯行、万方中经专网(教育版)、中国资讯行、万方。 4.数值数据库数值数据库(numeric database): 这类数据库主要提供来自原始文献的统计数据、调查数据或经过处理的各种数据、数值表格。 如:气象数据、地质资料、化学或物理化合物特性的文献数据、财务数据、如:气象数据、地质资料、化学或物理化合物特性的文献数据、财务数据、人口统计资料、市场调
32、研数据等。人口统计资料、市场调研数据等。44三、三、 数据库检索方式数据库检索方式 1. 联机数据库 联机检索是用户利用计算机终端设备,通过通信线路与联机信息检索中心的中央计算机联机进行检索。联机检索系统由用户检索终端、通信网络和联机信息检索中心组成。联机检索允许用户采用人机对话的交互方式直接访问检索系统和数据库,检索是在线实时进行的。如:Dialog国际联机检索系统国际联机检索系统。 2. 光盘数据库 光盘检索系统的基本构成包括微机、CD-ROM驱动器、软件(检索软件和系统软件)。 光盘检索系统可单用户检索,也可将CD-ROM驱动器接入局域网,如通过图书馆网或校园网连接多个用户终端,用服务器
33、管理运行一组光盘数据库,组成多用户CD-ROM网络。 如:INSPEC (19892000) 3. 网络数据库 通过WWW访问数据库站点,确认合法用户和口令或IP地址后,进入检索界面进行检索。该种检索方式不受时空限制,合法用户可在任何地方适时检索。45三、词位置检索三、词位置检索(positional operator) 位置运算符位置运算符 利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 (Full text searching)。 所谓全文检索是利用文献记录中任
34、何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。 为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 *全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: 规定的位置算符不同;规定的位置算符不同; 位置算符的职能和使用范围不同。位置算符的职能和使用范围不同。 下面介绍几种数据库经常使用的位置运算符:下面介绍几种数据库经常使用的位置运算符:46
35、 检索效果:检索效果: 查全率:查全率:检索过程中,计算机输出的相关文献数与计算机数据库中相关文献的总数之比。 检 出 相 关 文 献 量 100% 文献库内相关文献总量 查准率:查准率:检索过程中,计算机输出的相关文献数与输出的文献总数之比。 检 出 相 关 文 献 量 100% 检 出 文 献 总 量 实验证明: 在查全率和查准率之间存在着相反的相互依赖关系如果提高输出的查全率,就会降低其查准率,反之亦然。47 第六节第六节 计算机检索技术计算机检索技术一、布尔逻辑检索一、布尔逻辑检索 在计算机文献检索中,用户的检索需求是通过检索提问式检索提问式表达的,逻辑算符在检索提问式中起着逻辑组配作
36、用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。 布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运算符AND/AND/* *(与)、(与)、OR/+OR/+(或)、(或)、NOT/NOT/(非)(非)。 布尔逻辑检索: 即运用布尔逻辑算符布尔逻辑算符对检索词检索词进行逻辑组配,表达两个概念之间的逻辑关系。 1. AND 或 * * 算符 实现逻辑“与与”组配 检索时,命中信息同时含有两个概念,专指性强。如:logistics AND e-commerce traffic AND control48 2. OR 或 +
37、算符 实现逻辑“或或”组配 3. NOT 或 算符 实现逻辑“非非”组配检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索范围比AND扩大。如:rapid transit OR light rail OR subways railway OR railroad命中信息包含逻辑A、不包含逻辑B或同时有A和B的,排除了不需要的检索词。如:fruit NOT apple windows NOT Microsoft49二、截词检索二、截词检索 (truncation) 截词符截词符 截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的
38、记录,系统都为命中。 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。 按 截 词 位 置 分: 有前截断、后截断、中截断; 按截词的字符数量分:有非限制截断、限制截断。 * 表示截词的截断符号,各检索系统有不同的规定,没有统一标准。50 1. 1. 后截断后截断 后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。 非限制截断:是在检索词词干后面加一个截词符,表示不
39、限制词尾可变化的字符位数,即查找词干相同的所有词。 例: comput? 表示允许其后可带有任何字符且数量不限,相当于查找compute、 computed、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally 等词。 * * * *不宜将词截得过短,否则容易造成误检。 限制截断 :是在检索词词干后面加若干个截词符,表示限制可变化的字符数。 例:fib? 相当于查找 fiber 或 fibre (Ei
40、 Compendex Plus) librar? 相当于Libraries,librarian,library educat? 相当于Educator,educated 51 2. 2. 中截断中截断 (通配符或屏蔽) 是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。 例:organi#ation, 可检索到包含organization和organisation的记录。 一个?代表零个或任意个字符。 例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。 一个? 和数字,其中的数字代表可替
41、换的字符数。 例:colo?1r, 只能检索到包含colour的记录。52 1.W - With W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。 例: intelligent (W) robot? (Ei Compendex Plus) Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。 例: intelligent w1 robot* (OCLC FirstSearch) 2. N - Near N算符是
42、Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。 例: intelligent NEAR robot* ( Ei CPX Web) Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。 例: intelligent N1 robot* (OCLC FirstSearch ) 3. Adj - adjacency 邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science
43、 SDOS) 5354四、字段检索四、字段检索 (range searching) 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。 55 注意:注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。 如题名字段:Ei CPX Web 中, 用 highway transport* within TI 来表示; OCLC Firstsearch 中,用 TI: highway transport* 来表示。 在进行字段检索时,为了避免出现检索误
44、差, 应先看一下该数据库的使用指南或说明。 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语言 TI 题名 AB 文摘 AU 著者姓名 AF 著者机构名称 ST 连续出版物名称 PN 出版时间56构造检索提问式示例构造检索提问式示例: 课题:数字化图书馆的文献检索服务 检索概念分析: document retrieval 并列概念 document delivery document delivery system digital library 同义词 virtual library electronic library 检索提问式: (documen
45、t W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*) record found : 11 (OCLC Firstsearch)57常用名词术语常用名词术语ISBN: 国际标准书号(International Standard Book Number)的简称,是专门为识别图书等文献而设计的国际编号。ISO于1972年颁布了ISBN国际标准,并在西柏林普鲁士图书馆设立了实施该
46、标准的管理机构国际ISBN中心。现在,采用ISBN编码系统的出版物有:图书、小册子、缩微出版物、盲文印刷品等。ISBN由10位数字组成,分四个部分;在联机书目中,ISBN可以作为一个检索字段,为用户增加了一种检索途径。 例如:例如:ISBN 7- 5611- 0133- 3 组号 出版者号 书序号 检验码。 (国家、地区、语言的代号)ISSN: 国际标准连续出版物号(International Standard Serial Number)的简称,是ISDS(国际连续出版物数据系统)国际中心为在该系统登记的连续出版物分配的号码。采用ISSN编码系统的出版物有:期刊、会议录等。ISSN由8位数字
47、组成,分两个部分;在联机书目中,ISSN可以作为一个检索字段,为用户增加了一种检索途径。 例如:例如:ISSN 1002 -1965 序号 检验码。ISRC: 国际标准音像制品编码(International Standard Recording Code)的简称。它是音像制品的国际性的唯一标识编码。目前采用ISRC编码的出版物包括唱片、录音带、录像带、激光视盘、激光唱片等。ISRC的实施必将对音像制品的出版发行、版权保护、信息交换和市场管理产生积极的影响。ISRC在联机目录中也可以作为用户的一个检索人口。 ISRC由国家码、出版者码、录制年码、记录码和记录项码五个数据段12个字符组成。 BACK