1、2022-7-27第2章 计算机信息检索原理1文献检索 任课教师 蒋永新 办公室:图书馆207室 电话:66132072 2022-7-27第2章 计算机信息检索原理2教学日历周内容 地点网上作业提交1机检原理DJ2042中国期刊网DJ2043EBSCO数据库DJ2044数据库实习C316,C318,C321,C3235文献信息概论DJ204提交2、3次作业6网络信息检索DJ2047百度,iPAC实习C316,C318,C321,C3239文献检索概论DJ204提交第1,4,5次作业10文献整理DJ20411机考DJ2042022-7-27第2章 计算机信息检索原理31.1 信息时代与文献课(
2、p.1-3)文献课是知识时代培养学生终身所需的信息意识与获取文献信息能力的重要课程,是一门科学方法课。文献课对学生不断吸取新知识,改善知识结构,有着重要的意义。2022-7-27第2章 计算机信息检索原理41.1 信息时代与文献课在社会信息化的进程中,文献信息检索的意义日益变得重要:文献信息数量激增。知识的更新速度在加快,信息知识的有效期在缩短。信息获取成为一门专门的技术。2022-7-27第2章 计算机信息检索原理51.1 信息时代与文献课 教材:人文社会科学信息检索教程 蒋永新 鲍国海等编著 2003年上海大学版2022-7-27第2章 计算机信息检索原理61.1 信息时代与文献课课程的主
3、要内容为:文献信息概论;专业信息源及文献信息的手工检索原理;计算机信息检索原理;综合性光盘和网络数据库及其使用方法;互联网信息的检索和利用2022-7-27第2章 计算机信息检索原理71.1 信息时代与文献课文献检索课的两个基本要求:要求学生掌握主要检索工具的使用方法,能够选择数据库、制定检索策略、分析检索结果;能够独立地完成检索课题;掌握获取原始文献的主要方法。要求学生培养信息意识。具体来说是要求形成信息就是价值、就是效益、就是生存权的自觉意识。2022-7-27第2章 计算机信息检索原理81.1 信息时代与文献课 平时练习作业占总分30%其中 文献类型识别 10 中国期刊网作业 25%EB
4、SCO作业 30%OPAC 20%搜索引擎(百度)15%出勤(缺勤一次扣除平时总分的10%)期末考试(机考)安排在第10周,成绩占总分70%2022-7-27第2章 计算机信息检索原理9网络课件的注册登陆和使用 文献课网络课件(在互联网终端上)网址:http:/202.120.121.238:2048 用自己学号和身份证号码登录,注意教师和班级的选择(周一7、8节,DJ204教室)网络课件用于预习复习,特别用于通过练习题目,掌握重点知识 与教师的联系:教学留言版2022-7-27第2章 计算机信息检索原理10第2章 信息检索原理2022-7-27第2章 计算机信息检索原理11第2章 信息检索原
5、理本课要点:文献信息数据库的类型和结构 计算机信息检索的基本步骤 检索概念的分析方法和检索词的处理方法 检索策略调整的基本方法2022-7-27第2章 计算机信息检索原理12第2章 信息检索原理 本章要求自学的内容:信息检索原理,文献信息检索的类型,检索效果评价 信息检索系统的构成,印刷型信息检索系统的类型,信息检索语言2022-7-27第2章 计算机信息检索原理132.1信息检索的基本概念 信息检索是指从任何信息集合中查找所需信息的活动、过程与方法。2022-7-27第2章 计算机信息检索原理142.1信息检索的基本概念文献信息的内外部特征 与文献信息主题内容密切相关的信息称为文献信息的内容
6、特征。文献信息内容特征主要有各种形式的主题词和分类号。与文献信息主题内容没有关系或关系不大的信息称为文献信息的外表特征,例如著者、著者单位、期刊名称、专利说明书的专利号、科技报告的报告号等。2022-7-27第2章 计算机信息检索原理152.2.3 计算机信息数据系统(p.25)文献信息数据库的定义和种类 数据库的构成 文档、记录、字段 数据库检索原理2022-7-27第2章 计算机信息检索原理162.2.3 文献信息数据库原理 定义(p.25)数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合。2022-7-27第2章 计算机信息检索原理172.2.
7、3 数据库构成 从使用者观点观察,数据库主要由“文档记录字段”三个层次构成。文档 记录字段2022-7-27第2章 计算机信息检索原理182.2.3 数据库构成:文档 从数据库的内部结构来看,文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按照记录号顺序组成的数据集合,是数据库的主体、正文。倒排文档是按照一定的属性顺序,对顺排文档的内容,重新排列组成的数据集合,对数据库正文起索引作用。2022-7-27第2章 计算机信息检索原理192.2.3 数据库构成:文档记录号 标识词11 计算机,软件,安全12 软件,网络13 网络,安全,软件 标识
8、词 记录号安全 11,13 计算机 11软件 11,12,13网络 12,13 标识词 记录数安全 2 计算机 1软件 3网络 2 主文档倒排文档索引引词典倒排文档 2022-7-27第2章 计算机信息检索原理202.2.3 数据库构成:记录 记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。2022-7-27第2章 计算机信息检索原理212.2.3 数据库构成-记录示例(p.25)Title:The economics of fleet management computing.Subje
9、ct(s):CLIENT/server computingSource:American City&County,Jul96,Vol.111 Issue 8,p38,2p,2 diagramsAuthor(s):Paulits,JimAbstract:Discusses the advantages of using client/server computing systems in managing fleets.Capabilities and limitations;Cost effectiveness.AN:9608140975ISSN:0149-337XDatabase:Acade
10、mic Search Elite-2022-7-27第2章 计算机信息检索原理222.2.3 数据库构成:字段(p.26)字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。2022-7-27第2章 计算机信息检索原理232.2.3 数据库构成:字段基 本 字 段中文段码名称英文段码全称英文段码简称题目TitleTI文摘AbstractAB叙词DescriptorDE标识词IdentifierID2022-7-27第2章 计算机信息检索原理242.2.3 数据库构成:字段辅 助 字 段中文段码名称 英文段码全称英文段码简称
11、记录号Document No.DN作者AuthorAU作者单位Corporation SourceCS期刊名称JournalJN出版年份Publishing yearPY出版国CountryCO文献性质Treatment codeTR语种LanguageLA2022-7-27第2章 计算机信息检索原理252.3 文献信息检索方法(p.26-p.27)按照检索工具使用与否区分的类型 直接检索法:直接从报刊杂志中通过浏览的方法从中获取所需信息的一种方法,是一种获得最新信息的方法。但很难快、准、全地查获所需的信息。间接检索法:通过检索工具的指引进行查找,获取所需信息的一种方法,效率高,效果好。202
12、2-7-27第2章 计算机信息检索原理262.3 文献信息检索方法(p.26-p.27)按照使用的检索工具区分的类型 追溯法:是利用已有的文献后面所附的参考文献追查原文,从而获得一批相关文献信息的查找方法。常用法:是利用目录、题录、文摘或数据库等各种检索工具来查找文献的方法 综合法:综合使用追溯法和常用法两种方法 2022-7-27第2章 计算机信息检索原理272.3.2 文献信息的一般检索步骤 明确检索要求,分析课题概念 选择需要使用的数据库 构成检索策略 根据检索结果调整检索策略 输出检索结果2022-7-27第2章 计算机信息检索原理282.3.2 文献信息的一般检索步骤1.明确检索要求
13、和检索 搞清楚本课题属于什么学科,所需情报的文献类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。2022-7-27第2章 计算机信息检索原理292.3.2 文献信息的一般检索步骤2.选择数据库 按照课题的检索要求和目的,选择收录文献种类、专业覆盖面、年代跨度对口的数据库;当需要查找最新文献信息时,选择数据更新周期短的数据库;当还需要获取原文时,选取原文获取较容易的数据库;2022-7-27第2章 计算机信息检索原理302.3.2 文献信息的一般检索步骤2.数据库的选择2022-7-27第2章 计算机信息检索原理312.3.2 文献信息的一般检索步骤2.数据库的选择文科常用的
14、文献数据库 中文类文科常用数据库:中国期刊网全文数据库,文理各科 维普期刊网全文数据库,文理各科 社科报刊数据库文摘数据库,文科 人大复印资料数据库全文数据库,文科 外文类文科常用数据库:EBSCO文摘/全文数据库,文科为主 Kluwer全文数据库,文理各科2022-7-27第2章 计算机信息检索原理322.3.2 文献信息的一般检索步骤 3.确定检索途径 4.记录和阅读文献线索 5.索取原始文献 p.302022-7-27第2章 计算机信息检索原理332.4 检索概念的分析和扩展方法(p.30)1课题分析方法2.课题背景知识的获取方法2022-7-27第2章 计算机信息检索原理342.4 检
15、索概念的分析和扩展方法(p.32)1.基于同物异名的名称扩展法 (1)寻找同一事物的学名和俗名、商品名和代号等 如:贸易与商业,便携式录音机和walkman,涉外与对外,刊物与杂志,(2)寻找同一事物的简称、全称、音译和意译等 如:外语与外国语言,world wide web、WWW、互联网与因特网、科技与科学技术,培养与教育2022-7-27第2章 计算机信息检索原理352.4 检索概念的分析和扩展方法1.基于同物异名的名称扩展法 (3)寻找同一事物名称的近义词和反义词 如:教学与培训、教育,研究与分析、比较、理论、变化,翻译与直译、意译,美术与艺术,英汉与汉英,否定与肯定(4)如果是英语,
16、寻找同一事物名词的单复数、不同词性、英美语的不同形式 如:cheque与check,colour和color,stock和share等 2022-7-27第2章 计算机信息检索原理362.4 检索概念的分析和扩展方法2.基于内容分析的概念扩展法 (1)上位概念扩展法,分析检索对象的学科归属。如:英语与外语,美术与艺术,上海图书馆与公共图书馆,词法与语法专利与知识产权、继承法与民法、唐诗与古诗、词法与语法等(2)下位概念扩展法,又称概念分析的树形展开法。如:英语外贸 应用文 英汉科技 翻译 书信 函电 公文 化学 机械 通信 口译 笔译 2022-7-27第2章 计算机信息检索原理372.4 检
17、索概念的分析和扩展方法2.基于内容分析的概念扩展法 (3)隐含概念扩展法 如:“投资管理”的显见主题是“投资管理”,隐含主题还有“投资法规”、“投资法律”。又如,“作家笔下的主人公特征比较”,隐含主题还有“文学作品”和“小说”。2022-7-27第2章 计算机信息检索原理382.3.3 检索概念分析和扩展方法3.基于检索结果的概念扩展法 对初步检索结果进行分析,往往能够得到与课题相关的新的检索概念,将这些概念经过重新组合,就可以达到扩展检索结果的目的。2022-7-27第2章 计算机信息检索原理392.6.2 计算机检索策略的构成方法1.布尔逻辑算符 或(OR)运算符 S1 1834 comp
18、any S2 2022 enterprise S3 3647 company OR enterprise使用于具有基本相同或近似概念的同义词、同族词之间 enterprisecompany2022-7-27第2章 计算机信息检索原理402.6.2 计算机检索策略的构成方法1.布尔逻辑算符 与(AND)运算符 WTO ChinaS1 12940 WTOS2 2173 ChinaS3 842 WTO AND China WTO AND China使用于需要组配不同概念的检索词之间 2022-7-27第2章 计算机信息检索原理412.6.2 计算机检索策略的构成方法1.布尔逻辑算符 非(NOT)运算
19、符 S1 110 PATENTS2 325 GERMANS3 108 PATENT NOT GERMAN PATENT NOT GERMAN使用于需要从某个概念中剔除另一个概念的场合 patent German2022-7-27第2章 计算机信息检索原理422.6.2 计算机检索策略的构成方法2.优先处理算符(p.41)?S A OR B (集合号为S1)?S C OR D (集合号为S2)?S S1 AND S2?S (A OR B)AND (C OR D)使用优先处理算符“()”2022-7-27第2章 计算机信息检索原理432.6.2 计算机检索策略的构成方法3.截词算符(p.41)当某
20、些英语检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语单词的单复数变化和英美不同拼写形式),可以采用截词符,或称通配符扩展检索词。无限截词:以任意词尾变化为特征 例如:manag*work?有限截词和屏蔽符:以单个字母变化为特征。例如:m?n moderni?ation2022-7-27第2章 计算机信息检索原理442.6.2 计算机检索策略的构成方法3.截词算符(p.41)一是截词符要紧接在词干后面,截词符和词干之间不能有空格。二是避免将检索词的词干截得过短,一般应在三个字母以上。三是截词应该使用得合理。一般不可能出现词尾变化的单词,例如management,protection等
21、,其后不必再使用截词。四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率,比如在对manage,managing,managed,management和manager作截词运算时,词干应使用“manag*”,而不应使用“man*”。2022-7-27第2章 计算机信息检索原理452.6.2 计算机检索策略的构成方法4.位置算符 指定检索词之间的距离和出现的顺序的算符 (W)算符两侧的检索词次序不能颠倒,两词之间不允许有其他的词或字母,但允许有空格或“,”或“-”号。(Wn)算符两侧的检索词之间最多允许插入n个词,两个检索词词序不允许颠倒。2022-7-27第2章 计算机信息检索原
22、理462.6.2 计算机检索策略的构成方法4.位置算符 (N)算符两侧的检索词必须紧密相连,两词之间不允许有其他的词或字母,但词之间次序可以颠倒。(Nn)算符两侧的检索词之间最多可插入n个单词,且这两个检索词的词序任意。2022-7-27第2章 计算机信息检索原理472.6.2 计算机检索策略的构成方法5.字段限制 字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率的场合。篇名 作者 刊名 主题词2022-7-27第2章 计算机信息检索原理482.6.3 检索策略的调整(p.43)输出篇数过多,原因可能是:选用了多义性的检索词;截词截得过短;输
23、入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。2022-7-27第2章 计算机信息检索原理492.6.3 检索策略的调整(p.43)输出篇数过少,原因可能是:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“与(AND)”算符。2022-7-27第2章 计算机信息检索原理502.6.3 检索策略的调整(p.43)需要扩大检索范围,提高检索结果查全率的,调整策略的方法有:减少“与(AND)”算符,增加同义词或同族相关词用逻辑或(OR)将它们连接起来;在词干相同的单词后使用截词符(?);去除已有的字段限制、位置算符限制(或者改用限制程度较小的位置算符)。2022-7-27第2章 计算机信息检索原理512.6.3 检索策略的调整(p.43)如果需要缩小检索范围,提高检索结果查准率的,调整策略的方法有:减少同义词或同族相关词;增加限制概念,用逻辑与(AND)将它们连接起来;使用字段限制,或者限制检索词在指定的基本字段出现,或者指定辅助字段,限制结果的文献类型、语种、出版国家;使用适当的位置算符;使用“非(NOT)”算符,排除无关概念。2022-7-27第2章 计算机信息检索原理52请提问题