1、现代信息检索主讲:华丹多吉第1章 信息检索基础n1.1 有关信息检索的一些概念n1.2信息检索的类型及特点n1.3信息检索的基本步骤 n1.4检索工具n1.5 检索语言n1.6 信息检索的发展趋势 1.1.1信息、文献、知识1.信息的定义、特征和分类2.信息的特征n(1)传递性n(2)时效性n(3)共享性n(4)客观性n其他的特性还有开发性、存储性、价值的不定性、变换性、可伪性等。信息的分类(1)以存在环境为依据分为:自然信息 生物信息 机器信息(自动控制系统)(人类)社会信息。(3)以信息的逻辑意义和利害关系划分:(4)按信息表现形式划分为:文字信息 图像信息 数值数据信息 语音信息2.知识
2、的定义和分类n知识的定义n知识的分类3.文献的定义和分类:n文献的定义n文献的分类n文献按存储载体可分为:n按出版方式,文献可分为:4.信息、文献、知识三者的关系:n三者之间的联系:(1)信息概念不仅包括人与人之间的消息的交换,而且还包括人机之间、机器与机器之间的消息交换,以及动、植物界信号的交换。(2)知识是人类通过加工吸收信息,对自然界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。1.1.2信息检索的定义和分类n信息检索:简单地说就是将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。n信息检索的类型,按检索手段分为:(
3、1)手工检索(简称手检):例:以前到图书馆使用卡片目录找书。(2)计算机检索(简称机检):又分为几个阶段:脱机信息检索、联机信息检索、光盘信息检索、网络信息检索。1.1.3 信息检索的几个技术指标n(1)检索的方便性n(2)收录全面性n(3)检索效率。检索效率主要用查全率和查准率两个指标来衡量。n(4)报导及时性1.2信息检索的类型及特点n1.2.1 手工信息检索1.2.2 脱机信息检索n以批处理方式进行的脱机检索,即检索只能在检索系统所在地进行,由检索人员定期将用户课题汇总,批量输入计算机,用户不能参与检索过程,不能即时浏览检索结果,修改检索方案,即不能人机对话。n脱机检索所存在的几点不足表
4、现在:(1)地理上的障碍,指用户与检索人员距离较远时,不便于检索要求的表达,也不便于检索结果的获取。(2)时间上的迟滞,指检索人员定期检索,用户不能及时获取所需信息。(3)封闭式的检索,指检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式。1.2.3 联机信息检索n建立在计算机联机处理方式上的信息检索,即检索者通过检索终端和通信线路直接查寻检索系统数据库的计算机检索方式。用户采用终端并通过通信线路,以与检索系统对话的方式直接访问数据库,进行存储、检索、打印、修改数据等处理。1.2.4 光盘信息检索n光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作
5、,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点 1.2.5 网络信息检索n(1)交互式作业方式n(2)用户透明度n(3)信息检索空间的拓宽n(4)友好的用户界面1.3信息检索的基本步骤n1课题分析,明确检索范围n2选择检索系统和检索工具n3确定检索点和检索途径n4构造检索式n5选定检索方法n6索取原始文献1.4检索工具n1.4.1 检索工具概念及作用1.4.2 检索工具基本类型n按照信息加工的手段或设备划分:n(1)手工检索工具;(2)机械检索工具;(3)计算机检索工具。n按照信息载体形态划分:n(1)书本式检索工具,包括期刊式、单卷式和附录
6、式;n(2)卡片式检索工具;n(3)缩微式检索工具;n(4)磁性材料式检索工具。n按收录范围划分:n(1)综合性检索工具;(2)专科性检索工具;n(3)专题性检索工具;(4)全面性检索工具;n(5)单一性检索工具。n按时间范围划分:n(1)预告性检索工具;(2)现期通报性检索工具;n(3)回溯性检索工具。n按编制方法划分:目录、文摘和索引等。1.5 检索语言n定义1.5.2 检索语言的类型n(1)分类语言。(2)主题语言n 标题词语言。是从文献的题目和内容中抽出来,经过规范化处理的主题语言。从标题词作为文献信息内容的标引标识和检索标识。标题词一般分为主标题和副标题,词表中按级一一列举各级标题,
7、把主标题和副标题加以组配,作为标引和检索使用中的依据;n 叙词语言。是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。以规范化的标引词形成词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的复杂概念,属后组配式,适用于机检和手检;n 关键词语言。直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。是一种无词表的自然语言。关键词选自文献的题目和内容,属于非规范的后组配式;n 单元词语言。以文献中的单元词表达文献信息的内容性质,一般无词表。单元词是文献内容中最基本的不能再加复分的知识单元,单元词之间可以进行组配,属后组配式;n 引文语言。利用文献的引文关系而建立的一种自然语言,无词表,标引词为文献中的主要著录项目,属后组配式。1.6 信息检索的发展趋势n1.6.1 信息检索的最新技术 1.推技术 2.集合数据挖掘技术 3.自然语言理解技术 4.人机交互界面技术1.6.2 新一代信息检索的特点n智能化搜索 n个性化搜索 n结构化搜索 n垂直化专业领域搜索 n本土化的搜索