1、 信息检索开设这门课的目的是什么?开设这门课的目的是什么?工具课工具课寻找资源寻找资源目的目的利用资源利用资源 l 本课程主要讲授各类信息资源的价值,本课程主要讲授各类信息资源的价值,文献信息的分类与主题分析;信息检索技文献信息的分类与主题分析;信息检索技术,术,Dialog国际联机检索系统;网络搜索国际联机检索系统;网络搜索引擎的检索功能,世界著名网络数据库检引擎的检索功能,世界著名网络数据库检索模式;海洋环境信息、生物医学信息、索模式;海洋环境信息、生物医学信息、工程技术信息、经济管理信息、新闻信息、工程技术信息、经济管理信息、新闻信息、专利与成果信息、法律与标准信息,学位专利与成果信息、
2、法律与标准信息,学位论文与学术会议等信息资源;文献综述与论文与学术会议等信息资源;文献综述与学 位 论 文 的 写 作 方 法 等 知 识 。学 位 论 文 的 写 作 方 法 等 知 识 。l 信息资源总论信息资源总论l 信息检索意义信息检索意义l 信息检索概述信息检索概述l 信息检索方法信息检索方法l 信息检索语言信息检索语言l 信息检索技术信息检索技术第一章第一章 信息检索基础信息检索基础l 信息资源总论信息资源总论l 信息检索意义信息检索意义l 信息检索概述信息检索概述l 信息检索方法信息检索方法l 信息检索语言信息检索语言l 信息检索技术信息检索技术一一. .什么是信息?什么是信息?
3、 由日常生活到科学研究,信息无所不在,由日常生活到科学研究,信息无所不在,人们从来没有像今天这样重视信息,研究信人们从来没有像今天这样重视信息,研究信息,利用信息。然而,由于信息的概念十分息,利用信息。然而,由于信息的概念十分广泛,目前仍然是众说纷纭,并无严格定义广泛,目前仍然是众说纷纭,并无严格定义, ,不同学者从不同角度对信息做出各种定义。不同学者从不同角度对信息做出各种定义。 1. 信息的定义信息的定义l 信息是所有事物的存在方式和运信息是所有事物的存在方式和运动状态的反映,是频率变化的一种动状态的反映,是频率变化的一种感知。(或者说信息是指对消息接感知。(或者说信息是指对消息接受者来说
4、预先不知道的报道)受者来说预先不知道的报道) l不同事物不同事物不同的状态特征不同的状态特征形成形成不同的信息不同的信息呈现呈现被了解认被了解认识识2 2信息的特性信息的特性 (1 1)传递性)传递性 所谓信息的传递过程,是指客所谓信息的传递过程,是指客观存在的信息通过人的智慧被感知观存在的信息通过人的智慧被感知以后将其转换成语言、文字、图形、以后将其转换成语言、文字、图形、代码等可接受的形式进行传输。代码等可接受的形式进行传输。 信息的获取必须依赖于信息的传递。信息的获取必须依赖于信息的传递。(2 2)时效性)时效性 信息的时效性是指如果信息不信息的时效性是指如果信息不能及时反映事物存在的方
5、式和运动能及时反映事物存在的方式和运动状态,那么这一信息就会失去效用。状态,那么这一信息就会失去效用。 (3 3)共享性)共享性 信息的共享性是指同一内容的信信息的共享性是指同一内容的信息可以在同一时间被两个或两个以息可以在同一时间被两个或两个以上的用户使用。上的用户使用。3. 3. 信息的分类信息的分类 信息的类型亦可根据不同的角度信息的类型亦可根据不同的角度来进行不同的分类,但无论是哪一来进行不同的分类,但无论是哪一种分类,其目的都是使信息在归类种分类,其目的都是使信息在归类后呈现出各自的特征,从而有利于后呈现出各自的特征,从而有利于人们有针对性地研究和利用信息。人们有针对性地研究和利用信
6、息。 按信息来源按信息来源自然信息自然信息知识信息知识信息社会信息社会信息从不同角度对信息进行分类从不同角度对信息进行分类 l 即来自自然界的信息,包即来自自然界的信息,包括天文、地理、生物、物理、括天文、地理、生物、物理、化学等。化学等。自然信息自然信息l 即人类社会活动的信息,主即人类社会活动的信息,主要有管理、金融、商情以及其它要有管理、金融、商情以及其它各种信息。各种信息。社会信息社会信息l 即以各种方式记录下来古今即以各种方式记录下来古今中外的知识,和专家学者的经验。中外的知识,和专家学者的经验。知识信息知识信息工业信息工业信息科技信息科技信息农业信息农业信息经济信息经济信息军事信息
7、军事信息文化信息文化信息从信息应用角度从信息应用角度二二. .信息资源概述信息资源概述 1.1.信息资源的概念信息资源的概念 信息通过文字、符号、声音或信息通过文字、符号、声音或图像等形式存储在各种载体上集图像等形式存储在各种载体上集合在一起就成了信息资源。合在一起就成了信息资源。 信息资源是可利用信息的集合。信息资源是可利用信息的集合。 2.2.信息资源的类型信息资源的类型 按信息资源存按信息资源存在状态划分在状态划分潜在信息资源潜在信息资源现实信息资源现实信息资源现实信息资源是我们研究开发利用的重点现实信息资源是我们研究开发利用的重点 体载信息资源实物信息资源网络信息资源现实信息资源现实信
8、息资源文献信息资源(1 1)体载信息资源)体载信息资源 体载信息资源指以人体为载体并体载信息资源指以人体为载体并能为他人识别的信息资源能为他人识别的信息资源 口语信息资源口语信息资源 体载信息资源体载信息资源 (按表达方式)(按表达方式) 体语信息资源体语信息资源(2 2)文献信息资源)文献信息资源 文献信息资源是以文献为载体的文献信息资源是以文献为载体的信息资源。它又可按:信息资源。它又可按: 载体形式载体形式进行划分,进行划分, 加工层次加工层次进行划分和进行划分和 出版类型出版类型进行划分。进行划分。 指通过油印,铅印,胶印等各种指通过油印,铅印,胶印等各种印刷手段将信息记录在纸张上的信
9、印刷手段将信息记录在纸张上的信息资源息资源. . 优点:使用方便,易于携带和阅读,优点:使用方便,易于携带和阅读, 缺点:体积大,不易整理和保存。缺点:体积大,不易整理和保存。l 指利用光学技术将信息记录在指利用光学技术将信息记录在感光材料上的信息资源。感光材料上的信息资源。 特点:体积小易保存,存储密度高特点:体积小易保存,存储密度高缺点:使用需要专门的设备和环境缺点:使用需要专门的设备和环境。缩微型信息资源缩微型信息资源l是指通过专门的设备,使用声、光、是指通过专门的设备,使用声、光、电、磁等技术将信息以声音、图像电、磁等技术将信息以声音、图像等形式记录下来的信息资源。等形式记录下来的信息
10、资源。l 包括:唱片,录音带,录像带,电影,包括:唱片,录音带,录像带,电影, 幻灯片等幻灯片等l特点:直观形象特点:直观形象l缺点:需要专门的设备。缺点:需要专门的设备。声像型信息资源声像型信息资源l通过编码技术将信息转换为计算机通过编码技术将信息转换为计算机可识别的语言,并将信息记录在磁可识别的语言,并将信息记录在磁带、磁盘、光盘上的信息资源。带、磁盘、光盘上的信息资源。l主要有:电子图书,电子期刊,电子会主要有:电子图书,电子期刊,电子会议录等议录等l特点:体积小,存储量大,存取速度快,特点:体积小,存储量大,存取速度快,可共享可共享l缺点:价格较贵,保存条件较高缺点:价格较贵,保存条件
11、较高l图图 书书l期期 刊刊l报报 纸纸l会会 议议 文文 献献l专专 利利 文文 献献l学学 位位 论论 文文l科科 技技 报报 告告l技技 术术 标标 准准l技技 术术 档档 案案l产产 品品 说说 明明 书书l政政 府府 出出 版版 物物 图书是一种成熟而稳定的出版物。图书是一种成熟而稳定的出版物。是对已有的研究成果、生产技术、实是对已有的研究成果、生产技术、实践经验或某一知识体系的概括和论述践经验或某一知识体系的概括和论述。特点:内容全面系统,观点成熟特点:内容全面系统,观点成熟缺点:出版周期较长,报道速度慢缺点:出版周期较长,报道速度慢 是传播知识,教育和培养人才的主要工具。是传播知
12、识,教育和培养人才的主要工具。图书图书 是一种有固定名称,有一定出是一种有固定名称,有一定出版规律的连续出版物版规律的连续出版物。 特点:出版周期短,报道速度快,数量特点:出版周期短,报道速度快,数量大,内容丰富新颖,能及时反映当代社大,内容丰富新颖,能及时反映当代社会和科技的发展水平和动向。会和科技的发展水平和动向。 期刊期刊 是一种出版周期最短,发行量最大是一种出版周期最短,发行量最大的出版物,它的出版物,它报道的内容极为广泛,报道的内容极为广泛,和人们的生活息息相关,是人们日和人们的生活息息相关,是人们日常生活中最常接触到的信息资源。常生活中最常接触到的信息资源。 报纸信息量大,具有极强
13、的时效性报纸信息量大,具有极强的时效性 但不便检索。但不便检索。 l 是指发表在各种学术会议上的是指发表在各种学术会议上的论文和报告。论文和报告。 会议文献学术性很强,往往反映会议文献学术性很强,往往反映了当前的学科进展和发展动态,是了当前的学科进展和发展动态,是获取最新信息的重要来源。获取最新信息的重要来源。会议文献会议文献 是指与专利制度有关的所有专是指与专利制度有关的所有专利文件利文件,包括:专利说明书,专利,包括:专利说明书,专利公报,专利分类表,专利检索工具公报,专利分类表,专利检索工具以及专利的法律文件。以及专利的法律文件。 专利说明书是专利文献的主体。专利说明书是专利文献的主体。
14、专利文献专利文献 是指高等院校或研究机构的毕是指高等院校或研究机构的毕业生和研究生为取得学位而撰写的业生和研究生为取得学位而撰写的论文。论文。 学位论文级别可分为:学位论文级别可分为: 学士论文,硕士论文,博士论文。学士论文,硕士论文,博士论文。学位论文学位论文 是科技人员从事某一专题研究是科技人员从事某一专题研究所取得成果和进展的实际记录。所取得成果和进展的实际记录。 特点:反映新技术新学科较及时,特点:反映新技术新学科较及时,内容专深新颖,数据可靠,保密性内容专深新颖,数据可靠,保密性较强较强科技报告科技报告 是描述有关产品和工程质量、是描述有关产品和工程质量、规格、工艺流程及其测试方法等
15、的规格、工艺流程及其测试方法等的技术文件。技术文件。 是一种经权威机构批准的规章性是一种经权威机构批准的规章性文献,具有一定的法律约束力。文献,具有一定的法律约束力。标准文献标准文献 是生产建设中和科研部门在是生产建设中和科研部门在技术活动中形成的具体工程对象技术活动中形成的具体工程对象的技术文件。的技术文件。 内容包括:任务书,审批文件,内容包括:任务书,审批文件,研究计划,技术指标,技术措施,研究计划,技术指标,技术措施,调查材料,设计计算,工艺记录等。调查材料,设计计算,工艺记录等。 技术档案技术档案 是对产品的性能、规格、构是对产品的性能、规格、构造、用途及其使用方法等所作的造、用途及
16、其使用方法等所作的说明。说明。产品说明书产品说明书 是指各国政府部门及其所属是指各国政府部门及其所属机构发布的各类文件。机构发布的各类文件。 主要包括行政政策性文件和科技主要包括行政政策性文件和科技文件两种。文件两种。政府出版物政府出版物 按信息资源内容加工层次划分按信息资源内容加工层次划分 一次信息资源一次信息资源 二次信息资源二次信息资源 三次信息资源三次信息资源 零次信息资源零次信息资源l是以作者本人的科研工作成果为依是以作者本人的科研工作成果为依据而创作的原始文献据而创作的原始文献。l包括:期刊论文,科技报告,会议论文,包括:期刊论文,科技报告,会议论文,专利文献,学位论文等专利文献,
17、学位论文等l 特点:具有新颖性,创造性和系统性等特点:具有新颖性,创造性和系统性等特征,参考和使用价值较高。特征,参考和使用价值较高。一次信息资源一次信息资源 是将分散无序的一次信息资是将分散无序的一次信息资源进行加工整理,使之成为系统源进行加工整理,使之成为系统有序的信息资源。有序的信息资源。 特点:具浓缩性,汇集性,有序特点:具浓缩性,汇集性,有序性等,是查找一次信息资源的工具。性等,是查找一次信息资源的工具。二次信息资源二次信息资源 是指对一次信息资源进行综合分是指对一次信息资源进行综合分析,研究和评述而编写出来的成果析,研究和评述而编写出来的成果。 包括:手册,百科全书,年鉴,以及包括
18、:手册,百科全书,年鉴,以及其他综述和评论性文章等。其他综述和评论性文章等。 三次信息资源源于一次信息资源,又三次信息资源源于一次信息资源,又高于一次信息,是一种再创性文献。高于一次信息,是一种再创性文献。 是指未经正式出版发行的最原是指未经正式出版发行的最原始的记录。始的记录。 包括:书信,手稿,笔记,实验记包括:书信,手稿,笔记,实验记录等。录等。 特点:内容新颖,具有原始性特点:内容新颖,具有原始性 缺点:不成熟,分散,难于检索。缺点:不成熟,分散,难于检索。(3 3)实物信息资源)实物信息资源 是指以实物为载体的信息资源。是指以实物为载体的信息资源。 天然信息资源天然信息资源实物信息资
19、源实物信息资源 人工实物信息资源人工实物信息资源 (如产品,样品,模型等)如产品,样品,模型等)(4 4)网络信息资源)网络信息资源 网络信息资源是指通过计算机,网络信息资源是指通过计算机,通信技术,多媒体技术相互融合而通信技术,多媒体技术相互融合而形成的网络上可查找到的资源。形成的网络上可查找到的资源。 通过网络可利用的信息资源是多种通过网络可利用的信息资源是多种多样的,从网络信息管理和利用的角度多样的,从网络信息管理和利用的角度出发,人们对已存在于网络中的信息资出发,人们对已存在于网络中的信息资源进行了类型化和系统化研究,源进行了类型化和系统化研究,从不同从不同的角度,有不同的分类形式,一
20、般有以的角度,有不同的分类形式,一般有以下几种:下几种: 按信息表现形式分为按信息表现形式分为 电子出版物信息资源电子出版物信息资源 非电子出版物信息资源非电子出版物信息资源 指以电子指以电子方式或机读方式或机读方式生产发方式生产发行的出版物行的出版物主要指电子新闻、主要指电子新闻、电子论坛等电子论坛等l目前出版的各种电子出版物有:目前出版的各种电子出版物有:l 电子期刊、电子报纸、电子图书、电子期刊、电子报纸、电子图书、电子名录、电子地图、数字声音(如电子名录、电子地图、数字声音(如CDCD)和数字图像(如和数字图像(如VCDVCD、DVDDVD)等。等。l其中,全文数据库、二次文献数据库其
21、中,全文数据库、二次文献数据库和新一代联机公共检索目录(和新一代联机公共检索目录(Online Online Public Access Catalog, Public Access Catalog, 简称简称OPACOPAC)、)、数值数据库、事实数据库是最受用户数值数据库、事实数据库是最受用户欢迎、最具代表性的电子出版物。欢迎、最具代表性的电子出版物。 按信息的媒体形式分为按信息的媒体形式分为 文本信息资源文本信息资源 超文本信息资源超文本信息资源 多媒体信息资源多媒体信息资源 超媒体信息资源超媒体信息资源 普通文本信息资源的知识单元按普通文本信息资源的知识单元按线性排列,用户必须顺序阅读
22、。线性排列,用户必须顺序阅读。 文本信息资源文本信息资源l 超文本信息资源是按知识单元超文本信息资源是按知识单元及其关系建立的知识结构网络。及其关系建立的知识结构网络。它它的本质和基本特征就是在文档内部的本质和基本特征就是在文档内部和文档之间建立联系,这种关系给和文档之间建立联系,这种关系给了文本以非线性的组织。了文本以非线性的组织。超文本信息资源超文本信息资源 超文本由存放信息的结点和描述超文本由存放信息的结点和描述信息之间关系的链组成。信息之间关系的链组成。 结点结点是超文本系统中的自然数据单元,是超文本系统中的自然数据单元,结点可大可小,规模不同,类型不同。结点可大可小,规模不同,类型不
23、同。链链是超文本系统中表现信息之间关系的是超文本系统中表现信息之间关系的实体,它隐藏在信息背后。只有链的存实体,它隐藏在信息背后。只有链的存在,才能在信息单元之间建立联系,才在,才能在信息单元之间建立联系,才有了非线性的信息组织方式。有了非线性的信息组织方式。 用户通过链接浏览信息内容时,往用户通过链接浏览信息内容时,往往意识不到是在分布式的计算机网络上往意识不到是在分布式的计算机网络上从一个结点跳到另一个结点。从一个结点跳到另一个结点。多媒体是包括文本、图像和声音在内多媒体是包括文本、图像和声音在内的各种信息表达或传播形式的总称。的各种信息表达或传播形式的总称。由于计算机软、硬件技术的限制,
24、相当由于计算机软、硬件技术的限制,相当长时间以来计算机信息检索系统只限于长时间以来计算机信息检索系统只限于存储和检索书目、文摘等二次文献型文存储和检索书目、文摘等二次文献型文献,多媒体技术的出现和使用使得人们献,多媒体技术的出现和使用使得人们接受信息资源的范围扩大到事实型数据接受信息资源的范围扩大到事实型数据库,如图谱、切片、三维结构等。库,如图谱、切片、三维结构等。多媒体信息资源多媒体信息资源 超媒体则是超文本与超媒体则是超文本与多媒体两种技术的结合。多媒体两种技术的结合。当超文本结当超文本结点中的信息是多媒体信息时,就称为超点中的信息是多媒体信息时,就称为超媒体,媒体,它是超级媒体的简称。
25、即主页里包含了它是超级媒体的简称。即主页里包含了大量多媒体的超级链接,除了图像、动画、声大量多媒体的超级链接,除了图像、动画、声音外,还可以包含表格、表单等形式。近年来,音外,还可以包含表格、表单等形式。近年来,超媒体技术发展迅速,在网络上超媒体应用系超媒体技术发展迅速,在网络上超媒体应用系统不断涌现。在超媒体信息系统中,不同类型统不断涌现。在超媒体信息系统中,不同类型的媒体信息能高度综合和集成,空间上图文并的媒体信息能高度综合和集成,空间上图文并茂,时间上媒体信息同步实现,有超文本和多茂,时间上媒体信息同步实现,有超文本和多媒体两种信息资源的特点,具有高度的交互性。媒体两种信息资源的特点,具
26、有高度的交互性。超媒体信息资源超媒体信息资源 人类进入人类进入2121世纪,进入了信息和知识世纪,进入了信息和知识经济年代。在计算机网络技术日新月异,经济年代。在计算机网络技术日新月异,国际互联网四通八达的今天,我们正置国际互联网四通八达的今天,我们正置身于信息与知识的海洋当中,面对这样身于信息与知识的海洋当中,面对这样一个新知识不断涌现,知识新陈代谢频一个新知识不断涌现,知识新陈代谢频繁的世界,想要一劳永逸地获取知识是繁的世界,想要一劳永逸地获取知识是不可能的了,只有终身的学习,不断地不可能的了,只有终身的学习,不断地获取最新知识,才有可能不被社会淘汰。获取最新知识,才有可能不被社会淘汰。
27、信息检索是满足信息需求的必要途信息检索是满足信息需求的必要途径之一。要有效、快速地掌握最新信息,径之一。要有效、快速地掌握最新信息,获取最新知识,让信息为已所用,掌握获取最新知识,让信息为已所用,掌握信息检索方法显得非常重要。信息检索方法显得非常重要。 面对未来的世界,如果没有一定的面对未来的世界,如果没有一定的信息检索和利用能力,就不能有效地利信息检索和利用能力,就不能有效地利用信息检索系统去检索有价值的信息来用信息检索系统去检索有价值的信息来解决实际问题,就会面对信息的海洋陷解决实际问题,就会面对信息的海洋陷入困境。入困境。 概括来说,概括来说,信息资源检索的重要性信息资源检索的重要性有以
28、下几个方面有以下几个方面: :一一. . 掌握有效信息掌握有效信息, ,避免重复劳动避免重复劳动, ,有助科研工作有助科研工作 科研工作具有继承和创造两重性,科研工作具有继承和创造两重性,科学研究的两重性要求科研人员在科学研究的两重性要求科研人员在探索未知或从事研究工作之前,应探索未知或从事研究工作之前,应该尽可能地占有与之相关的信息,该尽可能地占有与之相关的信息,信息检索是科学研究必不可少的前信息检索是科学研究必不可少的前期工作。期工作。 从课题确立,到整个科研过程,从课题确立,到整个科研过程,以及科研结束作成果鉴定,都需要以及科研结束作成果鉴定,都需要信息检索,以判定研究和成果的先信息检索
29、,以判定研究和成果的先进性、科学性和实用性。可以说,进性、科学性和实用性。可以说,信息检索对于整个科研过程都占有信息检索对于整个科研过程都占有重要的位置,信息检索贯穿了科研重要的位置,信息检索贯穿了科研工作的始终,是科研工作的重要组工作的始终,是科研工作的重要组成部分。成部分。二二. .提高信息素质,培养创新能力提高信息素质,培养创新能力, ,促促进创新人才的培养进创新人才的培养 1). 1).知识经济时代对新型人才的要求知识经济时代对新型人才的要求 信息素质是信息素质是2121世纪人才素质结构的基世纪人才素质结构的基本构成之一,是适应信息社会的必备技本构成之一,是适应信息社会的必备技能,是进
30、入信息社会的通行证,对提高能,是进入信息社会的通行证,对提高在信息社会中的生存能力有重要意义。在信息社会中的生存能力有重要意义。 在知识经济时代,人才必须适应信在知识经济时代,人才必须适应信息化的社会环境,熟悉并掌握获取各种息化的社会环境,熟悉并掌握获取各种现代化信息资源的方式,具有发掘、获现代化信息资源的方式,具有发掘、获取所需信息的能力。取所需信息的能力。2).2).信息检索的能力是提高人的素质,信息检索的能力是提高人的素质,培养创新人才的需要培养创新人才的需要l 知识靠人才,人才靠教育,高知识靠人才,人才靠教育,高等学校在给学生传授知识的同时,等学校在给学生传授知识的同时,就必须考虑到所
31、培养的人才要适应就必须考虑到所培养的人才要适应社会发展的需求,要具有知识经济社会发展的需求,要具有知识经济时代人才基本生存技能,要对学生时代人才基本生存技能,要对学生进行进行五种能力五种能力的培养的培养 。l 自学能力自学能力 (最重要的)最重要的) 研究能力研究能力 五种能力五种能力 思维能力思维能力 表达能力表达能力 组织管理能力组织管理能力自学能力自学能力提高人的素质最基本的能力提高人的素质最基本的能力 阅读能力阅读能力, ,收集处收集处理各种信息能力理各种信息能力熟练使用各种工具书熟练使用各种工具书能检索各种信息资料能检索各种信息资料能分析利用各种信息能分析利用各种信息三三. . 提供
32、科学方法提供科学方法 , ,协助管理决协助管理决策者做出正确的决策策者做出正确的决策 一个国家一个国家, ,机构机构, ,或企业要想在激烈或企业要想在激烈的市场竞争中立于不败之地,首先要科的市场竞争中立于不败之地,首先要科学决策。学决策。科技与经济发展的管理决策,科技与经济发展的管理决策,同样离不开信息,任何个人,企业,乃同样离不开信息,任何个人,企业,乃至国家,要想在竞争中立足,都必须掌至国家,要想在竞争中立足,都必须掌握足够可靠的信息,并利用它进行科学握足够可靠的信息,并利用它进行科学决策,才能在竞争中取胜。决策,才能在竞争中取胜。 管理决策必须依赖信息获取才能管理决策必须依赖信息获取才能
33、保证其科学性、公正性。信息获取保证其科学性、公正性。信息获取成功的基础则是通过科学合理的信成功的基础则是通过科学合理的信息检索获取大量有用的信息。息检索获取大量有用的信息。 信息竞争是企业成败的关键,它信息竞争是企业成败的关键,它是企业决策的的智囊、市场导向的是企业决策的的智囊、市场导向的风向标、市场投资的指示灯,是现风向标、市场投资的指示灯,是现代企业生存发展的战略武器和重要代企业生存发展的战略武器和重要保障。保障。l信息检索信息检索的概念与类型的概念与类型 l信息检索系统信息检索系统与数据库与数据库 信息检索信息检索信息存储信息存储1、信息检索的概念信息检索的概念 信息资源检索是从信息资源
34、集合中找出信息资源检索是从信息资源集合中找出所需信息内容的过程。所需信息内容的过程。 存储是对有关信息进行选择,并对信息特征进行著录,标引和组织,建立信息数据库的过程 一一、信息检索概念与类型信息检索概念与类型 信息资源的查找过程 l按信息检索结果的内容划分按信息检索结果的内容划分 信息信息 检索检索数据检索数据检索 事实检索 信息线索检索信息线索检索 信息信息全文全文检索检索 从检索系统存储的数据中查出用户所需数据的检索 对特定的事件或事实的检索 l按信息检索技术划分按信息检索技术划分 全文文本检索全文文本检索 多媒体检索多媒体检索 按知识(信息)单元及其关系按知识(信息)单元及其关系建立起
35、知识结构网络建立起知识结构网络 网络信息检网络信息检索索 超文本检索超文本检索全文数据库检索全文数据库检索 支持两种以上媒体的数据库检索支持两种以上媒体的数据库检索 集合各种新型检索技术于一体,能集合各种新型检索技术于一体,能够对各种类型,各种媒体的信息进够对各种类型,各种媒体的信息进行跨时间,跨地理检索的大系统行跨时间,跨地理检索的大系统 1 1、信息检索系统信息检索系统 用于报道、存贮与查找信息的工具。用于报道、存贮与查找信息的工具。检索系统检索系统 信息标引和存储过程信息标引和存储过程 信息的需求分信息的需求分析和检索过程析和检索过程 l 计算机检索系统中往往包含有若干数据库,计算机检索
36、系统中往往包含有若干数据库,每个库对应一种工具。每个库对应一种工具。l(1 1)数据库的定义)数据库的定义 至少由一种文档组成,并能满足某一特定目至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合的或某一特定数据处理系统需要的一种数据集合。 (2)数据库的类型)数据库的类型 按照国际上通用的分类方法,通常划分为参考按照国际上通用的分类方法,通常划分为参考数据库和源数据库。数据库和源数据库。 2、数据库、数据库参考数据库(参考数据库(Reference DatabaseReference Database) 参考数据库是指用户在这些数据库中获参考数据库是指用户在这些
37、数据库中获取信息线索后,还需要进一步查找原文或取信息线索后,还需要进一步查找原文或其他资料的一类数据库。其他资料的一类数据库。 参考数据库参考数据库书目数据库:书目数据库:存储某个学科领存储某个学科领域的二次信息资源的数据库域的二次信息资源的数据库 指南数据库指南数据库 :存储能够存储能够提供用户参考、给予用提供用户参考、给予用户指南的各类信息户指南的各类信息 源数据库(源数据库(Source DatabaseSource Database) 在欧洲也称作数据银行(在欧洲也称作数据银行(Data BankData Bank)。)。它是能够直接为用户提供原始资料或具体数它是能够直接为用户提供原始
38、资料或具体数据的一类数据库据的一类数据库 。 源数据库源数据库数值型数据库数值型数据库 文本文本-数值数据库数值数据库 全文数据库全文数据库 术语数据库术语数据库 图像数据库图像数据库 新闻数据库新闻数据库 l信息信息检检 索索 点点l信息信息检索方法检索方法 检索点是检索的出发点,是匹配的检索点是检索的出发点,是匹配的依据,能反映信息资源的特征,以前常称依据,能反映信息资源的特征,以前常称为为“检索途径检索途径”。此外,还可以称检索项、。此外,还可以称检索项、检索入口等。检索入口等。 信息资源检索的检索点很多,有的信息资源检索的检索点很多,有的反映信息资源的内容特征,有的反映信息反映信息资源
39、的内容特征,有的反映信息资源的外部特征。资源的外部特征。分类检索 按学科分类体系查找信息资源,采用的是分类目录和分类索引 主题检索 利用信息资源主题内容进行检索 作者检作者检索索 以作者(包括个人及团体作者)的名称,按照字顺编排成一个体系 名称检索名称检索 以号码特征来检索信息资源 号码检索号码检索 从各种事物的名称出发来检索信息资源 l追溯法追溯法 l常用法常用法l综合法综合法追溯的根据通常是文献后面所列出的参考文献条目(references),通过这些条目的来源信息,指引到那些参考文献的全文 。利用各种检索系统来实施检索 ,根据时间顺序有顺查、倒查和抽查方式 。以上两种方法的结合,交替使用
40、 第五节第五节 信息检索语言信息检索语言标引标引标引标引文献信息文献信息提问提问数据库(检索刊)数据库(检索刊)(语言语言)(语言语言) 检索语言是信息检索和标引的共同检索语言是信息检索和标引的共同语言。语言。 其实质是从自然语言中精选出来并其实质是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信加以规范化的一套词汇符号,是概括信息资源内容特征或外在特征及相互关系息资源内容特征或外在特征及相互关系的概念标识体系。的概念标识体系。 一、一、检索语言的概念检索语言的概念二、检索语言的种类二、检索语言的种类2. 按按文献信息资源的特征划分文献信息资源的特征划分 人工语言人工语言 人为对标引词
41、和检索词人为对标引词和检索词加以控制和规范,使每个加以控制和规范,使每个检索词只能表达一个概念检索词只能表达一个概念 自然语言自然语言直接从原始信息中抽取出自直接从原始信息中抽取出自由词作为检索点的检索语言由词作为检索点的检索语言 (1)描述信息资源外部特征的检索语言描述信息资源外部特征的检索语言 题名语言(书名、刊名、篇名)题名语言(书名、刊名、篇名) 著者语言(责任者、机构名称)著者语言(责任者、机构名称) 号码语言:按文献代码,如专利号码语言:按文献代码,如专利 号、标准号、报告号、号、标准号、报告号、 ISBNISBN号、号、ISSNISSN号等顺序排检号等顺序排检2、按按文献信息资源
42、的特征划分文献信息资源的特征划分 分类法语言分类法语言体系分类法体系分类法组配分类法组配分类法标题词语言标题词语言单元词语言单元词语言叙词语言叙词语言关键词语言关键词语言主题法语言主题法语言l分类语言分类语言类类性质上彼此相同的事物性质上彼此相同的事物物以类聚,人以群分物以类聚,人以群分 分类语言也称分类法,它是用分类号分类语言也称分类法,它是用分类号表达主题概念,依据知识分类将各主题概表达主题概念,依据知识分类将各主题概念按学科性质进行分类和系统排列成类目念按学科性质进行分类和系统排列成类目体系的标引语言。体系的标引语言。体系分类法 是直接体现知识分类等级概念的表示系统。是直接体现知识分类等
43、级概念的表示系统。科学分类科学分类基基 础础 对对 象象文献内容的学科性质文献内容的学科性质按照知识门类的逻辑次序按照知识门类的逻辑次序知识知识类类1类类2类类3类类21类类22类类23上位类上位类同位类同位类下位类下位类自然科学自然科学社会科学社会科学哲学哲学马列毛邓马列毛邓综合性图书综合性图书ABCK(9)NX(10)Z 分成分成个基本部类个基本部类,基本部类,基本部类是对人类全部是对人类全部知识作最概括的划分。知识作最概括的划分。 由基本部类划分出由基本部类划分出2222个基本大类个基本大类,基本大类是,基本大类是较为概括的大学科领域的划分,用由到的较为概括的大学科领域的划分,用由到的个
44、字母表示。个字母表示。 体系分类法中国图书馆图书分类法,简称中图法中国图书馆图书分类法,简称中图法中图法简表如下中图法简表如下A 马列、毛泽东思想N 自然科学总论B 哲学、宗教O 数理科学和化学C 社会科学总论P 天文学、地球科学D 政治、法律 Q 生物科学E 军事R 医药、卫生F 经济S 农业科学G 文化、科学、教育T 工业技术H 语言、文字U 交通运输I 文学V 航空、航天J 艺术X 环境科学、安全科学K 历史、地理Z 综合性图书lC C 社会科学总论社会科学总论 C8 C8 统计学统计学 C91 C91 社会学社会学 C92 C92 人口学人口学 C93 C93 管理学管理学l 931
45、931 管理技术方法管理技术方法 l .1 .1 管理数学管理数学 .2 .2 管理的方式方法管理的方式方法 933 933 领导学领导学l 934 934 决策学决策学l 935 935 管理计划和控制管理计划和控制l 936 936 管理组织学管理组织学l 939 939 应用管理学应用管理学lT T 工业技术工业技术l TB TB 一般工业技术一般工业技术 l 4 4 工业通用技术设备工业通用技术设备l 48 48 包装工程包装工程l 482 482 包装设计包装设计 l .1 .1纸、纸板纸、纸板l .2 .2林材林材l .3 .3塑料塑料l l . .其他其他l 485 485 包装
46、类型包装类型l 486 486 包装机械设备包装机械设备l 487 487 包装技术检测包装技术检测l 488 488 包装工厂包装工厂l 489 489 各类产品包装各类产品包装TP 自动化技术、计算技术自动化技术、计算技术 TP1 自动化基础理论自动化基础理论TP2 自动化技术及设备自动化技术及设备TP3 计算技术、计算机计算技术、计算机 TP31计算机软件计算机软件 TP311 程序设计、软件工程程序设计、软件工程TP312 程序语言、算法语言程序语言、算法语言TP313 汇编语言汇编语言TP316 操作系统操作系统 TP316.1 分时操作系统分时操作系统TP316.2 实时操作系统实
47、时操作系统TP316.3 批处理批处理 一般性问题一般性问题 2自动化元件、部件自动化元件、部件自动化装置与设备自动化装置与设备机器人技术机器人技术自动化系统自动化系统自动化技术在各方面自动化技术在各方面的应用的应用主题语言主题语言概念: 主题语言是采用表达某一事物或概念主题语言是采用表达某一事物或概念的名词术语来标引、存储、检索的一种的名词术语来标引、存储、检索的一种检索语言。检索语言。 标题词语言标题词语言直接用规范化语词来标引文直接用规范化语词来标引文献主题,按字顺排列成词表。献主题,按字顺排列成词表。主副搭配主副搭配单元词语言单元词语言采用单元词通过组配采用单元词通过组配(字面)(字面
48、)来表达文献的主题概念。单元来表达文献的主题概念。单元词是从文献中抽取的,能表达词是从文献中抽取的,能表达文献主题的最基本、不能再分文献主题的最基本、不能再分的单元词语。的单元词语。叙词语言叙词语言采用叙词通过采用叙词通过概念概念组配来表达组配来表达文献的主题概念。叙词是从文文献的主题概念。叙词是从文献内容中抽取的,能表达文献献内容中抽取的,能表达文献内容基本概念的并经过规范化内容基本概念的并经过规范化的名词或术语。的名词或术语。 字面组配与概念组配在形式上有时相同,字面组配与概念组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。有时不同;而从性质上来看两者区别是很大的。字面组配
49、是词的分析与组合(字面组配是词的分析与组合(拆词拆词);概念组);概念组配是概念的分析与综合(配是概念的分析与综合(拆义拆义)。例如:)。例如: 字面组配字面组配 概念组配概念组配模拟模拟+ +控制控制-模拟控制模拟控制 模拟模拟+ +控制控制-模拟控模拟控制制 香蕉苹果香蕉苹果香蕉+苹果 香蕉味食品+苹果 第一例中,无论是字面组配还是概念组第一例中,无论是字面组配还是概念组配,其结果都是配,其结果都是“模拟控制模拟控制”。 第二例中,根据字面组配原理,第二例中,根据字面组配原理,“香蕉香蕉”和和“苹果苹果”组配是组配是“香蕉苹果香蕉苹果”,而概念组,而概念组配的结果应是指配的结果应是指“一种
50、香蕉和苹果杂交的品一种香蕉和苹果杂交的品种种”,而这样的品种目前是不存在的。所谓,而这样的品种目前是不存在的。所谓“香蕉苹果香蕉苹果”只能是一种有香蕉味的苹果,只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用因此,根据概念组配原理,这个概念应当用“香蕉味的食品香蕉味的食品”和和“苹果苹果”两个词组配,两个词组配,才符合概念逻辑。才符合概念逻辑。以关键词作为文献内容标识以关键词作为文献内容标识和检索入口的一种主题语言。和检索入口的一种主题语言。关键词是直接从文献中抽取关键词是直接从文献中抽取的,未经规范化处理的自由的,未经规范化处理的自由词。词。关键词语言关键词语言l标题词标引: