计算机信息检索概述(7)课件.ppt

上传人(卖家):三亚风情 文档编号:3256979 上传时间:2022-08-13 格式:PPT 页数:79 大小:1.69MB
下载 相关 举报
计算机信息检索概述(7)课件.ppt_第1页
第1页 / 共79页
计算机信息检索概述(7)课件.ppt_第2页
第2页 / 共79页
计算机信息检索概述(7)课件.ppt_第3页
第3页 / 共79页
计算机信息检索概述(7)课件.ppt_第4页
第4页 / 共79页
计算机信息检索概述(7)课件.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

1、信息检索天津职业大学经管系张海燕绪 论1 1、信息的客观性、信息的客观性2 2、信息的价值性、信息的价值性3 3、信息的时效性、信息的时效性4 4、信息的传递性、信息的传递性5 5、信息的共享性、信息的共享性6 6、信息的可存储性、信息的可存储性文献概念文献概念 文献是文献是记录有知识记录有知识的一切载体。的一切载体。文献文献的构成的构成要素要素信息信息内容内容载体载体材料材料信息信息符号符号载体载体形态形态生产生产方式方式文文献献的的属属性性 知识信息性知识信息性物质实体性物质实体性人工记录性人工记录性动态发展性动态发展性文献的功能文献的功能1、认识功能、认识功能2、存储功能、存储功能3、传

2、递功能、传递功能文献的载体类型文献的载体类型 印刷印刷型文献型文献 缩微缩微型文献型文献 声像声像 型文献型文献 电子电子型文献型文献印刷型文献印刷型文献载体:纸张载体:纸张实例:教科书实例:教科书记录手段:油印、石记录手段:油印、石印、铅印、胶印、复印、铅印、胶印、复印印特点:可直接阅读,特点:可直接阅读,方便使用;但难于实方便使用;但难于实现机械化和自动化;现机械化和自动化;收藏文献占用空间大。收藏文献占用空间大。缩微型文献缩微型文献载体:感光材料载体:感光材料 实例:实例:缩微平片、缩微胶片缩微平片、缩微胶片记录手段记录手段:光学缩微技术光学缩微技术特点:体积小;价格低;不能直接阅读特点

3、:体积小;价格低;不能直接阅读 声像型文献声像型文献载体:磁性材料、感光材载体:磁性材料、感光材料料实例:录像带、幻灯片实例:录像带、幻灯片记录手段:磁记录、光学记录手段:磁记录、光学技术技术特点:直观、生动、形象;特点:直观、生动、形象;成本高;不易检索和更新。成本高;不易检索和更新。电子型文献电子型文献载体:磁性材料载体:磁性材料实例:磁盘、光盘实例:磁盘、光盘记录手段:计算机输记录手段:计算机输入入特点:存储密度高、特点:存储密度高、速度快速度快;易复制易复制;成本成本高;不能直接阅读。高;不能直接阅读。按出版形式的不同按出版形式的不同 图图 书书连续出版物连续出版物 特种文献特种文献会

4、议文献会议文献专利文献专利文献标准文献标准文献学位论文学位论文政府出版物政府出版物科技报告科技报告产品样本产品样本期刊期刊报纸报纸年鉴年鉴图书的含义图书的含义 凡篇幅达凡篇幅达49页以页以上并构一个书目单元上并构一个书目单元的文献称为图书。的文献称为图书。图书的特征图书的特征 *主题突出,内容系统,论述全面深入,主题突出,内容系统,论述全面深入,知识成熟稳定。知识成熟稳定。*出版的周期长,因而其内容一般就缺乏出版的周期长,因而其内容一般就缺乏最新的研究成果。最新的研究成果。期期 刊刊定义定义 期刊又称杂志,它是期刊又称杂志,它是指定期或不定期连续出版指定期或不定期连续出版的、有统一的名称、固定

5、的、有统一的名称、固定的开本、版式、有连续的的开本、版式、有连续的序号、汇集了多位作者分序号、汇集了多位作者分别撰写的多篇文章,并由别撰写的多篇文章,并由专门的机构编辑出版的连专门的机构编辑出版的连续性出版物。续性出版物。期刊的特点期刊的特点A、期刊以品种为单位形成知识流;期刊以品种为单位形成知识流;B、内容新颖、及时、广泛,但不如图书成熟;内容新颖、及时、广泛,但不如图书成熟;C、期刊一般不修订再版。期刊一般不修订再版。D、科技期刊科技期刊 是最重要的一次文献。是最重要的一次文献。核心期刊核心期刊*少数刊载某一学科大量高质量专业论文的期刊。少数刊载某一学科大量高质量专业论文的期刊。*特点特点

6、(1)刊载专业文献密度高,信息含量高;)刊载专业文献密度高,信息含量高;2)水平较高,代表本学科的最新发展水平;)水平较高,代表本学科的最新发展水平;3)出版相对稳定,所载文献寿命较长;)出版相对稳定,所载文献寿命较长;4)利用率和被引率较高。)利用率和被引率较高。目前,许多单位核心期刊的判定是以目前,许多单位核心期刊的判定是以中文核中文核心期刊要目总览心期刊要目总览为标准为标准形式特征:形式特征:有统一的名称,定期连有统一的名称,定期连续出版,每期汇集许多篇文章、报续出版,每期汇集许多篇文章、报道、消息等,多为对开或四开,以道、消息等,多为对开或四开,以单张散页形式出版。单张散页形式出版。报

7、 纸内容特征:内容特征:时间性强,能以最快的速度报道时间性强,能以最快的速度报道国内外发生的最新事件和科学技术的最新研国内外发生的最新事件和科学技术的最新研究成果,内容广泛。究成果,内容广泛。类型:类型:按出版周期分,有日报、双日报、周按出版周期分,有日报、双日报、周报、旬报等;按范围划分,有全国性报纸、报、旬报等;按范围划分,有全国性报纸、地方性报纸、系统性报纸等;按内容划分,地方性报纸、系统性报纸等;按内容划分,有综合性报纸、专业性报纸。有综合性报纸、专业性报纸。报 纸 科技报告科技报告 科技报告是科技工作者对科学、科技报告是科技工作者对科学、技术研究结果或研究进展的记录技术研究结果或研究

8、进展的记录 科技报告的特点科技报告的特点 (1)反映新的科研成果迅速;)反映新的科研成果迅速;(2)内容多样化;)内容多样化;(3)质量参差不齐;)质量参差不齐;(4)保密性强;)保密性强;(5)每份报告独立成册,有连续编号。)每份报告独立成册,有连续编号。会议文献会议文献会议文献是指在各会议文献是指在各种会议上宣读、交流的种会议上宣读、交流的论文、报告及其它有关论文、报告及其它有关文献。文献。政府出版物政府出版物政府出版物是指由政府出版物是指由政府机构制作出版或由政府机构制作出版或由政府指定出版商出版的政府指定出版商出版的文献。文献。政府出版物的类型政府出版物的类型(1)行政性文件)行政性文

9、件(2)科技文献)科技文献政府出版物政府出版物政府出版物政府出版物政府出版物的特点政府出版物的特点(1)内容广泛,涉及各学科领域;)内容广泛,涉及各学科领域;(2)数量巨大;)数量巨大;(3)资料可靠性强;)资料可靠性强;(4)出版发行方式多样,有重复现象;)出版发行方式多样,有重复现象;(5)保密性;)保密性;(6)售价低廉。)售价低廉。标准文献标准文献与标准化活动有关的一与标准化活动有关的一切文献都称为标准文献。其切文献都称为标准文献。其主体是标准,还包括标准形主体是标准,还包括标准形成过程的各种档案、宣传推成过程的各种档案、宣传推广标准的手册及其它出版物。广标准的手册及其它出版物。标准是

10、按规定程序制订,标准是按规定程序制订,经权威机构公认或主管部门批经权威机构公认或主管部门批准的在特定范围内执行的规格、准的在特定范围内执行的规格、规则、技术要求等规范性文件。规则、技术要求等规范性文件。标准的主要特点标准的主要特点(1)标准的制订、审批程序有专门规定,并有固)标准的制订、审批程序有专门规定,并有固定定 的代号,格式整齐划一;的代号,格式整齐划一;(2)一个标准一般只能解决一个问题;)一个标准一般只能解决一个问题;(3)时效性强;)时效性强;(4)不同种类、不同级别的标准在不同范围内执)不同种类、不同级别的标准在不同范围内执行;行;(5)有一定的法律效力和约束力;)有一定的法律效

11、力和约束力;(6)有自身的检索系统。)有自身的检索系统。中国标准概况中国标准概况*19571957年中国成立了国家标准局,并于年中国成立了国家标准局,并于19581958年颁年颁 布了第一批国家标准;布了第一批国家标准;*19781978年成立国家标准总局,年成立国家标准总局,19791979年颁布年颁布“中华中华 人民共和国标准管理条例人民共和国标准管理条例”*19781978年中国标准化协会(年中国标准化协会(CASCAS)加入了国际标加入了国际标 准化组织(准化组织(ISOISO)*中国标准的等级:国家标准、行业标准、地方中国标准的等级:国家标准、行业标准、地方 标准、企业标准标准、企业

12、标准*中国标准的分类:按中国标准的分类:按中国标准文献分类法中国标准文献分类法学位论文学位论文学位论文是指高等院校和科研单位中的本学位论文是指高等院校和科研单位中的本科生、研究生为获得学士、硕士和博士学位,科生、研究生为获得学士、硕士和博士学位,在导师指导下完成的科学研究、科学试验成果在导师指导下完成的科学研究、科学试验成果的书面报告。的书面报告。*1180年巴黎大学授予了第一批神学博士学年巴黎大学授予了第一批神学博士学位。位。*学位论文答辩制度是由德语国家首创的。学位论文答辩制度是由德语国家首创的。按文献按文献的加工的加工深度分深度分一次文献一次文献二次文献二次文献三次文献三次文献零次文献零

13、次文献 一次文献一次文献*作者以自己的研究成果为基础创作作者以自己的研究成果为基础创作或撰写的文献;或撰写的文献;*对知识的第一次加工;具有创造性;对知识的第一次加工;具有创造性;*大多数期刊论文、科技报告、学术大多数期刊论文、科技报告、学术论文论文 *对一次文献进行加工整理而成的具对一次文献进行加工整理而成的具有报道和检索作用的文献;有报道和检索作用的文献;*对知识的第二次加工;有序化;对知识的第二次加工;有序化;提供一次文献线索;提供一次文献线索;*目录、题录、文摘等检索工具。目录、题录、文摘等检索工具。二次文献二次文献 *利用二次文献系统地检索出一批有关利用二次文献系统地检索出一批有关的

14、文献,对其内容进行比较分析,综合述的文献,对其内容进行比较分析,综合述评而编撰的文献。评而编撰的文献。*对知识的再加工;提供文献检索;对知识的再加工;提供文献检索;*综述、专著综述、专著;字词典、百科全书字词典、百科全书三次文献三次文献 *还未形成一次文献的非出版物;还未形成一次文献的非出版物;*论文草稿、谈话记录、实验记论文草稿、谈话记录、实验记录、书信录、书信零次文献零次文献 一次文献是检索的对象(目标)一次文献是检索的对象(目标)二次文献是检索的工具(手段)二次文献是检索的工具(手段)三次文献是情报研究的成果(检索目标三次文献是情报研究的成果(检索目标+检索手段)检索手段)从检索的角度来

15、看:从检索的角度来看:一次文献是对知识的第一次加工一次文献是对知识的第一次加工(创造性创造性)二次文献是对知识的第二次加工二次文献是对知识的第二次加工(有序化有序化)三次文献是对知识的再加工三次文献是对知识的再加工(有序化有序化+创创造性造性)从知识加工角度来看从知识加工角度来看:现代文献的整体特征现代文献的整体特征1、数量激剧增加、数量激剧增加2、载体形式和文种、载体形式和文种多样多样3、内容交叉重复、内容交叉重复4、文献聚散有序、文献聚散有序5、新陈代谢加快、新陈代谢加快信息资源信息资源凡是能够产生、储存以及传递信息的一切事物。凡是能够产生、储存以及传递信息的一切事物。信信息息资资源源文献

16、信息源文献信息源非文献信息源非文献信息源通过文献而获通过文献而获得情报信息,文得情报信息,文献是获取情报信献是获取情报信息的来源息的来源即非记录性信息资即非记录性信息资源,如实物信息资源,如实物信息资源、口头信息资源、源、口头信息资源、智力信息资源等。智力信息资源等。文献信息系统文献信息系统定义定义 文献信息系统主要是指在一定的范文献信息系统主要是指在一定的范围内,有计划、有组织地建立起的合理围内,有计划、有组织地建立起的合理的多层次的文献信息资源保障体系。其的多层次的文献信息资源保障体系。其目的在于使文献信息收藏相对完备、保目的在于使文献信息收藏相对完备、保证最大限度地满足社会对文献信息的需

17、证最大限度地满足社会对文献信息的需求。求。我国信息系统的体系结构我国信息系统的体系结构(1)图书馆系统)图书馆系统(2)科学技术研究所及其系统)科学技术研究所及其系统(3)档案系统)档案系统(4)专利)专利系统系统(5)标准系统)标准系统学习电子检索的目的与意义v电子检索是培养学生综合能力的基本技能和方法之一。v学习电子检索的目的与意义在于:v1、节省查找文献的时间v2、避免重复别人的劳动v3、促进专业学习v4、克服自然语言和学科专业语言障碍学习电子检索的目的与意义(续)v5、更好地借鉴先进国家的科学技术v6、现代科研的需要v7、适应我国不完善的检索环境的需要文献检索的步骤v1、明确检索要求v

18、2、选择检索工具:根据课题要求及检索工具的特点和检索者的外语水平选择最合适的检索工具。v3、选择检索途径:一般检索工具都有分类目次、著者、主题词等检索标志。v4、查找文献线索:将检索词与检索工具中的文献标志进行比较而决定文献的取舍过程。v5、找到原始文献:根据文献线索提供的文献出处,再利用馆藏目录查找文献收藏单位,而后复制。第一章 计算机信息检索概述 v一、计算机信息检索概述v计算机诞生于20世纪40年代中期,而信息检索(又称情报检索)这个术语则出现在20世纪40年代末。v除了科学计算外,计算机最擅长于各种信息的加工和处理,因此计算机很早就应用于信息检索。早在1954年,美国海军兵器中心就已研

19、制出基于IBM701计算机的情报检索系统,从此产生了计算机信息检索这一新的领域。v信息检索是将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,即人类信息活动的一种过程,都包括存与取两个环节。v存是指一种面向来自各种渠道的大量信息而进行的高度组织化的存贮;即对这些信息迸行序化,在序化的基础上进行存贮:v取就是面向随机出现的信息需求而进行的高度选择性的检索,强调快速便利地检出与需求相关的信息,即根据用户的需要,查出所需的信息。信息管理专业人员,应当熟悉存与取两个环节,而最终的信息用户,主要关心的是取,取什么,如何取。信息检索v从本质上讲,信息检索也是一个通讯过程,信息检索涉及一

20、切有目的和组织化的信息存取活动。v随着计算机多媒体技术、数据库技术、网络通信技术和信息存贮技术的发展,各种信息都可纳入计算机系统,成为数字化的信息。利用计算机存取数字化信息,就是计算机信息检索。与传统形式的信息相比,数字化信息存取的效率会大大提高,它代表着信息检索的方向。第一节 计算机信息检索基本概念v 一、什么是计算机信息检索v计算机信息检索就是在人和计算机的共同作用下去完成信息存取操作,从机器存贮的大量数据中自动分拣出用户所需要的信息的过程。v在检索过程中,用计算机可以识别的代码来表示信息,用便于计算机快速存取的方式存贮信息,表达概念的语词符号为没有内涵的字符串。检索过程就是字符串匹配和逻

21、辑运算的过程,检索过程就是字符串匹配和逻辑运算的过程,即表示用户需求的字符串与计算机内存贮的大即表示用户需求的字符串与计算机内存贮的大量字符串(信息集合)的比较和运算的过程。量字符串(信息集合)的比较和运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。二、计算机信息检索的服务方式v(一)定题服务v定题服务,简称定题服务,简称SDI,是根据用户信息需求,是根据用户信息需求,将预先确定的检索策略长期保留在检索系统中,将预先确定的检索策略长期保留在检索系统中,每当数据库更新时,检索系统便自动输出检索每当数据库更新时,检索系统便自动输出检索结果,定期向用

22、户提供某一课题的最新研究成结果,定期向用户提供某一课题的最新研究成果、动向和发展趋势。果、动向和发展趋势。SDI检索还可以作为累积专题资料的手段,相当于订阅了一种定期的专业刊物。这种检索方式可以大大节省用户的时间,同时又便于他们及时掌握学科发展的最新动向。重点理解重点理解(二)回溯检索v 简称RS,也称追溯检索。用户若要查找一定时间之内或特定时间以前的文献信息可采用回溯检索方式,这种检索方式不仅允许用户查找最新资料,而且允许用户查找数据库存储的全部文献信息。这种检索对于着手研究新课题、申报科研成果、申请专利者尤为适用。v(三)联机订购原文v 一般情况下联机检索到的是二次文献,即原始文献的题录、

23、索引、文摘,如果需要原始文献,而又无馆藏时,则可通过检索终端向检索系统订购原文的复制品、缩微胶卷或缩微平片。v(四)全文检索v在全文检索系统中存储的是文献全文,这种检索系统具有多种功能,除了获取原文文字外,还可获得声音、图片、图像和视频等多媒体信息还可以提供文献中某个同的出处、某个词出现的频率等。基于任意字符串的全文检索方式是当前计算机信息检索的发展方向之一。第二节 计算机信息检索原理v 一、计算机信息检索原理v信息检索是将信息按照一定的体系排列存贮在某种介质上,并按照用户的提问要求查找出所需信息的过程,包括存贮和检索两部分。信息检索按检索对象划分,有文献检索、数据检索和事实检索,其中文献检索

24、尤为重要,目前在信息检索领域仍处于主要地位。下面以文献检索为例,来说明计算机信息检索的基本原理。v信息存贮是把信息按照一定的体系和格式加以整理后记录在计算机专用介质(如磁带、磁盘、光盘)上,信息存贮通常分为三个环节信息存贮通常分为三个环节,如下所述:v(1)文献主题分析文献主题分析:标引人员浏览文献摘要或正文,确定它的主题内容,用若干个能表征其内容的概念来揭示文献的主题内容。v(2)转换转换:利用系统使用的词表把信息提问转换成检索词,再把检索词加上较严格的条件限制后用逻辑运算符连接起来,编成检索提问式输入计算机中。v(3)输出输出:检索提问式输入计算机后,在数据库中自动进行检索,只要数据库中的

25、文献特征标识及其逻辑组配关系与检索提问相匹配,则属检索命中,即找到了符合要求的信息,将检索结果存盘或打印输出。重点记忆、理重点记忆、理解、掌握解、掌握(二)计算机信息检索系统数据库的特点 v为了能够进行随机检索,每个数据库都存有一个顺排文档和两个倒排文档。顺排文档存入了数据库的全部记录;倒排文档存入了数据库全部记录的文献特征标识(即索引单元)。v 1、顺排文档:将数据库中全部完整记录按一定格式和顺序排列而成的文献记录集合,其中一条文献记录信息是由记录号、文献内容特征及文献外部特征标识构成。信息检索系统数据库的特点(续)v 2、倒排文档:将顺排文档记录中的全部文献特征标识分门别类地按一定的顺序排

26、列而成的信息集合,其中的一条记录信息是由特征标识、含这些特征的文献号集合及文献号集合地址所构成。v 在实际的检索系统中,为了提高检索速度,把索引倒排文档分成两个文档:索引文档和存取号倒排文档。信息检索系统数据库的特点(续)v1)索引文档中主要存入:v 数据库的索引单元(按字母或数字顺序排列)v 索引单元的字段或字段位置标识符v 数据库中含有索引单元的记录篇数v 与索引单元对应的存取号集合的地址指针v2)存取号倒排文档中存入:v 上一文档中的地址v包含上一文档中索引单元的记录的存取号,对每一索引单元都有一组相应的存取号集 第三节 数据库的类型 v数据库(database)被定义为:“至少由一种文

27、档组成,并能满足基本数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存贮设备上按一定方式存贮的相互关联的数据集合。在欧洲,多用“databank”一词表示数据库,且一般指非文献型的数值型数据库。数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源管理工具,也是计算机信息检索的基础。数据库的类型(续)v划分数据库类型有多种标准,按照国际上通用的分类方法,数据库通常划分为以下三种类型:v(l)参考数据库(reference databases):v指引用户到某一信息源以获得原文或其它细节的一类数据库。v曾经占主流地位的联机信息检索系统就以文摘数据库为主。如:中国科技期刊

28、篇名数据库 v(2)源数据库(source databases)v 能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其它信息源。目前最流行的全文数据库和多媒体数据库就是典型的源数据库,如人民日报全文光盘,中国学术期刊光盘。v(3)混合型数据库(mixed databases)v 能同时存贮多种不同类型信息的数据库,可能包括全文文本、多媒体信息或文摘、题录性信息。许多专题数据库系统都是混合型的。v 另外,还可按其载体形式区分为磁媒体数据库和光盘数据库,也可根据是否适用于网络环境来分成单机版数据库和网络版数据库。值得一提的是,近几年涌现的多媒体数据库是一种新型的数据库,能将文字、数值、声

29、音、图像等性质不同的信息存贮于不同媒体上进行一体化处理和管理。数据库的类型(续)v在实际应用中,我们往往按内容来划分数据库类型:v一、书目数据库v 书目数据库只存贮有关主题领域各类文献资料的书目信息,为用户鉴别和获得有关文献提供必要的文献属性信息和来源指示。所以,人们通常把它归入参考数据库的范畴,它的内容、结构和使用方法都有别于其它数据库。书目数据库(续)v书目数据库中的数据来源于期刊论文、会议论文、研究报告、专利文献、学位论文、图书、政府出版物、报纸等各种不同类型的一次文献,是经过加工、压缩的派生性数据。v 书目数据库通常都是文摘索引期刊和图书目录实现计算机化生产的产物,故每个数据库一般都有

30、相应的书本式检索工具或卡片式目录。v 图书馆自建的馆藏书目数据库是一种特殊的书目数据库,也是图书馆信息检索系统的基本组成部分。二、全文数据库 v目前,一些报纸、法律文本、百科全书以及辞典等,以电子出版物的形式存贮在联机检索系统中,可以通过某些信息检索系统进行检索。全文数据库允许用户查找的是整个文献,而不象书目数据库那样只提供文献的题录或文摘;许多系统允许检索出现于文献中任何地方的文字,而并非只能检索主题标目中所用的文字。全文数据库(续)v在这里,全文数据库的定义只限于那些以机读形式出现的文章、图书、报纸资料、百科全书等等的文本。通过某些检索系统,可以联机检索这些文本中的每一个字,此类检索通常称

31、为自由文本检索,也称全文检索。这里所说的全文数据库不包括以全文形式存在,而不具备检索功能的全文数据库。全文数据库的种类比较丰富。全文数据库(续)v按出版方式划分,全文数据库可分为两类:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。v 按存贮内容划分,全文数据库有直接原文型和文摘型。前者直接存贮文献的正文,有时甚至还包括正文以外的其它信息,如脚注、参考文献目录、文摘等。文摘型就是原文经过压缩提炼,改写成若干篇一定长度的摘要。现在的全文数据库多为直接原文型。按应用领域划分全文数据库类型v按应用领域划分,目前主要有以下类型:v 1、法律法规全文库或条例库。v 法律信息

32、多年来一直是全文检索的领先者。众所周知,法律条文中的每句话甚至每个字都是很重要的。有的甚至可以说是一言九鼎,而实际生活中各种法律多如牛毛,手工查找非常困难,书目数据库又不能直接提供原文。所以,法律界对全文数据库的需求最为迫切。国内比较有影响的是法律之星和中国法律法规数据库。按应用领域划分全文数据库类型(续)v2、新闻资料数据库。v在商业性的信息检索系统中,也广泛提供报纸、新闻公报之类的材料。v3、杂志和参考书数据库。v从1983年起,DIALOG信息检索服务公司和书目检索服务公司(BRS)开始将专业杂志和参考书增加到它们的服务中来。我国也出现了这种检索方式,如清华大学出版的中国学术期刊(光盘版

33、)全文数据库。按应用领域划分全文数据库类型(续)v4、商情全文库。v 如英国Datasolve公司的市场新闻和研究报告全文库,美国哈佛商业评论全文库。v 5、医学文献全文库。v 全文数据库是一个发展中的领域,市场潜力很大。自上世纪60年代末以来,已有越来越多的公司、政府机构、专业图书馆、信息中心、档案馆及其他研究机构利用它来管理科技报告、试验记录、专利申请、预印本等。三、数值数据库v数值数据库是一种以自然数值形式表示、计算机可读的数据集合。与它相类似的是文本数值数据库。后者除含有数值性数据外,还包括文本数据。v 数值型数据是人们从文献资料中分析提取出来的,或是从实验、观测或统计工作中直接得到的

34、。数据库生产者把这些数据收集起来,经过核实、检验和加工整理,按一定方式组织起来,利用计算机进行存贮和检索,就成了数值数据库。如果数据库中还含有定义数值和说明这些数据项所必需的文字(文本数据),那它就是文本数值数据库。它可以直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策和预测的重要工具。v目前世界上200多个联机信息检索系统所用的数据库中,以数值数据库为主的源数据库占91。数值数据库主要涉及科学技术和社会科学,科技领域的数值数据库有两个明显特征:一是学科特性,即每一库都涉及到某一科学技术领域的专门化语言,如化合物数据库的化学结构图就是一例;二是国际性,许多数值库的建设都要

35、依赖于国际合作。社会科学领域的数值库,主要分布在经济和商业领域,即有关经济统计与预测、财政金融及商务等方面的数据库。这类数据库的内容覆盖着广泛的主题和地理区域以及较长的历史时期,能回答有关物价、利率、金融、贸易、产值、就业、住房、人口、工资等许多方面的问题。如北京市的人口数据库。四、指南数据库 v指南数据库是存贮有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库。有人称之为“指示性数据库”或“事实数据库”(fact database),它的主要用途是供用户查询有关某一事物的发生时间、地点、过程或简要情况,主要包括名录数据库、传记数据库等。v指南数据库可分为以下几种类型:vl、人物传

36、记数据库l、人物传记数据库v收录各种人物的传记信息,大多是传记词典的机读版。如马奎斯传记词典的机读版“MARQUISWHOSWHO”就是一种较有代表性的传记数据库。它存贮有75000名来自政界、商界、科学界、体育与艺术界及娱乐界的知名人士的传记信息,包括他们的职业、教育、成就、政见、宗教信仰、工作单位、家庭住址等方面,有50多个可检字段。2、公司名录数据库v收录各种公司的生产与经营活动信息。较重要的有“电子黄页”、“TRINET机构数据库”等。“电子黄页”(Electronic Yellow Pages)是美国市场数据检索公司,根据全美4800部电话簿中所夹印的“黄页”(广告页)中提供的公司信

37、息而生产的一种名录数据库。它提供有各公司企业的内部组织机构、雇员数量、公司资产等内容。用户可以通过公司名称、地址、标准工业分类表(SIC)、邮政号码等途径进行检索。“TRINET机构数据库”由“TRINET”公司生产。它提供美国各产业部门拥有雇员20人以上的公私营机构40万个,包括机构的名称、地址、SIC号、销售额、市场份额、电话号码等数据。v3、基金指南库v存贮各种基金信息。如美国“基金指南数据库”(Foundation Directory)存贮有3500种基金的名录信息和细节描述,包括基金的用途,每年拨款数额,基金会的活动等信息。v4、技术标准指南库 v存贮各种技术标准或规程的有关信息。如

38、美国的“标准与规程”(Standard and SPecifications)指南库收录有美国颁布的各种军用标准、联邦标准以及私营工业部门的标准或规程。5、软件数据库 v 存贮有各种计算机软件目录信息。如美国“菜单”(MENU)指南库存贮有55000多种软件包的信息,包括每种软件包适用的计算机类型、操作系统、应用的领域、经销商、生产者、需要的最低内存空间、售价、或获得的担保等。6、产品指南库 v存贮各种产品或商品信息。如我国有关部门研制的“机电产品数据库”、“中国化工产品数据库”以及各种科技成果数据库。“中国化工产品数据库”收录有全国8000多个企业,15000多种化工产品的生产方法、生产能力

39、和产量等数据。“机械工业科技成果数据库”收录有我国机械行业中各科研机构、高校和企业提供的科研成果信息,包括科研项目、新产品、技术革新项目。技术转让项目、技术引进项目、标准化工作成果和信息工作成果。五、术语数据库v术语数据库(Terminological Bank)是一种计算机化的术语词典或词库,俗称电子辞典或机读词典,英文称Lexicon”。术语库是一种非常有效的术语控制和规范化工具,对事物或现象的名称和概念起规范作用。六、多媒体数据库v目前,在数据库家族内,出现了一支引人瞩目的新军,那就是多媒体数据库(multimedia database)。它提供人们存贮和检索文字、图形图像、声音或动画、

40、视频等多种媒体资料的一种源数据库。多媒体数据库主要应用于下面几个领域:v多媒体资料检索与提供(传送)。多媒体数据库主要应用领域(续)v在日常工作中,一个记者或教师可能要为他的文章或课程寻找合适的图像来加强效果;导游人员可能要借助图像资料来选择旅游点;历史学家可能要利用图像资料来研究某一时期的历史;软件开发人员可能要查询声音、音乐或贴图资料。这些场合,多媒体数据库可成为他们的一种有用的检索工具。v基于多媒体的计算机辅助教学。多媒体数据库往往可以作为多媒体教学的工具。多媒体数据库主要应用领域(续)v计算机辅助诊断或鉴别。存贮有医用图像或照片的数据库可以成为计算机辅助诊断系统的一部分。有关的图像资料,可以帮助分析患者的症状。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(计算机信息检索概述(7)课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|