1、化学信息学化学信息学电电 子子 资资 源源 部部 分分1.电子资源 传统上也称为电子出版物,指一切以电子方式或机读方式生产和发行的信息资源。电子资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。1.1 电子资源的产生与发展电子资源的产生与发展1960年代初,年代初,化学题录化学题录(Chemical Title)和和医学索引医学索引(美国国家医学图书馆美国国家医学图书馆)相继产生。相继产生。1965年,已有大约年,已有大约20个数据库可供使用,但这时的数据库存个数据库可供使用,但这时
2、的数据库存储介质仅限于机读磁带,内容以科技文献书目、索引、文摘储介质仅限于机读磁带,内容以科技文献书目、索引、文摘为主。为主。1965年以后,由于集成电路计算机及硬盘的产生,以及数字年以后,由于集成电路计算机及硬盘的产生,以及数字通讯技术和分组交换网的发展,开始有了数据库联机检索,通讯技术和分组交换网的发展,开始有了数据库联机检索,著名的著名的DIALOG系统以及系统以及MEDLINE、ORBIT、BRS、JOIS等相继开始服务,数据库的数量开始成倍增长,到等相继开始服务,数据库的数量开始成倍增长,到1975年,年,已达到近已达到近300个数据库。个数据库。1970年代末以后,卫星通讯技术、光
3、纤通讯技术、个年代末以后,卫星通讯技术、光纤通讯技术、个人计算机的产生和发展给数据库联机检索创造了空前人计算机的产生和发展给数据库联机检索创造了空前的发展机会,联机检索已不受地域限制,向国际化发的发展机会,联机检索已不受地域限制,向国际化发展,个人用户开始加入到数据库检索行列中来。数据展,个人用户开始加入到数据库检索行列中来。数据库的生产由美国向西欧扩展,在短短十年内即增长了库的生产由美国向西欧扩展,在短短十年内即增长了10倍,到八十年代末,数量已达到倍,到八十年代末,数量已达到3600多个。数据库多个。数据库的容量增加,存储介质增加了光盘,因而也就产生了的容量增加,存储介质增加了光盘,因而也
4、就产生了光盘数据库检索系统:数据库类型也有了变化,除以光盘数据库检索系统:数据库类型也有了变化,除以往的书目、文摘、索引数据库外,全文数据库开始迅往的书目、文摘、索引数据库外,全文数据库开始迅速增加,而数值数据库、指南数据库等也已出现。速增加,而数值数据库、指南数据库等也已出现。进入进入1990年代,网络和信息处理技术的发展,使得年代,网络和信息处理技术的发展,使得基于互联网开发的电子资源及其检索系统有了突飞猛基于互联网开发的电子资源及其检索系统有了突飞猛进的增长,进的增长,12 电子资源的类型电子资源的类型 参考数据库:参考数据库:英文为reference databases,指包含各种数据
5、、信息或知识的原始来源和属性的数据库。数据库中的记录是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要、分类等,然后形成的。参考数据库主要包括:书目数据库、文摘数据库、索引数据库。书目数据库主要是针对图书进行内容的报道与揭示的,如各图书馆的馆藏机读目录数据库;文摘和索引数据库则相对期刊论文、会议论文、专利文献、学位论文等进行内容和属性的认识与加工,如科学引文索引(Science Citation Index)、化学文摘(Chemical Abstracts)、工程索引(Engineering lndex)等。全文数据库:全文数据库:英文为full-text databases,即收录有
6、原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。如美国的LEXIS-NEXIS数据库、学术期刊图书馆(ProQuestAcademicResearchLibrary)及中国人民大学书报资料中心复印报刊资料全文数据库等。事实数据库:事实数据库:英文为factual databases,指包含大量数据、事实的数据库,分为数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。电子图书:电子图书:英文为electronic books,近年来网络电子图书尤其发展迅速,
7、已涉及到了很多学科领域。电子期刊电子期刊:英文为electronic journals或简称e-journal,包括:与纸本期刊并行的电子期刊,如著名的科学(Science)、自然(Nature)、中国电子期刊杂志社的期刊等:纯电子期刊,如化学通报(电子版)。电子报纸:电子报纸:英文为electronic newspaper,目前网上已有数千种报纸供用户使用。其它:如网站、FTP(文件传输)站点等,可以给用户提供一些有用的知识、动态信息或软件等。2 电子资源的检索电子资源的检索21 电子资源检索系统 电子资源检索系统:由硬件、软件、数据库三部分组成。硬件:硬件:大型计算机主机、服务器、存储器(
8、硬盘或光盘)、通讯网络、计算机终端等。软件:软件:数据库系统管理软件、检索软件。包括:信息采集、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布等模块。数据库:数据库:按一定方式存储的相互关联的数据集合。由于数据库中的信息都经过了详细、精心的选择和加工,主题化,有序,能够提供多种检索途径,因此相对互联网上无组织和大量无用的信息来说,检索结果准确,价值高。按设备和检索方式划分检索系统类型:联机数据库检索按设备和检索方式划分检索系统类型:联机数据库检索系统、光盘数据库检索系统、网络数据库检索系统。系统、光盘数据库检索系统、网络数据库检索系统。22 联机数据库检索联机数据库检索 联机检
9、索(online retrieval)是指用户利用计算机终端设备,通过通信线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程。检索终端通讯网络中央计算机数据库联机检索中心外设联机检索系统的网络结构联机检索系统的特点是:联机检索系统的特点是:l 数据库数量多,信息量大。l 数据库更新快。l 数据库和系统集中式管理,安全性好,可以在存储设备上直接处理大量数据,但主机的负担重,网络扩展性差。l 检索模式:主仆式,即所有的工作都在主机上进行。l 信息组织模式:普通线性文本。l 检索机制:检索功能强,索引多,所有的数据库使用统一的命令检索,必须由专业人员检索。l 系统连接需通过通讯线路或网络进
10、行,需支付通讯费用。l 检索费用贵。l 检索界面单一,过于呆板。现有的联机数据库检索系统:Dialog,STN,LEXIS-NEXIS,2.3 光盘数据库检索光盘数据库检索 光盘数据库通常是指CD-ROM数据库。CD-ROM(Compact Disc Read-only Memory),意为只读光盘,轻便、灵活、体积小、容量大,一张只读光盘的最大存储量为600M,可存储文字、图片、图像、声音等。客户端光盘服务器系统软件光盘驱动器客户端客户端数据库光盘检索数据库检索光盘检索数据库检索联机光盘检索系统特点:l 数据库数量没有联机检索多。l 数据库更新速度慢,一般为月更新或季更新。l 数据库和系统集
11、中式管理,负担重,数据库和用户越多,响应时间越长。l 检索模式:客户端/服务器,客户方运做在微机上进行、l 信息组织模式:普通线性文本。l 检索机制:检索功能强,索引多,不同的检索系统使用不同的检索命令,具备命令检索和菜单检索两种方式,后者对非专业人员来说,易学易用。l 系统访问通过局域网就可以进行,不需支付通讯费用。l 检索环境宽松,检索费用低。用户界面比较友好。2.4 网络数据库检索网络数据库检索 网络数据库(web-database)检索是指用户在自己的客户端上,通过互联网和统一的 浏览器界面对数据库进行检索,这一类检索系统都是基于互联网的分布式特点开发和应用 的,即数据库分布式存储,不
12、同的数据库分散在不同的服务器上:用户分布式检索,任何 地方的终端都可以访问并存储数据:数据分布式处理,任何数据都可以在网上的任何地点 进行处理。网络数据库检索系统特点:l 数据库数量多,信息量大,同时提供了其它服务项,如有关的动态信息、统计数字、相关站点的链接等。l 数据库更新速度快,一般为日更新。l 数据库和系统分布式管理,响应快。l 检索模式:客户端服务器方式,客户方运做在微机上进行,分析从服务器上返回的数据,给用户显示信息;服务方则给用户提供客户端应用程序,分析处理各类请求,并提供数据服务。l 应用程序与数据隔离,数据相对独立、完整、安全性好:但对客户方来说,由于访问是通过互联网进行的,
13、安全性较差。l 信息组织模式:超文本。l 检索机制:检索功能强,索引多,不同的检索系统使用不同的检索命令,通过WWW浏览器提供检索,对非专业人员来说,易学易用。l 系统访问通过互联网进行,需支付少量通讯费用。l 检索环境宽松,检索费用较联机检索低,但高于光盘检索。l 用户界面基于WWW浏览器开发,方便友好。25 检索语言检索语言 检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。人工语言(artificial lan
14、guage)是根据信息检索的需要而由人工创制的,采用规范词(controlled term),由人工控制,包括分类检索语言(分类号)和主题检索语言。自然语言(natural language)检索用词是从文献本身抽取的,是非规范词(uncontrolled term),它的标识包括关键词、题名、摘要、全文等。3.电子资源的检索方法与技术3.1 检索方法检索方法对检索课题进行分析:明确课题的主题或主要内容:课题涉及的学科范围:所需信息的数量、语种、年代范围、类型、作者等。制定检索策略:选择相关数据库,特别要注意数据库是否与上述分析相吻合32 检索技术检索技术321布尔逻辑检索布尔逻辑检索:即运用
15、布尔逻辑算符(Boolean operators)对检索词进行逻辑组配,表达两个概念之间的逻辑关系。逻辑与and:检索时,命中信息同时含有两个概念,专指性强;逻辑或or:检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索范围加大了;逻辑非not:命中信息只包括逻辑A,不包括逻辑B或同时有A和B的,排除了不需要的检索词;逻辑异或xor:命中信息包含逻辑A,也包含逻辑B,但不包含同时含有A和B的信息。ABABA and BA or BABA not BABA xor B322位置算符检索 即运用位置算符(position operators)表示两个检索词间的位置邻近关系,又叫邻接检
16、 索。这种检索技术通常只出现在西文数据库中。常用的位置算符有:(W)、(nW)、(N)、(nN)、(F)、Same3.2.3截词检索(truncation)用截词符号“?”、“*”或“$”加在检索词的前后或中间,以检索一组概念相关的词。中文数据库通常不使用这种技术。后截断,又称右截断:chromatograph*,可检c h r o m a t o g r a p h y、c h r o m a t o g r a p h i c、chromatographer.前截断,又称左截断:*magnetic,可检electro-magnetic、electromagnetic、thermomagne
17、tic、thermomagnetic 中截断:如organi?ation,可见organisation、orgamzatlon。也有一种说法,把中截断叫做通配符(wildcard),原理、用法大致同。3.2.4 字段限制检索 AB Abstracts 文摘 AU Author 作者 CS Corporate Source 机构名称 DE Descriptor 叙词 DT Document type 文献类型 FT Full-text 全文 JN Journal name 期刊名称 KW Keyword 关键词 LA Language 语言 PY Publication year 出版年 SU Subject 主题 TI Title 题名