1、第一章第一章 信息检索概论信息检索概论2004喻萍1.1 1.1 信息检索概念及其意义信息检索概念及其意义1.2 1.2 信息文献基本知识信息文献基本知识1.3 1.3 信息检索语言信息检索语言1.4 1.4 信息检索基本方法及步骤信息检索基本方法及步骤第一章第一章 信息检索概论信息检索概论1.1.1 信息检索含义 信息检索(信息检索(Information Retrieval)指从指从大量的信息集合中找出所需信息的过程与方法。大量的信息集合中找出所需信息的过程与方法。广义:包含信息储存和查找两部分广义:包含信息储存和查找两部分(Information Storage and Retrieva
2、l)狭义:信息查找(狭义:信息查找(Information Search)1.1 信息检索含义及意义信息检索含义及意义1.1.2 信息检索能力培养的意义信息检索能力培养的意义 信息检索能力与信息素质信息素质概念信息素质概念:1974年美国信息工程协会年美国信息工程协会主席主席Paul,Zurkowski首次定义为:首次定义为:“利用大量的信息工具及主要信息源使问利用大量的信息工具及主要信息源使问题得到解答的技术和技能题得到解答的技术和技能”具备明确信息需求的内容与范围的能力高效获取所需信息 能客观、审慎地评估信息与信息源 个人或作为群体的一员能有效地利用信息以完成特定的任务 获取与使用信息要符
3、合道德与法律规范 美国美国 高等教育信息素质标准(高等教育信息素质标准(1998)n 能够定义、并明确地表述信息需求n 能够识别各种潜在的信息资源的类型和形式n 能够考虑获取所需信息的代价和受益n 重新评估所需信息的性质和范围标准一标准一具备明确信息需求的内容与范围的能力标准二标准二高效获取所需信息n 信息源分布(图书馆、网络资源、专业协会、研究机构等)n 选用恰当的调查研究方法n 信息检索系统中利用有效方法和检索策略(如关键词、相关术语、规范化语言、逻辑算符、命令语言)n 概括信息源的适用性n 评价和比较信息的可靠性、权威性、时 效性n 综合主要观点的逻辑统一、可查实性能客观、审慎地评估信息
4、与信息源标准三标准三个人或作为群体的一员能有效地利用信息以完成特定的任务标准四标准四n应用信息创造成果、完成项目(如完成课题报告、学位论文等)n为实现成果和目标修正学习过程n选用最有力的交流媒体和形式标准五标准五获取与使用信息要符合道德与法律规范n 识别并研究印刷型、电子型信息环境的 隐私和安全n 免费和收费信息n 知识产权、版权n 合适的文献格式,引用格式等1 信息意识教育信息意识教育2 信息能力教育信息能力教育3 信息道德教育信息道德教育信息素质教育包括的内容信息素质教育包括的内容信息与经济、科技、生活的关系信息与经济、科技、生活的关系 信息:1 音讯、消息 2 通讯系统传输和处理的对象
5、3 客观事物存在的方式及运动状态的表征。信息的基本属性:普遍性、客观性、传递性、共享性、中介性、可储性、可知性、无限性。1.2 信息、文献基本知识信息、文献基本知识1.2.1 信息、文献概念 文献:是人们用以记录和传播各种知识信息载体。载体形态如纸张、磁盘、光盘。缩微平片等。情报:被激活的那部分信息。信息信息知识情报文献1.2.2 信息、知识、情报、文献的关系一次文献(primary document):指作者以本人的研究成果为基本素材而创作或撰写的文献。二次文献(secondary document):指对一次文献进行加工、提炼和压缩后所得到的报道性产物。检索工具书和网上引擎是典型的二次文献
6、。三次文献(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的具体知识、数据。如大百科全书、辞典等。1.2.3 文献等级文献等级知识产生记录一次文献传播利用新知识的产生研究、实验、实践、综合三次文献二次文献 a.科技图书:科技图书:世界年出版50万种。b.科技期刊科技期刊(periodical):年出版10万种,500万篇。c.科技报告:科技报告:报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构。报告是一种典型的机关团体出版物。如美国政府工作报告:PB报告,NASA报告、AD报告、DO
7、E报告。年90万篇。1.2.4 文献型科技信息源文献型科技信息源(一次文献)一次文献)d.会议文献:会议文献:指学术会议文献。年十万余篇。e.学位论文:学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文博士学位论文中,常含有独创性的学术性文献资料f.专利文献:专利文献:专利是与产业活动密切相关的,因而其实用性非常强。根据专利的技术水平和应用情况,其类型有invention(发明)、utility patent(实用新型)、和design patent(外观设计)等。年50万件。g.标准文献:标准文献:标准化主要包括三个方面:产品标准化,即产品质量要符合技术规定;零部件通用化
8、;产品规格化和系列化。1.2.5 二次文献类型(检索工具)二次文献类型(检索工具)1)目录。以书名、刊名、会议名等为单位编写。2)题录。如:200008568 我国食品与包装机械市场预测刊田恒真(中国农机院食品研究所)/包装与食品机械。-2000,18(1)。-1-53)索引。如:机械加工 00003 00395 11009 14561 -模型 00375 -误差 18007 11456 -发展 131754)文摘。如037840 Algorithm for fuzzy multi-criteria decision-making.This paper presents a new algor
9、ithm for solving the general fuzzy multi-criteria decision making(MCDM)problem involving fuzzy data expressed by means of linguistic terms.(Author abstract)14 Refs,English.Yeh,Chung-hsing(Monash Univ,Clayton,Aust);Deng,Hepu.Proc IEEE Int Conf Intell Process Syst ICIP v.2.1998 Proceeding of Systems,I
10、CIPS.Part 2(of 2),Beijing,China,IEEE,Piscataway,NJ,USA,p1564-1568.1.2.6 1.2.6 三次文献三次文献(参考工具书参考工具书)概述概述一一 中国古代工具书简介中国古代工具书简介1)字词典 使用部首法排序。如说文解字、康熙字典。2)韵书 按韵编排汉字的字书称为韵书。如佩文韵府。3)类书 类书是采集古代文献资料,按类别或韵母编排,以供寻检、征引使用的工具书。如宋太平御览、明永乐大典。4)政书 政书是记载历代典章制度的史书。它搜集我国历代或某一朝代政治、经济、文化、军事等史料,分门别类,按时代先后顺序编排。如唐.杜右通典、元典章、
11、明会典、清会典等。二二 近代参考工具书类型近代参考工具书类型1、字词典 近代 词源、辞海、汉语大词典 上海辞书出版社,1986年第一卷,自第二卷起改由汉语大词典出版社出版,共出12卷。共收词语37万条,5 000余万字。2、百科全书 百科全书是概述一切学科领域或者某一学 科领域基本知识的具有权威性、知识性、检索性的大型工具书,被称为“工具书之王”。二二 近代参考工具书类型近代参考工具书类型中国大百科全书 19781993年编,全书按学科或知识领域分为74卷,其中正文学科分73卷,总索引1卷。总条目7.8万条,总字数1.26亿字总插图近5万幅,其中彩图1.5万幅。不列颠百科全书3、年鉴、年刊、年
12、报4、手册二二 近代参考工具书类型近代参考工具书类型5、名录经济机构名录 如世界企业500强。商品名录 如美国进出口商品名录。地名录 如世界地名录。人名录 如当代中国经济学家录。6、资料汇编7、表谱8、图录三三 工具书的主要排检方法工具书的主要排检方法1、字顺排检法 形序法:部首法、笔画法、笔顺法、号码法 音序排检法:汉语拼音字母顺序排列法;西文字母顺序排列法;韵部排列法,中国古代按音编制的汉字检字法大都是按韵部排列的。2、分类排检法 分类法是将图书资料按学科、事物性质等系统加以排列的一种方法,也是目前 世界各国应用最广泛的一种方法。七分法,又称七略。产生于东汉时期的刘向、刘歆所编,定本132
13、19卷。全部分为:六艺略、诸子略、诗赋略、兵书略、数术略、方技略和辑略,略下分38种。四分法,清代以来古籍编目常用的方法。以经、史、子、集四部排,经部下分10类,史部下分15类,子部下分14类,集部下分5类。总共四部,44大类,67子目,如四库全书总目200卷。n 中国图书馆图书分类法三三 工具书的主要排检方法工具书的主要排检方法n杜威十进分类法n国际十进分类法n国际专利分类法3、主题排检法 以代表文献主题内容的主题词为标识检索文献的途径,这类索引以主题词(标题词、关键词、叙词等)的字顺编排。三三 工具书的主要排检方法工具书的主要排检方法4、时序排检法 常用于编制年表、历表、年谱等工具书方面。
14、它按时间顺序先后排列的一种方法。5、地序排检法 常用于编制考查地理和地方资料工具书。检索语言描述文献外表特征的语言A 作者B 号码C 其他(书名、引文、出版社、出版日期等)描述文献内容特征的语言a 分类语言b 主题语言1.3 信息检索语言信息检索语言1、杜威十进分类法、杜威十进分类法(DDC)(Dawey Decimal Classification and Related Index)是世界上比较流行,也比较权威的一种图书分类是世界上比较流行,也比较权威的一种图书分类方法。方法。由美国图书馆学家麦维尔由美国图书馆学家麦维尔杜威于杜威于18761876年年首创,它由大类、门、纲、目、子目等组成
15、。首创,它由大类、门、纲、目、子目等组成。它将全部学科的书刊分为九大类,用它将全部学科的书刊分为九大类,用1到到9间的数间的数字表示,不属于这九类中的图书为第字表示,不属于这九类中的图书为第0类。每一大类。每一大类下再分类下再分1到到9个子类,依此类分下去。个子类,依此类分下去。1.3.1 1.3.1 文献分类方法文献分类方法(分类语言分类语言)000 000 总论总论 100 100 哲学哲学 200200宗教宗教 300300社会科学社会科学 400400语言学语言学 500500纯粹科学纯粹科学 600600技术科学技术科学 700700美术美术 800 800 文学文学 900 900
16、 历史历史2 2、国际十进分类法、国际十进分类法(UDC)UDC)UDCUDC已有已有2323种语言的版本。种语言的版本。UDCUDC的类目表主要由主表与辅助符号、辅助的类目表主要由主表与辅助符号、辅助表组成。表组成。UDCUDC的主表把全部知识分为十大的主表把全部知识分为十大门类,每一类下分大纲、目、分目。门类,每一类下分大纲、目、分目。UDCUDC基本分类如基本分类如 0 0 总论总论 1 1 哲学、心理学哲学、心理学 2 2 宗教、神学宗教、神学 3 3 社会科学、法律、社会科学、法律、行政行政 4 4 语言学语言学 5 5 数学、自然科学数学、自然科学 6 6 应用科学、医学、应用科学
17、、医学、工学、农学工学、农学7 7 艺术、美术、摄艺术、美术、摄影、音乐、娱乐、影、音乐、娱乐、竞技竞技8 8 语言学、文学语言学、文学9 9 地理、传记、历史地理、传记、历史 A 马克思主义、列宁主义、毛泽东思想马克思主义、列宁主义、毛泽东思想 B 哲学哲学 C 社会科学总论社会科学总论 D 政治、法律政治、法律 E 军事军事 F 经济经济 G 文化、科学、教育、体育文化、科学、教育、体育 H 语言、文字语言、文字 I 文学文学 J 艺术艺术 K 历史、地理历史、地理社社 会会 科科 学学 3、中国图书馆分类法中国图书馆分类法N 自然科学总论自然科学总论O 数学科学和化学数学科学和化学 P
18、天文学、地球科学天文学、地球科学 Q 生物科学生物科学R 药学、卫生药学、卫生 S 农业科学农业科学 T 工业技术工业技术 U 交通运输交通运输 V 航空、航天航空、航天 X 环境科学、劳动保护科学环境科学、劳动保护科学Z 综合性图书综合性图书自自 然然 科科 学学TTBTGTHTETUTB1TB9TB2TB3TB4TVTB1TB4TB3TB2TB5TB9TB41TB42TB48TB49TB47TB482TB488TB489以T-工业技术大类下的TP类展开下位类如下:T 工业技术TP 自动化技术、计算机技术TP3 计算技术、计算机技术TP39 计算机应用TP393 计算机网络TP393.0 一
19、般性问题TP393.01 计算机网络理论TP393.02 计算机网络结构与设计T工业技术类中国分类法举例工业技术类中国分类法举例 从上表看出从上表看出分类号的变化体现了各学科体分类号的变化体现了各学科体系的从属关系,分类号位数每增加一位,则分系的从属关系,分类号位数每增加一位,则分类级别便低一级。类级别便低一级。如如TP39代表计算机应用,代表计算机应用,TP393类目是计算机类目是计算机网络,是网络,是TP39的下位类。的下位类。直接查找法直接查找法 熟悉分类表,按学科体系从大类开始逐级查找熟悉分类表,按学科体系从大类开始逐级查找l l 对于只存在一个主题的课题,方法就较简单。如对于只存在一
20、个主题的课题,方法就较简单。如“机械手机械手”。当要求的主题过于狭窄,没有相应类目存当要求的主题过于狭窄,没有相应类目存在,可归属在其上位类。在,可归属在其上位类。l l 对于包含有两个以上主题内容的课题,如对于包含有两个以上主题内容的课题,如“机械机械手的控制系统手的控制系统”涉及涉及“机械手机械手”和和“控制系统控制系统”两个主两个主题概念,这时应考虑它们的主从关系,在这个课题中研题概念,这时应考虑它们的主从关系,在这个课题中研究的是仅针对机械手而言的控制系统,可以说是控制系究的是仅针对机械手而言的控制系统,可以说是控制系统在机械手中的应用,当研究某种理论、方法、工艺等统在机械手中的应用,
21、当研究某种理论、方法、工艺等在某领域的应用时,应分在其应用的类目,即在某领域的应用时,应分在其应用的类目,即“机械手机械手”所在类目。所在类目。确定分类号的方法有以下二种:确定分类号的方法有以下二种:l l 对有两个主题,又没有主次或应用关系的课对有两个主题,又没有主次或应用关系的课题,则在检索相关文献时应分别在两个分类号或两题,则在检索相关文献时应分别在两个分类号或两个主题领域中查找。如加入个主题领域中查找。如加入WTO对我国纺织业的对我国纺织业的影响。影响。间接获取分类号法间接获取分类号法 当手头有现成的对口文献或通过其它方法如主当手头有现成的对口文献或通过其它方法如主题方法查到的对口文献
22、,则可利用该文献标出的分题方法查到的对口文献,则可利用该文献标出的分类号,进行分类查找。类号,进行分类查找。1.3.2 1.3.2 主题检索方法主题检索方法1 关键词2 叙词3 标题词属规范化词汇属自然语言v 关键词关键词关键词检索为大多数计算机检索系统采用。使用直接来自文献或用户提问的一类检索语言。优点:关键词检索文献既方便又准确,不受词表控制,能及时检索到最新概念的各类文献。可任意选取专指性强的词语,提高查准率。词量大。缺点:容易产生的误检、漏检。原因有:1.取名的多样:同物异名、全名与简称、异称(学名、俗名、音译名。2.构词的多样:派生词、单复数、拼写变体3.大量的复合词v 规范化主题词
23、(叙词、标题词)检索规范化主题词(叙词、标题词)检索 叙词是主题语言的高级形式。是以较正规和正式的科学名称为基础组织而成一种主题法检索标识系统。由在概念上不可再分的基本概念单元词汇组成,检索时可以利用这些单元词进行组配,以表达一个复杂的概念。叙词表作为检索过程必不可少的辅助工具,由检索工具出版单位编制,专书专用。是由二次文献编撰单位出版的限制使用的主题词体系。如:课题:太阳能热水器研究 汉语主题词表中正式主题是太阳能利用、太阳能加热等代替。叙词表叙词表(字顺表、等级表)字顺表、等级表)字顺表如字顺表如:acoustic wave velocity UF acoustic velocity NT
24、 ultrasonic velocity(Narrower Term)BT velocity (Broader Term)TT velocity Top Term RT acoustic dispersion Related Term acoustic impedance CC A4300 A5140 Classification Code DI January 1973 Date of Input 与叙词一样是以较正规和正式的科学名称为基础的一种主题法检索标识,但存在主、副标题词固定搭配,即属于先组式检索语言。如:MOTORS -control -manufacture 标题词标题词 规范词
25、汇优缺点规范词汇优缺点n规范化词主要对词义、词形和词的组合方式进行控制.n优点:选择宽广的概念,查全率高。避免由于同义词、近义词的存在而产生的漏检。n 缺点:使用词表,带有间接性。由于受控语言被限制在预先制定的概念或类目内,不能表示新的概念。词量有限,影响查准率。1 一般为事物的名称或过程 2 具有实质意义的词 3 适度专指性。避免泛指性词 4 通用性 有时不能只从字面上选词。需要时进行必要的替换、补充。如“运用计算机程序建立气候模式”应选计算机摸拟和气候模拟。选择规范主题词过程中应注意选择规范主题词过程中应注意:1.4 信息检索基本方法及步骤信息检索基本方法及步骤1.4.1 文献检索基本方法
26、工具法:也就是利用检索工具或计算机检索系统查找。它可分为顺查和倒查法两种。追溯法:以文献后所附参考文献为检索起点的检索 方法。循环法:工具法和追溯法交替使用。1.4.2 文献检索步骤:1 分析研究课题:分析研究课题的主题内容,所分析研究课题:分析研究课题的主题内容,所属学科及起始年代。属学科及起始年代。2 确定检索工具或检索系统。确定检索工具或检索系统。3 确定检索语言。确定检索语言。主题途径:主题途径:切忌仅依据课题名称确定主题词,应根据课题涉及地主要对象,研究手段,使用的方法、材料、条件、设备、研究的目的、用途作深入的分析,提取课题研究的主要事物概念(整理出主题词)。如绿色包装研究;可持续
27、发展若使用的检索工具要求规范化主题词,则查表选若使用的检索工具要求规范化主题词,则查表选词。词。分类途径:分类途径:根据检索工具使用的分类法查找合适的类目。作者、引文。作者、引文。以上途径如能多种配合,效果更好。5 查找原始文献线索及获取文献查找原始文献线索及获取文献委委 托托 人:人:须文波须文波 潘丰潘丰委托单位:江南大学信息学院委托单位:江南大学信息学院针对流程、离散或混合型的轻化工生产过程,开发生产过程设备运行的动态监控、生产过程优化控制、生产状态远程监控系统、远程故障诊断的成套控制装备。“轻化工生产过程集成优化控制系统”立足于开放性、以优化技术为主,构成现场控制级、监控优化级和生产管
28、理级的三级过程集成优化控制系统。项目名称:轻化工生产过程集成优化控制系统项目名称:轻化工生产过程集成优化控制系统技术要点:1基于工业以太网的控制器实现对生产设备运行的动态监控。2基于工业以太网的生产状态远程监控系统、远程故障诊断系统。3针对不同类型的轻工业企业(如造纸、发酵等)采用先进控制技术开发生产过程优化控制系统。4以优化技术为主,构成现场控制级、监控优化级和生产管理级的三级过程集成优化控制系统。5成本低,投资费用少,适合于中大规模轻化工企业。轻化工生产过程集成优化控制系统轻化工生产过程集成优化控制系统1.集散控制系统 2.DCS 3.以太网(Ethernet)4.优化 5.生产过程 6.
29、远程 7监控 8 故障诊断英文:1 Distributed control system 2 Ethernet 3 4 Optimization 5 Production process control;6 remote control 7 Monitoring 8 Fault diagnosis检索式:1.(1+2)*32.#1*43.#1*5*6轻化工生产过程集成优化控制系统轻化工生产过程集成优化控制系统检索关键词:Distributed paramenter control systems DT:January 1993 UF:,Distributed parameter;Distributed Control system RT:Decentralized control英文规范化此核对(Ei)描述检索效率的因素主要有:查全率(recall factor)查准率(也称适中率,Pertinence factor)漏检率(omission factor)误检率(也叫检索噪音,noise factor)新颖率、覆盖率、检索速度等。1.4.3 检索效率评价