第三章-信息检索教程课件.ppt

上传人(卖家):晟晟文业 文档编号:4107461 上传时间:2022-11-11 格式:PPT 页数:59 大小:1.73MB
下载 相关 举报
第三章-信息检索教程课件.ppt_第1页
第1页 / 共59页
第三章-信息检索教程课件.ppt_第2页
第2页 / 共59页
第三章-信息检索教程课件.ppt_第3页
第3页 / 共59页
第三章-信息检索教程课件.ppt_第4页
第4页 / 共59页
第三章-信息检索教程课件.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、 0 第3章 信息著录和标引了解信息著录和标引的含义与作用掌握著录项目及格式、MARC格式及特点了解都柏林核心元数据集DC的格式及作用了解信息标引的含义与作用了解网络信息描述自动处理方法自动标引与自动分类 本章要点本章要点 1 3.1 3.1 信息著录信息著录 信息著录简称著录,是指在组织检索系组织检索系统时对文献内容和形式特征进行选择和记统时对文献内容和形式特征进行选择和记录的过程录的过程。著录的对象对象是信息,包括图书、期刊、文件、网络资源等等。信息著录的结果是款目或称记录款目或称记录。2 著录、款目、目录的关系文献文献:图书、期刊、论文等款目款目:题名、作者、版本项等目录目录:作者目录、

2、题名目录、主题目录等信息著录组织排列款目(记录)款目(记录):对文献的内容和外表特征作出的一条记录,根据著录著录法法编制出来的,信息著录的结果。目录目录:将众多的款目按一定的方法加以组织、排列,即形成目录。3 文献著录总则颁布时间:1983年7月 颁布目的:旨在根据各种类型文献的共同特点,确定文献确定文献著录原则、内容、标识符号、格式等的统一规定(即著录著录原则、内容、标识符号、格式等的统一规定(即著录的标准)的标准)。著录标准 4 文献著录总则中规定的著录项目著录项目:题名与责任者项 版本项 文献特殊细节项 出版发行项 载体形态项 丛编项 附注项 文献标准号及有关记载项 提要项 5 文献著录

3、总则的具体内容著者项目著者项目具体内容具体内容题名与责任者项正题名、并列题名、说明题名、文献类型标识、第一责任者、其他责任者。版本项版次及版本形式、与本版本有关的责任者文献特殊细节项著录文献出版物的 卷期起迄、图的比例尺和投影法等出版发行项出版地或发行地、出版者或发行者、出版日期或发行日期、印刷地、印刷者、印刷日期。载体形态项数量极其单位、图及其他形态、尺寸或开本、附件等。从编项正从编名、并列从编名、副丛编名及说明丛编名文字、从编责任者等附注项主要是描述文献的著录正文进行补充和说明。文献标准编号及有关记载项国际标准文献编号(ISBN)、中国标准文献编号、装订、价格。提要项对文献的内容进行简要的

4、介绍。6 著录级次:著录级次指著录文献的祥简程度。著录级次指著录文献的祥简程度。文献著录总则把著录项目分为主要项目和选择项目两种。主要项目主要项目包括:题名和责任者项的正题名、第一责任者;版本项;出版发行项的出版发行地、出版发行者、出版发行日期;载体形态项。选择项目选择项目包括主要项目之外的所有其余著录项目。第3章 信息著录和标引 7 著录级次分类按著录的详略程度分三级:(1)简要级次:款目仅著录主要项目主要项目,又称第一著录级次;(2)基本级次:著录主要项目主要项目的同时,还著录了部分选部分选择项目择项目,也称第二著录级次;(3)详细级次:著录主要项目和全部的选择项目主要项目和全部的选择项目

5、,也称第三著录级次。8 信息著录的结果表现形式信息著录的结果是款目,款目有书本式款目、卡片式款目。卡片式款目卡片式款目:将文献信息手写或印刷在纸上,卡片一般采用7.5cm12.5cm。书本式款目书本式款目:为了装订成册后形成书本目录,如四库全书总目纲要。http:/ 正题名正题名=并列题名:副题名及说明题名文字文献类型标识/第一责任者第一责任者;其他责任者版次及其版次及其他版本形式他版本形式/与本版有关的责任者出版发行地:出版发行地:出版发行者,出版发行日期出版发行者,出版发行日期(印刷地:印刷者,印刷日期)页数或卷册数:图;尺寸或开本页数或卷册数:图;尺寸或开本+附件附件(丛编名/责任者,国

6、际标准连续出版物编号;丛书编号附属丛编)附注国际标准编号;中国文献标准编号(装订):价格提要书名 著者 主题 分类号图3-1 卡片式款目著录格式蓝色标注的为主要项目卡片式款目 10 书本式款目图3-2 书本式款目著录格式 正题名正题名=并列题名:副题名及说明题名文字文献类型标识/第一责任者第一责任者;其他责任者版次及其他版本形式版次及其他版本形式/与本版有关的责任者出出版发行地:出版发行者,出版发行日期(印刷地:版发行地:出版发行者,出版发行日期(印刷地:印刷者,印刷日期印刷者,印刷日期)数量及其单位:图及其他数量及其单位:图及其他形态;尺寸或开本形态;尺寸或开本+附件附件(丛编名/责任者,国

7、际标准连续出版物编号;丛书编号附属丛编)附注国际标准编号;中国文献标准编号(装订):价格 提要蓝色标注的为主要项目 11 思考教材后面的图书在版编目中的数据分别对应的是我们文献著录总则的哪些项目?12 不同类型文献的著录在依据总则的基础上,制定有相应的具不同类型文献的著录在依据总则的基础上,制定有相应的具体条文,作为文献著录的直接依据体条文,作为文献著录的直接依据,如普通图书著录规则、连续出版物著录规则、非书资料著录标准、档案著录规则、古籍著录规则、地图资料著录规则、检索期刊条目著录规则、参考文献著录规则参考文献著录规则等。它们共同构成了我国比较完备的著录标准体系。13 图书的著录(参考文献著

8、录规则)14 15 图书著录中的文献类型标志常用文献类型用单字母标识常用文献类型用单字母标识,具体如下:(1)期刊J(journal)(2)专著M(monograph)(3)论文集C(collected papers)(4)学位论文D(dissertation)(5)专利P(patent)(6)技术标准S(standardization)(7)报纸N(newspaper article)(8)科技报告R(report)16 图书著录中的ISBN 17 2007年年1月月1日以前,各国日以前,各国ISBN机构尚没有分配完的机构尚没有分配完的10位的位的ISBN可以在前面加前缀可以在前面加前缀97

9、8,一旦现有的10位的ISBN号用完了,新申请的ISBN号码全部以全部以979开始。开始。即即979前缀目前用于两种情况,一是新建出版社首次申前缀目前用于两种情况,一是新建出版社首次申请请ISBN和已有出版社在和已有出版社在2007年年1月月1日以后申请日以后申请ISBN号,号,二是如果以二是如果以978为前缀的号码先用完,那么就只能用为前缀的号码先用完,那么就只能用979。教材的ISBN号:978-7-300-09671-1,为什么多了个978?18 图书的著录(参考文献著录规则)19 写出下面图书文献的著录:20 期刊的著录(参考文献著录规则)21 刊号刊号即国际标准连续出版物编号,是根据

10、国际标准ISO3297制定的连续出版物国际标准编码国际标准编码,其目的目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识。ISSN:前7位数字为顺序号,最后一位是校验位。ISSN由设在法国巴黎的国际ISDS中心管理。目前已有近5000种中文期刊分配了ISSN号并进入了国际国际ISSN数据系统。ISSN通常都印在期的封面或版权页上。中国标准连续出版物刊号结构:中国标准连续出版物刊号结构:ISSN-CN-/缺一不可缺一不可期刊的刊号介绍 22 举例:期刊1CN 号前面2位数字表示地区(各省、自治区、直辖市地区号),中间4个数字表示序号,/后面的字母为图书分类号,其中TP

11、表示的是自动化技术。http:/ 23 举例:期刊2 24 期刊著录格式 25 期刊的著录写出下面期刊文献著录:26 小节练习小节练习11.什么是文献著录?2.文献著录的结果是3.既著录主要项目,还著录全部选择项目的著录级次称为4.既著录主要项目,还著录部分选择项目的著录级次称为 27 3.2.1 3.2.1 机读目录机读目录 机读目录(MARC)即机器可读目录的简称机器可读目录的简称,来自英文Machine-Readable Catalogue,是利用计算机识读和处理的目录。机读目录是描述文献著录项目的国际标准格描述文献著录项目的国际标准格式式,是实现计算机处理书目信息及资源共享的基础。3.

12、2 机读目录与元数据机读目录与元数据卡片目录与机读目录的区别?卡片目录与机读目录的区别?一个机读记录机读记录相当一条书目款目款目。在卡片目录卡片目录中,设有分类目录、题名目录。在机读目录机读目录中,计算自动生成自动生成分类、题名、著者、主题、ISBN等检索目录。28 机读目录的数据存放 29 30 机读目录的基本概念 31 哪些是定长字段?哪些是变长字段?哪些是可重复字段?哪些是必备字段?哪些是定长字段?哪些是变长字段?哪些是可重复字段?哪些是必备字段?32 33 中文文献中文文献主要采用的是CNMARC,以共享我国图书馆和信息部门的中文书目记录;西文文献的著录西文文献的著录则采用USMARC

13、,以共享国外权威的西文书目记录。这里重点介绍CNMARC。一条记录一条记录由记录头标区、地址目次区、数据字段区、记录分隔符组成。记录头标区记录头标区数据字段区数据字段区记录分隔符记录分隔符CNMARCCNMARC记录记录地址目次区地址目次区注:各字段数据元素及其标准详细情况参见教材P83-87 34 ISO-2709的机读目录标准 35 头标区如:“n”是第5位,代表“记录状态”,表示“新记录”。请问“m”表示什么?36 地址目次区 37 3.2.2 3.2.2 元数据元数据元数据的英文为Metadata,意为关于数据的数据关于数据的数据。在Internet中,元数据是指描述任何Interne

14、t数据和资源,促进Internet信息资源的组织和发现的数据,以协助对网络资源的识别、描述、指示其位置。38 元数据举例下面是契诃夫的小说套中人中的一段,描写一个叫做瓦莲卡的女子:(她)年纪已经不轻,三十岁上下,个子高挑,(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋一句话,身材匀称,黑黑的眉毛,红红的脸蛋一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!就发出一连串响亮的笑声:哈,哈,哈!元数据:

15、年龄、身高、相貌、性格元数据:年龄、身高、相貌、性格 39 如:个人情况登记表其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这一套元数据才算比较完备。对应文献或图书的元数据有哪些?作者、书名、作者、书名、ISBN(图书)、(图书)、ISSN/CN(期(期刊)、出版地、出版日期刊)、出版地、出版日期 40 第3章 信息著录和标引3.2.2.2 3.2.2.2 都柏林核心元素集(都柏林核心元素集(Dublin Core Elements SetDublin Core Elements Set)都柏林核心元数据集(Dublin Core Elements Set)是一种跨领域的信息资源

16、描述标准,其应用的资源类型没有根本性的限制。注:DC的十五个元素及其定义与详细解释见教材P52-53 41 42 43 都柏林核心元数据使用说明:描述一条记录可以使用上面的15个元素,也可以选择使用,不同国家、地区、行业、文件类型在应用时可以根据需要挑选其中的元素或者增加其它必要的字段。44 DCDC与与MARCMARC的的比较比较 1.1.著录的对象不同著录的对象不同 2.2.数据的形式不同数据的形式不同 3.3.著录的主体不同著录的主体不同 4.4.著录的详简程度不同著录的详简程度不同 5.5.标识的方法不同标识的方法不同3.2.3 3.2.3 都柏林核心元数据和机读目录的比较都柏林核心元

17、数据和机读目录的比较 45 小节练习小节练习21、什么是机读目录,一条CNMARC机读目录的组成?2、头标区数据元素:00123cbm1#2200277#52#其中c、b、m、1分别表示什么?3、什么是元数据?46 信息标引的含义信息标引的含义信息标引是指在分析文献内容的基础上,用某种检索语言检索语言把文献主题以及其他有意义的特征标识出来,它是文献存储与检索依据的一种文献处理过程。3.3 信息标引信息标引信息标引分类标引分类标引主题标引主题标引 47 信息标引的步骤:信息标引的步骤:信息标引的步骤包括主题分析和概念转换,也就是先要对文献的内容进行分析,明确文献的主要内容和主题概念,然后用分类法

18、或主题法分类法或主题法将其充分、准确地表达出来。(1)主题分析:对文献内容进行分析,明确文献的主要内容和主题概念。(2)概念转换(3)信息标引(分类法或主题法)48 1.主题分析主题分析 主题分析方法一般有两种:一种是先找出文献论述的对象,再进一步查明是论述文献论述的对象,再进一步查明是论述了对象哪个方面的具体问题了对象哪个方面的具体问题,可以按照事先设计好的主题结构模式提炼相关主题要素,分析主题要素之间的关系。另一种是先找出文献所涉及的各种概念另一种是先找出文献所涉及的各种概念,并查明它们之间的相互关系。文献中包含哪个因素就分析哪个因素,有的因素不只一个就要全部分析出来,以便筛选和进行匹配,

19、然后,再将各个因素按照主题结构模式进行分析。49 2 2、概念转换、概念转换主题概念转换是以主题分析为基础,将确定的主题概念赋予检索标识的过程。主题概念转换按其复杂程度可以分为两种:(1)直接转换直接转换:这种转换比较简单,标引人员从词表中直接选择与主题概念对应的分类号或主题词即可;(2)分解转换分解转换:将复杂的主题概念首先进行分解复杂的主题概念首先进行分解,然后再选择相应的主题词或分类号。概念转换结束后,还要进行标引结果的审核,即审核文献的分类或主题检索标识是否正确,包括文献主题分析的正确性、充分性,检索标识的正确性等。50 3、信息标引、信息标引(1 1)分类标引)分类标引文献分类标引是

20、指依据一定的分类检索语言,对文献内容的学科性质及其有检索意义的形式特征进行分析、归纳,赋予文献分类检索标识(分类号)的过程。目前,国内主要依据中国图书馆分类中国图书馆分类法法来进行分类标引来进行分类标引。51(2 2)主题标引)主题标引主题标引指依据一定的主题词表,对文献的内容先进行主题分析,再赋予文献语词标识的过程。目前,国内主要采用汉语主题词表汉语主题词表及其相关的专业词表进行主题标及其相关的专业词表进行主题标引。引。52 自动标引概况自动标引概况自动标引指直接通过计算机的操作处理,赋予检索标识的活动。在网络环境下,传统的手工标引已经无法适应信息存储的需要,自动标引由于具有较强的处理能力,

21、能够适应信息数量迅速增长的需要,处理速度快,可以在一定程度上克服手工标引人员由于主观因素而导致的标引误差,增强标引结果的一致性,标引成本相对较低等优点,呈现出明显的优势,逐渐被广泛应用。3.4 自动标引 53 自动标引方法自动标自动标引方法引方法 统计标引法统计标引法 语言分析标语言分析标引法引法 人工智能标人工智能标引法引法词频统计法词频统计法 加权标引法加权标引法 n-Gramn-Gram标引法标引法 统计学习标引法统计学习标引法句法分析标引法句法分析标引法 语义分析标引法语义分析标引法JAKSJAKS标引法、标引法、WorldViewsWorldViews标引法标引法和和MedIndEx

22、MedIndEx标引法标引法 54 自动分类是指由计算机系统自动提取信息的特征项,依据一定的算法,将信息按内容或属性归到一个或多个类别的过程。自动分类自动分类自动分类自动归类自动归类自动聚类自动聚类主要区别主要区别是自动聚是自动聚类不需要类不需要事先定义事先定义好分类体好分类体系,而自系,而自动归类则动归类则需要确定需要确定好类别体好类别体系系 55 自动归类自动归类自动归类是指计算机系统按照一定的分类标准,将待分信息划归到不同类目的过程。选择一种分类体系。利用现有分类法选择一种分类体系。利用现有分类法,形成形成归类底表。归类底表。抽取关键词抽取关键词,与预先设计的与预先设计的“分类号分类号

23、关键词关键词”所形成的矢量空间模式进行匹配所形成的矢量空间模式进行匹配,找出每个关键找出每个关键词涉及的分类号。词涉及的分类号。把所有分类号进行逻辑运算、整理把所有分类号进行逻辑运算、整理,结合复结合复分表索引库分表索引库,得出每个分类号的权值级别。级别得出每个分类号的权值级别。级别最高的类,即为该文献应归的类。最高的类,即为该文献应归的类。基于词的归类技术 基于知识的文本自动分类方法主要依赖于基于知识的文本自动分类方法主要依赖于一个明确的知识库,其显著特点是需要手工建造一个明确的知识库,其显著特点是需要手工建造的知识库,的知识库,基于知识的归类技术 56 自动聚类自动聚类自动聚类指的是由计算

24、机系统按照被考察对象的内部或者外部特征,按照一定的要求将相近、相似或者相同特将相近、相似或者相同特征的对象聚合征的对象聚合在一起的过程。聚类实现方法的四个步骤:(1)网页表示(2)相似度计算(3)聚类(4)给出聚类的标识 57 1.1.信息著录的含义和作用是什么?信息著录的含义和作用是什么?2.2.写出下面图书和期刊的参考文献著录:写出下面图书和期刊的参考文献著录:图书:图书:【书名】ARM嵌入式系统应用开发基础【ISBN】978-7-89436-187-5【主编】严海颖,赵宇枫【出版社】东软电子出版社【出版日期】2013年3月【出版地】大连 期刊:期刊:【篇名】基于ARM和以太网的振动信号采集器设计【作者】彭国盛【文献出处】电力自动化设备,第27卷第1期,第87页第三次作业 58 Thank You!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第三章-信息检索教程课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|