1、4251 10011 0010 1010 1101 0001 0100 1011数字资源的加工与验收数字资源的加工与验收数字资源质检部业务培训2010-10-84251 10011 0010 1010 1101 0001 0100 1011数字资源的加工与验收 数字资源的定义 数字资源的分类 图像数字资源的加工流程 图像数字资源的验收内容 图像数字资源的验收方法 图像验收常见问题及注意事项4251 10011 0010 1010 1101 0001 0100 1011数字资源的定义 数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用
2、的信息资源总和。商业化的数据库、机构或个人建立的数据库、各种网络免费资源等都属于数字资源。 同印刷型文献相比,数字资源类型更为丰富。4251 10011 0010 1010 1101 0001 0100 1011数字资源的分类 从数据的组织形式上看,有数据库、电子期刊、电子图书、网页、多媒体资料等类型。 4251 10011 0010 1010 1101 0001 0100 1011各类数字资源的存储方式 数据库:Access、SQL Server、MYSQL、Oracle等; 电子期刊与图书:TXT、TIFF、JPG、PDF等; 网页:JPG、HTML、MHT等; 多媒体资料:AVI、WAV
3、、MP3等。4251 10011 0010 1010 1101 0001 0100 1011图像数字资源的加工流程 图像数字资源加工是指运用图像扫描与处理,文字、图像的识别以及数字化初始信息的各种在加工技术,将大量已存在的,以不同形式和载体存储的信息资料,如文件、图片等转化为能够用计算机处理的数字化信息。4251 10011 0010 1010 1101 0001 0100 1011图像的基本特征参数 像素:是构成图像的最小单位,一般用若干不同色彩的像素排列而组成的矩阵来表示数字图像。 图像分辨率:指每英寸图像的像素数。分辨率越高,图像与清晰。 色彩模式:指图像颜色的成像模式。常见的有RGB模
4、式、CMYK模式。4251 10011 0010 1010 1101 0001 0100 1011图像的基本特征参数 色彩深度:又称位深或色深。反映图像中色彩的最大表现数量。常见的有2色、8色、256色、真24位、真32位等。 压缩方式:分为有损压缩和无损压缩,以是否去掉图像的细节和颜色来区分。常见压缩方式有RLE、LZW、JEPG、CCITT等。4251 10011 0010 1010 1101 0001 0100 1011常见图像的格式 TIFF TIFF是一种比较灵活的图像格式,文件扩展名为TIF或TIFF。该格式支持多种色彩位,同时支持RGB、CMYK等多种色彩模式,支持多平台。TIF
5、F文件可以是不压缩的,文件体积较大,也可以是压缩的,支持RAW、RLE、LZW、JPEG、 CCITT3组和4组等多种压缩方式。4251 10011 0010 1010 1101 0001 0100 1011常见图像的格式 JPG JPEG 图片以 24 位颜色存储单个图像。JPEG 是与平台无关的格式,支持最高级别的压缩,不过,这种压缩是有损耗的。可以提高或降低 JPEG 文件压缩的级别。但是,文件大小是以图像质量为代价的。4251 10011 0010 1010 1101 0001 0100 1011常见图像的格式 PDF PDF是一种电子文件格式。这种文件格式与操作系统平台无关。PDF文
6、件使用了工业标准的压缩算法,易于传输与储存。 4251 10011 0010 1010 1101 0001 0100 1011加工流程图4251 10011 0010 1010 1101 0001 0100 1011图书扫描阶段扫描图像的基本要求扫描图像的基本要求1.存储方式:无压缩 TIFF 格式;2.色彩深度:灰度8位,彩色24位;3.黑白与灰度页面必须用灰度位深扫描;4.图像分辨率:300DPI,小于5号字体用400 DPI; 5.同一册书,尺寸一致(有超大页的特殊情况);6.不允许有污点、歪斜、黑边、不完整的情况。4251 10011 0010 1010 1101 0001 0100
7、1011图书扫描阶段 高扫:对图书进行拆装后,使用高速扫描仪自动进行快速扫描。 优点:速度快,支持双面 扫描,300DPI无压缩图像 约140-180页/分钟; 缺点:扫描过程中容易造成漏页、重页、页顺序错误等问题。4251 10011 0010 1010 1101 0001 0100 1011图书扫描阶段 平扫:不对图书进行拆装,直接将图书平铺扫描。 优点:不破坏原书; 缺点:扫描速度慢,机器扫描 约2-5秒/页。由于人工干预较多,易造成各种图像错误。4251 10011 0010 1010 1101 0001 0100 1011图像整合阶段 文件夹命名 图像命名规则:由数字和下划线组成 。
8、 例:文献语种(中文) 流水号: 01090012_66 加工年(2009) 大流水号 0012_66 其存储路径:01090012664251 10011 0010 1010 1101 0001 0100 1011图像整合阶段 图像命名图像命名(1)文件名后缀为小写字母; 文件名格式为:大写字母大写字母 + 5位数字位数字 + _00 + 后缀名后缀名; 例:B00002_00.tif;(2)大写字母的含义 A:封面:封面: 指图书封面正反两页;博士论文较特殊,会有3 页A的情况。 B:目录前前附页:目录前前附页: 指图书目录页与封面之间的页面; 4251 10011 0010 1010 1
9、101 0001 0100 1011图像整合阶段 C:目录页:目录页:图书的目录页; D:目录后前附页:目录后前附页: 图书的正文与目录页之间的页面; T: 正文:正文:正文内容; 注意:正文页的数字编号要与页码一致; Y:后附页:后附页:封底与正文之间的内容; Z: 封底:封底:图书封底;4251 10011 0010 1010 1101 0001 0100 1011图像整合阶段 插页一般出现在正文页中。该页的上下两页页码连续,且该页的位置正确。 插页的命名 在上一页图像命名基础上,将最后的“_00” 改为“_01”,例如 T00056_01.tif,如果有多页插页,数字依此类推。4251
10、10011 0010 1010 1101 0001 0100 1011图像处理阶段一般采用PHOTOSHOP软件人工修改1.统一尺寸2.去污渍、黑边3.纠正倾斜4.检查并修改扫描颜色4251 10011 0010 1010 1101 0001 0100 1011文字识别阶段 OCR文字识别文字识别 指对图像上的内容进行识别,把图像上的文字内容转换为文本格式的过程,所有识别后的内容保存在 .txt 格式的文本文件中。 进行文字识别的原因进行文字识别的原因 普通图书、论文、基藏本等文献只需对目录页内容进行识别,主要为挂接到网站方便读者的检索;无法打出的文字用“”表示。并保存相应文字部分的图像到该书
11、文件夹下的“” 文件夹。 盲人图书、手机阅读等项目,需要对全文进行识别,盲人图书是为了方便盲人阅读,手机文献是为了缩小发布文件的体积。4251 10011 0010 1010 1101 0001 0100 1011数据整合阶段 什么是元数据什么是元数据 描述数据及其环境的数据;一般分为描述性元数据、 结构性元数据、技术性元数据等等。例如:一本书的名字、页数、内容、扫描方式、目录 结构、尺寸、扫描方式等等。 一本图书在数字化加工前只有对该纸质文献的描述,数字化加工后,需要对该资源补充新的描述信息。4251 10011 0010 1010 1101 0001 0100 1011数据整合阶段图书的元
12、数据保存在MDB格式的数据库中。该数据库包含以下7个表格。1.Book表:表:主要包含图书的名称,编号,作者等信息。2.Catalog表:表:包含每册图书的目录信息,页码、绝对页码、属性等信息;3.abstract表表(论文)或 Copyright表表(图书) : 摘要页的起始页与页数信息或版权页起始页信息; 4.Inset表:表:插页信息5.Lostpage表:表:缺页信息4251 10011 0010 1010 1101 0001 0100 1011数据整合阶段6.struct表:表:图书结构信息,包含封面、前附页、目录页、正文、后附页、封底的页数及起始页码等信息;7.process表:表
13、:加工信息,包含灰度、彩色图像数量,压缩方式,数据位置等信息4251 10011 0010 1010 1101 0001 0100 1011TIFF数据备份、通查阶段 将图像与数据库合并后,备份到移动硬盘中。每块硬盘一个数据库,储存该硬盘中所有图书的信息。 对整体数据进行册数、页数、各项技术参数等内容的核查。4251 10011 0010 1010 1101 0001 0100 1011PDF转换、备份、通查阶段 将所有TIFF数据转换为PDF数据; PDF文件采用JEPG2000压缩方式压缩; 每个PDF文件容量不允许超过规定大小; 在数据库中追加压缩因子、容量等信息。4251 10011
14、0010 1010 1101 0001 0100 1011光盘刻录、通查阶段 将所有图像刻录在DVD光盘上; 每张光盘包含一个readme.txt文件,里面填写该张光盘的内容与图像页数; 光盘中不允许包含其它无关文件。4251 10011 0010 1010 1101 0001 0100 1011图像数字资源的验收内容1.数据验收采取抽样检验,抽检样本数不低于送检数据的 42%(中文保存本为100%)。验收人员随机抽选。2.各种标引、说明文件的文字、符号、版式、位置和文件名称准确,其综合错误率不超过0.3。3.图像数据扫描方式、扫描规格、文件格式、文件命名、图像处理、压缩方式等符合要求,其综合
15、错误率不超过1。4251 10011 0010 1010 1101 0001 0100 1011图像数字资源的验收内容4.成品数据备份数量、保存介质命名、数据存放方式、数据内容符合规范要求,且各类型保存介质内无坏死文件、不准携带病毒,错误率为0。 5.送检数据内容与中文图书验收数据提交单相互匹配,各种格式数据和文档一一对应,不可夹杂无关文件。6.达到验收标准的数据视为合格,合格范围内检查出的问题进行修正;未达到验收标准的数据由加工单位重新对进行数据的检查、修改、重扫等返工工作。4251 10011 0010 1010 1101 0001 0100 1011对象数据的验收存储路径;文件是否能否打
16、开,有无多余文件、坏死文件;图像命名(“T”类文件名要求与印刷页码一致);图像扫描(分辨率、图像尺寸、文件大小,压缩方式);图像质量(清晰、去污、歪斜、切字、漏字);图像连续(重扫、漏扫、错页、颠倒);图像页数(与bookinfo、process表核对);灰度页数、彩色页数(与process表核对);4251 10011 0010 1010 1101 0001 0100 1011元数据的验收book表表检查内容:对照book_id,与封面页图像核对,是否为同一本书;copyright 或或 abstract 表表检查内容:版权页或中英文摘要位置;catalog表表检查内容:要求逐条核对标引文字
17、、链接和属性; “”的内容在该图书文件夹内的“”文件夹下保存;抽检图书的目录条数、目录字数4251 10011 0010 1010 1101 0001 0100 1011元数据的验收inset表和表和lostpage表表检查内容:抽检图书插页或缺页是否正确标引,包括插页命名、插页标引页号(前一页的印刷页码)、页位置、页数struct表表检查内容:抽检图书各部分的页数;起始页码(印刷页码);各部分页数相加是否与总文件数一致process表表检查内容: 抽检图书各种数量统计(grey_num、col_num、tif_num); 存储量统计(tif_mb、pdf_mb与图像核对); 技术指标(dpi
18、与图像核对);4251 10011 0010 1010 1101 0001 0100 1011图像数字资源的验收方法 数字资源质检系统 是一套基于ORACLE数据库开发的大型数字资源验收平台。能够辅助使用者快速的对数字资源的元数据与对象数据进行验收。4251 10011 0010 1010 1101 0001 0100 1011数字资源质检系统使用方法及验收流程1.核对图书名称是否与验收图书相同;2.核查数据库目录标引中的章节序号、章节名、作者、页码是否与图书目录中标注相同;如遇到“”字符,核对是否有对应的“”图像;核查数据库目录标引中目录的绝对页码是否正确;3.核查图像所有图否清晰,图像命名
19、是否正确,如遇到缺页、插页问题,核查插页、缺页信息表;4.核查图书的结构信息,包括封面、目录前前附页、目录页、前附后前附页、正文页、后附页、封底的数量,起始页页码等信息;5.中文图书、保存本核查版权页是否正确;博士论文核查摘要起始页、页数、摘要内容是否正确;4251 10011 0010 1010 1101 0001 0100 1011图书验收中的常见问题TIFF图像1. 目录文字识别错误2. 目录绝对页码标引错误3. 正文页图像名称与页码不对应4. 图像扫描颜色错误5. 图像不清晰4251 10011 0010 1010 1101 0001 0100 1011图书验收中的常见问题PDF图像1
20、. 文件容量超过规定大小2. 文件压缩过度导致图像不清晰3. PDF文件数量与该批TIFF文件数量不一致4. 图像倾斜,超过半行算倾斜4251 10011 0010 1010 1101 0001 0100 1011图书验收中的常见问题TIFF、PDF光盘1. 光盘文件损坏2. 光盘不可读3. 光盘编号标注错误4. 光盘readme文件内容标注错误4251 10011 0010 1010 1101 0001 0100 1011图像验收中的特殊情况 一册书中附加另一册书,两册书共用一个ID 处理办法:贴有条码的图书正常处理,扫描图像并进行标引;附加的习题集、外文版等图书只做图像扫描,不进行标引,并
21、把扫描图像存放于本ID目录下的“附加”文件夹内 目录中章节名过长 章节名在100字以内的内容需进行标引,100字以外的内容用“”代替 4251 10011 0010 1010 1101 0001 0100 1011图像验收中的特殊情况当目录印刷错误时当目录印刷错误时 处理方法:可尽量改正。目录中有说明文字目录中有说明文字处理办法:说明文字不录入正反面图书正反面图书处理办法:从有磁条的方向依次录入,正文页命名可与页码不对应。4251 10011 0010 1010 1101 0001 0100 1011图像验收中的特殊情况 目录在正文后面的图像按C命名; 目录中的文字,超过150个字以外的内容用代替; 目录中一条内容对应多个页码(例:章节名12-20),在数据库中的绝对页码位置只标注打一个出现的页码;4251 10011 0010 1010 1101 0001 0100 1011谢 谢