可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt

上传人(卖家):晟晟文业 文档编号:3898892 上传时间:2022-10-23 格式:PPT 页数:26 大小:1.94MB
下载 相关 举报
可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt_第1页
第1页 / 共26页
可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt_第2页
第2页 / 共26页
可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt_第3页
第3页 / 共26页
可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt_第4页
第4页 / 共26页
可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、可持续发展可持续发展OCROCR系统系统在在CADALCADAL项目中的应用项目中的应用CADAL项目管理中心南方技术中心E-mail:Aug.2007 NUGXMBP主题主题n 项目背景n 问题分析n 系统模型智能检测人工干预记录动态任务分配n 下一步计划MBPMBPn 20002000年中美启动年中美启动“百万百万册书计划册书计划”,定名为,定名为“中美高等教育数字图书中美高等教育数字图书馆馆”,简称,简称CADAL CADAL。n 教育部教育部“211”211”十五期十五期间三大建设工程之一间三大建设工程之一n浙江大学、中科院研究浙江大学、中科院研究生院共同牵头,构建中国生院共同牵头,构

2、建中国高等教育数字化图书馆。高等教育数字化图书馆。项目背景项目启动大会项目启动大会2004-11-5MBPn 国家财政国家财政“十五十五”投投 入入70007000万元;万元;n 美国合作方提供硬美国合作方提供硬 件设备等约件设备等约300300万万 美元和部分英文图美元和部分英文图 书资源。书资源。n 1616个参建单位配套个参建单位配套 投入投入14001400万元。万元。项目背景项目验收会项目验收会2006-8-3MBP项目背景n数字化进展(截止至数字化进展(截止至20072007年年3 3月底)月底)建设经费投入建设经费投入70007000万元万元图书加工总量:图书加工总量:1,225

3、,6541,225,654册册已审核可发布资源:已审核可发布资源:1,092,5041,092,504册册已发布资源:已发布资源:861,591861,591册册资源容量资源容量:超过超过 50 TB50 TBn 资源特点资源特点 学术性强,服务于教育科研学术性强,服务于教育科研 技术标准高,充分考虑资源长期保存和增值应用技术标准高,充分考虑资源长期保存和增值应用 数据量大,开放程度高,是各类科学研究的资源数据量大,开放程度高,是各类科学研究的资源库和测试床。库和测试床。MBP项目背景n网站网站20042004年年9 9月开通,提供服务。月开通,提供服务。古籍资源古籍资源:全世界开放全世界开放

4、 民国资源民国资源:逐步向逐步向211211院校开放院校开放 现代图书及其他资源现代图书及其他资源:逐步向参建单位开放逐步向参建单位开放n 截止截止20072007年年3 3月,月,CADALCADAL网站平均日点击率网站平均日点击率1515万次,下载达万次,下载达120GB120GB,相当于每天相当于每天 4000 4000 多册多册书。书。主题主题n 项目背景n 问题分析n 系统模型智能检测人工干预记录动态任务分配n 下一步计划MBPMBPOCR 难点问题分析n 数字化资料的核心是OCR识别。但是,没有一种OCR软件可以满足不同类型原始资料识别和数字化的需求。n OCR处理软件需要占用极大

5、的计算资源。采用传统的方式,软件应用固定安装在特定平台上,采用手工操作,一方面软硬件资源利用率很低,另一方面也带来了管理的复杂性。n 项目考虑到二次开发的潜力,扫描精度统一设定为600DPI,当前通用的OCR核心都是基于300DPI的黑白图像开发,如何利用600DPI图像的冗余信息提高OCR准确率?n 由于OCR软件不可能达到100%的正确率,因此需要和人工校对相配合,也需要一种方式来提供统一的操作流程支持和管理机制。同时要兼顾人工投入的可继承性。MBP主要思路 问题分析n简单地重复人工投入是极其不经济的,创建一种可持续发展(Sustainable Development)的动态OCR系统,随

6、着新技术的进展不断提高整个百万册电子书的文本准确率,是值得研究和开发的。n 对于可持续发展,我们关注的重点在于系统的开放性和可继承性。MBP开放性问题分析n 所谓开放性,就是可以不拘于一家的OCR核心,灵活利用各家优势,针对特定类型的图书采用不同的核心;n 所谓可继承,就是要保证系统的重用能力,随着核心技术的突破,系统可以不断地对百万册图书进行OCR精度提升,通过重复的流程,在甚少人工干预下获得高质量的百万册文本语料。可继承性MBP问题分析OCR流程分析 n 书本级n 版式级n 行切分n 字切分n 识别n 后处理MBP问题分析样本错误分析MBP问题分析优化代价MBP问题分析OCR系统重点 n

7、书本级n 版式级n 行切分n 字切分n 识别n 后处理n 建立一个可持续改进的OCR构架,能够方便继承已经取得的结果。n 系统接口开放,使得目前市场上的OCR产品能够嵌入进来,并为将来在实现OCR方面的技术改进和突破之后再进一步改进文本质量提供可能和方便。n 系统除正常的操作人员外,不宜加入大量的人工干预环节。主题主题n 项目背景n 问题分析n 系统模型智能检测人工干预记录动态分配n 下一步计划MBPMBP智能检测系统分析n 智能检测模块可以对初始获得的数据进行分析,判别原始识别率,当检测模块发现错误率偏高的连续文本时,会提示进行人工干预。n 每个页面文件被标示为一个独立的作业,机器将持续不断

8、地进行OCR流程,而将检测有疑义的页面记录推送到人工干预中心的处理池中(Task Pool),等待人工干预后进行处理。MBP人工干预记录系统分析n 有限人工干预以低成本最大限度地提高了OCR的总体质量,但为了保证开放系统的有效运行,还必须设定一个机制使人工干预的成果被不断应用而使效益最大化。n 所有的人工干预痕迹被自动保存于干预记录中。n 重复流程通过检索干预记录获取以前的参数,从而进行优化的作业流程。MBP系统分析动态任务分发MBP系统分析系统监控界面MBP系统分析人工干預界面MBP统一OCR处理中心主题主题n 项目背景n 问题分析n 系统模型智能检测人工干预记录动态任务分配n 下一步计划MBPMBP下一步工作 MBP下一步工作 任务申请 OCR识别及校对 结果整合n OCR网格应用任务分配结果分析全文语料更新及增值应用MBP下一步工作 MBPThanks

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(可持续发展OCR系统在CADAL项目中的应用CADAL项目管理中心讲解课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|