1、OCR技术及其应用技术及其应用字符识别的历程n概念的提出始于1929年n国内的研究从70年代才开始,目前已经达到国际先进水平,其中汉字工作识别技术已经位居国际领先字符识别的类型n脱机联机银行领域的应用税务领域的应用-34*-31*8*108*5/+425-0*975*3880029825-电子政务领域的应用n电子公文审批与流转n电子公文的识别与查询OCR应用的技术组成图像处理n去噪声、平滑、去黑边、倾斜校正等版面理解表格识别字符分割n行分割n字分割字符识别字体识别宋体仿宋黑体楷体隶书魏碑圆体语义后处理中国触结解泼木岁济平光先疥天大发限屏永示晨乒年本乎绪讳屠水严申的创徘绳经络围牛图囤午印固先 天
2、中 固光 大图 解本 年水 平中 国经 济发 展展中国的经济发展水平格式化输出目前挑战性的课题n脱机手写汉字识别n超大字符集的印刷字符识别n非定制版面分析OCR涉及的模式识别问题n一致性假设n在统计意义下,一般假设:n样本与分类对象具有同分布。n给定的所有分类对象独立同分布。样本的分析n决策对样本空间划分的有效性。n推广能力:决策对分类对象的有效性。贝叶斯决策理论n已知的先验概率n需要决策的类别数是一定的n基于模型的方法人工神经网络n缺乏充分的理论基础n局部极小点问题n过学习与欠学习的问题支持向量机n统计学习理论n一种专门研究小样本统计学习规律的理论n九十年代初取得重要进展核技术n可以证明,一
3、定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。n研究核函数选择的技术称为核技术。对比测试弱分类器n如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。n这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。集成n采用投票的方式决定新样本类别。n由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均进行分类。n1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。谢 谢 !此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢