《应用汉字识别》课件2.ppt_163文库

资源描述

1、第六章模式识别的应用汉字识别1.文字识别问题2.汉字识别系统3.汉字的结构特性分析4.印刷体汉字的特征描述5.汉字识别方法分类1、文字识别问题1 1）汉字识别）汉字识别2 2）汉字）汉字OCROCR技术发展历史技术发展历史3 3）国内主要研究机构）国内主要研究机构1）汉字识别汉字识别属于文字识别(OCR)的范畴，文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科，也涉及到语言文字学、心理学等学科，是一门综合性的技术。汉字识别难度印刷体识别最容易最容易已经有了大量实际应用，图书馆数字化已经有了大量实际应用，图书

2、馆数字化脱机手写体识别最难脱机手写体数字的识别已有实际应用外，比如邮政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段联机手写体识别相对容易，PDA等的推广，大量应用2）汉字OCR技术发展历史西文OCR技术研究始于50年代 Optical Character Recognition(OCR)几乎所有的早期模式识别研究者都进行过字符识别的几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的研究。随后的 30 30 多年来，字符识别一直是模式识别多年来，字符识别一直是模式识别的重要内容之一的重要内容之一印刷体汉字的识别最早可以追溯到60年代1966年，IBM公司的Casey和Na

3、gy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1，000个印刷体汉字2）汉字OCR技术发展历史 70年代以来，日本人做了许多工作日本的常用汉字有日本的常用汉字有20002000个左右个左右 19771977年东芝综合研究所研制了可以识别年东芝综合研究所研制了可以识别20002000个汉字的个汉字的单体印刷汉字识别系统单体印刷汉字识别系统 8080年代初期，日本武藏野电气研究所研制的可以识别年代初期，日本武藏野电气研究所研制的可以识别2 2300300个多体汉字的印刷体汉字识别系统，代表了当时汉个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平字

4、识别的最高水平日本的三洋、松下、理光和富士等公司也有其研制的日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统印刷汉字识别系统简评这些系统在方法上，大都采用基于这些系统在方法上，大都采用基于KLKL数字变换的匹配数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用机甚至大型机，价格极其昂贵，没有得到广泛应用2）汉字OCR技术发展历史我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快 7070年代末期到年代末期到8080年代末期年代末期算法和方案探索

5、算法和方案探索：单体汉字识别：单体汉字识别 9090年代初期年代初期由实验室走向市场，初步实用由实验室走向市场，初步实用 9090年代后期年代后期混排混排多语言混排文本：如中英文多语言混排文本：如中英文多字体混排文本：如：宋，楷体，多字体混排文本：如：宋，楷体，）多字号混排文本：不同大小多字号混排文本：不同大小当前进展状态 2000年代后识别率、鲁棒性的提高识别率、鲁棒性的提高单纯单纯OCROCR文档分析文档分析多语混排，多字号，多字体多语混排，多字号，多字体版面分析版面分析文本的结构文本的结构表格，图像（如插图），公式表格，图像（如插图），公式摄像设备（非扫描仪）摄像设

6、备（非扫描仪）名片名片手机摄像手机摄像通讯录通讯录3）国内主要研究机构汉王科技中科院自动化所中科院自动化所 19851985年刘迎建开发出国内第一个联机手写汉字识别系统，并获国家发明专利年刘迎建开发出国内第一个联机手写汉字识别系统，并获国家发明专利。19931993年初，在中科院自动化研究所的支持下创办了中国汉王科技公司，出年初，在中科院自动化研究所的支持下创办了中国汉王科技公司，出任总经理任总经理中科院计算所智能计算机研究中心中科院计算所智能计算机研究中心国内主要研究机构/人物其他清华大学电子系图像所清华大学电子系图像所丁晓青教授丁晓青教授北京信息工程学院北京信息工程学院沈阳

7、自动化研究所沈阳自动化研究所 2、汉字识别系统1 1）系统构成）系统构成2 2）OCROCR技术流程技术流程3 3）预处理）预处理-归一化归一化1）系统构成信号采集方式脱机识别扫描仪或者摄像设备扫描仪或者摄像设备数字图像信号数字图像信号联机手写识别手写屏，手写输入板手写屏，手写输入板运动轨迹电信号，记录了笔划和笔顺信息运动轨迹电信号，记录了笔划和笔顺信息电磁式或压电式，在书写时，笔在板上的运动轨迹（在板上的坐标）被转化电磁式或压电式，在书写时，笔在板上的运动轨迹（在板上的坐标）被转化为一系列的电信号，电信号可以串行地进入到计算机中，从这些电信号我们为一系列的电信号，电信号可以串行

8、地进入到计算机中，从这些电信号我们可以比较容易地抽取笔划和笔顺的信息可以比较容易地抽取笔划和笔顺的信息.2）OCR技术一般流程流程简介 1)图像获取将文本转换为图象点阵将文本转换为图象点阵扫描仪扫描仪 (Scanner)(Scanner)其它光电扫描设备其它光电扫描设备如传真机，摄象机如传真机，摄象机不同获取设备的差异不同获取设备的差异扫描仪：最优扫描仪：最优摄像机：识别难度大摄像机：识别难度大流程简介 2）图像预处理滤除干扰噪声滤除干扰噪声倾斜校正倾斜校正各种滤波处理各种滤波处理 3）版面分析完成对于文本图象的总体分析完成对于文本图象的总体分析区分出文本段落及排版顺序，

9、图象、表格的区域区分出文本段落及排版顺序，图象、表格的区域对于文本区域将进行识别处理对于文本区域将进行识别处理对于表格区域进行专用的表格分析及识别处理对于表格区域进行专用的表格分析及识别处理对于图象区域进行压缩或简单存储。对于图象区域进行压缩或简单存储。流程简介 4）行字切分将大幅的图象先切割为行将大幅的图象先切割为行从图象行中分离出单个字符从图象行中分离出单个字符 5）特征提取模式表示问题整个环节中最重要的一环，提取的特征的稳定性及有整个环节中最重要的一环，提取的特征的稳定性及有效性，直接决定了识别的性能效性，直接决定了识别的性能从单个字符图象上提取统计特征或结构特征从单个字符

10、图象上提取统计特征或结构特征包括细化包括细化(Thinning)(Thinning)，归一化，归一化(大小等大小等)等步骤等步骤流程简介 6）文字识别模式识别研究范畴模式识别研究范畴从学习得到的特征库中找到与待识字符相似度最高的从学习得到的特征库中找到与待识字符相似度最高的字符类字符类 7）后处理利用词义、词频、语法规则或语料库等语言先验知识利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程对识别结果进行校正的过程3）归一化为了消除汉字点阵位置上的偏差，需要把整个汉字点阵图形移动到规定的位置上，这个过程被称做位置归一化。3）归一化(,)(,),BRk i jc i

11、jc i ji A j L,BRIi A j LGik i j,BRJi A j LGjk i j下面计算水平和垂直方向的散度I 和 J ：2(,)2IRBIj Li Ak i j i G(,)(,),BRk i jc i jc i ji A j L2(,)J2RBJj Li Ak i jj G3、汉字的结构特性分析周边特征分析周边特征分析游程统计特征及分析游程统计特征及分析笔划特征及分析笔划特征及分析字根统计特征及分析字根统计特征及分析汉字的图像点阵0(,)(,)1i jf i j处为黑色否则周边特征分析(,)(,)1,1,2,.,1,(,)0LP n lP f n iilf n l(,)(

12、,1)1,1,2,.,1,(,1)0RP n lP f n niilf n nl (,)(,)1,1,2,.,1,(,)0UP n lP f i nilf n l(,)(1,)1,1,2,.,1,(1,)0RP n lP f ninilf nln 1,2,.,321,2,.,32nl周边特征分析3221(),log,LLLlHnPn lPn l 3221(),log,RRRlHnPn lPn l 3221(),log,UUUlHnPn lPn l 3221(),log,DDDlHnPn lPn l 2max()log 324LHnbit游程统计特性及分析笔划特性及分析字根统计特性及分析4、印刷

13、体汉字的特征描述 1 1）复杂指数）复杂指数 2 2）四边码）四边码 3 3）粗外围特征）粗外围特征 4 4）粗网格特征）粗网格特征 5 5）笔划密度特征）笔划密度特征 6 6）汉字特征点）汉字特征点 1）复杂指数文字x方向和y方向的复杂指数被定义为：,LLyxccxyxy(,)11(,),k i jN Mijc i jc i j 2112,INMxijk i ji G2112,JNMyijk i jj G从文字四周边框开始，向内取适当宽度，以此宽度分割出文字四周的四个部分。根据每一个部分中含有文字黑像素的多少分为四级编码（0，1，2，3）。2）四边码3）粗外围特征4）粗网格特征把加框pq点阵

14、文字分割成nn份，n通常取8，取每份中黑像素数对整个文字黑像素数的比例，将所有nn值排成一列而形成n2维特征向量。粗网格特征体现了文字整体形状的分布，但该特征抗笔划位置干扰的能力差。5）笔划密度特征这种从文字四个方向抽取的笔划密度特征叫做四方向笔划密度特征。它不但对印刷体汉字分类有较好的效果，对手写印刷体汉字分类也具有价值。在加框的pq点阵中，向不同的方向投影，对文字黑像素的个数做累加计算，形成笔划密度直方图。通常取水平、垂直、450、和1350四个扫描方向，每个方向取n(通常取n=16)个值作为特征，形成4n维特征向量。6）汉字特征点5、汉字识别方法1 1）相似性度量方法）相似性度量方法2

15、2）句法模式识别方法）句法模式识别方法3 3）统计模式识别方法）统计模式识别方法4 4）分类策略）分类策略1）相似性度量方法,1mD x Gxgiii,1,1 222().()11mx gi ix GiR x Gx Gmmxgiiii1 21,TD x Gx Gx G22 1/2*0(,)(.)|jjR x Gxx 2200122 1,2122212GGGGGGxyGG22 1/20(.)|jjxx12120001()|/|,2(1)GGGGGG2.1222.0,xxjjRx Gx 2,01222,0GGggjjjGGggjj2)句法模式识别方法早期汉字识别研究的主要方法特点：注意汉字的组成

16、结构汉字图形结构复杂，但规律性强，含丰富的结构信息汉字图形结构复杂，但规律性强，含丰富的结构信息从汉字的构成上分析从汉字的构成上分析.笔划笔划(横竖撇点折横竖撇点折)偏旁部首偏旁部首字字.由这些基元及其相互关系完全可以精确地对汉字加以描述由这些基元及其相互关系完全可以精确地对汉字加以描述.类比类比文章结构类比文章结构单字单字词词短语短语句子句子篇章，篇章，按语法规律组成按语法规律组成.识别过程：编译理论中的句法分析识别过程：编译理论中的句法分析.2)句法模式识别方法训练过程建立所有汉字的解析图描述建立所有汉字的解析图描述基本单元基本单元基本单元之间的拓扑结构基本单元之间的拓扑结构标木示

17、一|一一字偏旁部首基本笔划(横竖撇点折)汉字的解析图表示示例2)句法模式识别方法识别过程图像获取，预处理，二值化，西化图像获取，预处理，二值化，西化基元提取基元提取基本笔画提取基本笔画提取偏旁部首提取偏旁部首提取解析图表示解析图表示2)句法模式识别方法句法分析过程句法分析过程 Top-downTop-down相似度计算方法相似度计算方法拓扑相似性拓扑相似性节点相似性节点相似性2)句法模式识别方法优点理论上是比较恰当的，对字体变化的适应性强，区分相似字能力强理论上是比较恰当的，对字体变化的适应性强，区分相似字能力强缺点描述复杂，匹配过程复杂度也高描述复杂，匹配过程复杂度也高抗干扰能力差

18、，结构基元提取困难，导致推理过程难以进行抗干扰能力差，结构基元提取困难，导致推理过程难以进行实用中文本图象中存在着各种干扰，如倾斜，扭曲，断裂，粘连，纸张上的实用中文本图象中存在着各种干扰，如倾斜，扭曲，断裂，粘连，纸张上的污点，对比度差等等污点，对比度差等等纯结构模式识别方法已经逐渐衰落纯结构模式识别方法已经逐渐衰落3）统计模式识别方法基本思路将字符点阵看作一个整体，其所用的特征是从这个整将字符点阵看作一个整体，其所用的特征是从这个整体上经过大量的统计而得到的体上经过大量的统计而得到的.缺点细分能力较弱，区分相似字的能力差一些细分能力较弱，区分相似字的能力差一些.优点抗干扰性强，尤

19、其适用于有污染的数据抗干扰性强，尤其适用于有污染的数据.匹配与分类的算法简单，易于实现匹配与分类的算法简单，易于实现.3）统计模式识别方法直接图像特征变换特征投影直方图矩特征几何描绘子笔划密度特征外围特征直接图像特征实际上并不需要特征提取过程，字符的图象直接作为特征与字典中的模板相比，相似度最高的模板类即为识别结果优点简单易行，可以并行处理简单易行，可以并行处理缺点不同大小、不同字体需要大量模板不同大小、不同字体需要大量模板对于倾斜、笔划变粗变细均无良好的适应能力对于倾斜、笔划变粗变细均无良好的适应能力变换特征字符图象进行某种数学变换二值类变换，如二值类变换，如Wa

20、lsh,HardamaWalsh,Hardama变换变换更复杂的变换，如更复杂的变换，如KL,FourierKL,Fourier变换变换,余弦变换余弦变换(DCT)(DCT)优点变换后的特征的维数通常会降低，更紧凑，利于分类变换后的特征的维数通常会降低，更紧凑，利于分类缺点多数变换不是旋转不变的，因此对于倾斜变形字符的多数变换不是旋转不变的，因此对于倾斜变形字符的识别会有较大的偏差识别会有较大的偏差有些最优变换特征的运算复杂度较高，如：有些最优变换特征的运算复杂度较高，如：K-LK-L变换在变换在最小均方误差意义下是最优的变换，但是运算量大最小均方误差意义下是最优的变换，但是运算量大

21、变换特征：矩特征在线性变换下保持不变的矩：不变矩在线性变换下保持不变的矩：不变矩但往往很难保证线性变换这一前提条件但往往很难保证线性变换这一前提条件(,)(,),p i jc i jc i ji j,()(1),kIIi jB kiAp i j,()(1),kJJi jB kjAp i j,(),kIi jA ki p i j,(),kJi jA kj p i j(1),(1)IjAA变换特征:投影直方图利用字符图象在特定方向的投影作为特征通常使用水平及垂直方向通常使用水平及垂直方向垂直方向投影水平方向投影好jio(),Ijp ip i j第i条线上黑像素的个数占总笔画点数的百分比()

22、,Jipjp i j第j条线上黑像素的个数占总笔画点数的百分比,01c i jor变换特征:投影直方图该方法对倾斜旋转非常敏感，细分能力差。待识别库汉字差异-=变换特征：几何描绘子几何描绘子样条曲线近似样条曲线近似在轮廓上找到曲率大的折点，利用在轮廓上找到曲率大的折点，利用SplineSpline曲线来近似相邻折点之间的轮廓线曲线来近似相邻折点之间的轮廓线，并用，并用SplineSpline曲线参数作为特征。曲线参数作为特征。傅立叶描绘子傅立叶描绘子利用傅立叶函数模拟封闭的轮廓线，将傅立叶函数的各个系数作为特征。利用傅立叶函数模拟封闭的轮廓线，将傅立叶函数的各个系数作为特征。对于轮廓线不封闭的字符图象不适用，难用于笔划断裂的字对于轮廓线不封闭的字符图象不适用，难用于笔划断裂的字4）分类策略：多级分类粗分类方法：包含配选法细分类方法：基于小笔段特征的层次结构细分类方法：差笔划maxmax5 5SWBAiSAi33.maxAAAx gg12S SSSN12S SSSN可编辑感感谢谢下下载载

展开阅读全文