1、 汉字识别技术的分类 汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机手写汉字识别和脱机手写汉字识别。 联机手写汉字识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别; 脱机手写汉字识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别。 从识别的角度来看,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。基于模板匹配法-联机手写数字识别模式识别系统的基本构成:信息获取预处理特征提取和选择分类器设计分类决策信息获取: 我们主要采用一个模拟的手写板,通过用户书写数字,动态地获
2、取该数字从起始点到终止点的所有点的信息及其所有我们需要的关于该数字的信息。难点及特征选取:图中,三个2的写法各不相同,但是我们都能一下子识别出来为2,其原因在于这3个数字都依次包括了向右、向左下、向右的书写习惯。同理,这3个4也都依次包括了向下、向右、最后向下的书写习惯。因此,需要提取一个重要的基本特征就是书写顺序。首先,我们来看几组图片:难点及特征选取:我们再来看看这组图片:虽然第二个2写得有点不伦不类,但是我们还是能看出来是2,原因就在于首点和末点的距离相距明显较大。第四组的两个数字4和9很容易混淆,但是可以看出4的尾巴会比9的短得多。从上,我们可以看出首点到末点的距离以及末点到交点的距离
3、也是一个重要特征。难点及特征选取: 同时,我们可以发现数字4,5书写时,都是存在断点的,数字0和8的终点和起点是连接在一起的,还有每个数字的节点的分支数,首点到交点的距离,尾点到交点的距离,首尾的距离.在每个数字之间都是存在差异的,这些都可以作为选取的特征。预处理及模板建立:在方向上,为了量化特征,于是我们规定了如下四个方向:向上向下向左向右预处理及模板建立: 之所以每个方向包三个范围,是为了避免一些小的扰动改变方向。但是,从上面的四个图中,我们可以看到,在斜线上的4个方向,每一个都包含在两个方向中,那么怎么来确定方向呢?于是,我们定义如下的规则:(1)考虑到我们书写数字的习惯,对于每一个起点
4、,选择方向的顺序依次是向右,向下,向左,向上(2)如果已经处在一个方向,那么对于紧接着的一个方向,应尽量保持和原来的方向一致,这样方向在一个小的范围内就不会受到影响,除非已经跳离了这个方向所在的范围。然而,我们会遇到如下的问题。预处理及模板建立:1| 1|1| 1|IyIyIxIx如果满足以上条件,则剔除点),1(IyIx 红色线条为笔迹经过的点,本来途中画黑点的位置都应该在路径里,但考虑到为了不使方向变来变去,对于该图处在这种拐角上的点,我们都给剔除,剔除的条件是:如图:特征选取:经过讨论,我们选取了几个比较典型的特征(1)数字的书写顺序(2)第一个笔画的长度(3)最后一个方向的长度(4)是
5、否存在断点(5)起点到交点的距离(6)尾点到交点的距离而在程序中,用一个结构体来描述特征:typedef struct tezhengsigned char value;/数字值signed char VHDerection15;/水平垂直特征/向右-1 向下-2 向左-3 向上-4signed char lenth1; /第一个笔划长度signed char lenth; /最后一个方向的长度signed char decon; /有无断点 等于1有断点signed char lenfirst; /起点到交点的距离signed char lenend; /尾点到交点的距离TEZHENG;学习和判别过程: 学习过程:学习过程: 我们可以输入很多的训练样本,保存这些样本的特征成一个个的模板,同时对于模板中存在的样本模板,我们将给出提示而不再存储,从而减少了存储空间。 判别过程:判别过程: 采用模板匹配法。 当输入一个测试样本时,我们先提取它的特征,然后从模板中查询相同的特征,如果有,给出判断结果;如果没有,则提示无法判断。从而我们可以得到较高判别结果。用户学习判别判断模板库里是否有相同的模板模板库已存在,反馈给用户不存在,用户输入数字后存入该模板存在,识别该数字不存在,提示无法识别Thanks for listening!