1、 文字识别技术 简介文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。信息采集 将纸面上的文字灰度变换成电信号,输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现,有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。信息分析和处理 对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰,进行大小、偏转、浓淡、粗细等各种正规化处理。信息的分类判别 对去掉噪声并正规化后的文字信息进行分类判别,以输出识别结果。识别方法 模板匹配法 将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的
2、相似性程度,取相似度最大的类别作为识别结果。这种方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。这一方面会增加机器的存储容量,另一方面也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算,所以对文字的缺损、边缘噪声等具有较强的适应能力。几何特征抽取法 抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。这种识别方式由于利用结构信息,也适用于手写体文字那样变型较大的文字。模板匹配的流程 建立标准模板库建立标准模板库 文
3、字识别文字识别1.文字分割2.特征提取3.相似度比较 模板比较和识别方法模板比较和识别方法 遇到未知字符则更新模板库遇到未知字符则更新模板库标准模板库 确定标准图像确定标准图像 待识别图像的比较待识别图像的比较 分辨率分辨率100100120120文字读入与分割(1)读入图像并转换为灰度图读入图像并转换为灰度图 将灰度图进行二值化将灰度图进行二值化文字读入与分割(2)对列求和,若为对列求和,若为0 0则可以作为分则可以作为分割线割线 横向求和,去除上下的黑边横向求和,去除上下的黑边文字读入与分割(3)执行了分割执行了分割 对分割后图片使用对分割后图片使用matlabmatlab内置的内置的im
4、resizeimresize函数进行标准化函数进行标准化模板比较和识别 将输入图像与标准模板异或操作将输入图像与标准模板异或操作 每个像素点的分量相加每个像素点的分量相加 结果越小则匹配相似度越高结果越小则匹配相似度越高模板库的更新 异或结果均得到较大值时异或结果均得到较大值时 经过一定实验得到了一个经验值经过一定实验得到了一个经验值40004000 如果和所有模板的结果都超过如果和所有模板的结果都超过40004000,则认为匹配失败,需要更,则认为匹配失败,需要更新新运行结果1 输入了输入了8 8个字母,其中个字母,其中X X不在模板不在模板库之中库之中运行结果2 X X没有识别出来,添加没有识别出来,添加X X的模板之的模板之后重新识别,能够识别出来后重新识别,能够识别出来局限性与不足 笔画太细会造成无法识别笔画太细会造成无法识别 有偏角和过于潦草的字无法识别有偏角和过于潦草的字无法识别 相似度太大的字母无法识别相似度太大的字母无法识别(C(C和和c c,X X和和x)x)经验值经验值40004000可能对识别造成影响可能对识别造成影响 总得来说,只能够识别较为标准总得来说,只能够识别较为标准的字母的字母Thank you!