识别算法的实现⑴预处理系统采用Unger平滑技术,对图像进行去噪平滑处理。之后经过阈值化,将图像转换为二值图像,即只包含两个颜色值:0为黑色,表示该点属于数字;255为白色,则此点是背景中的一点。那么,对图像的像素值f(x,y)有:(公式1)按照文献中的细化方法,可以印刷过程中的数字检测李业丽齐亚莉陆利坤总体设计框架获得满足系统的需要。由于待识别的数字的大小不一,所以在识别前需要对样本进行大小归一化。本文采用基于点密度的方法,进行归一化处理,处理后的字统一为18号字。
对二值图像进行定位分割,首先定义各列和的向量Px为图像在x轴上的投影,即垂直投影;定义各行和的向量Py为图像在y轴上的投影,即水平投影。按照(1)式得到垂直投影Px和水平投影Py分别为:(公式2)采用投影法进行定位和分割的优点是简单快捷。由垂直投影可以得到这行数字的行坐标*小值、*大值和行分割点,水平投影可以得到该行数字的列坐标*小值、*大值和列分割点。由该行数字的行列坐标*小、*大值,可以确定这行数字在图像里的大概位置。而行分割点可以确定每个数字的左右边界,列分割点可以确定每个数字的上下边界。
⑵特征值的提取对数字进行上述的预处理后,获取它的特征。特征获取的方法非常多。本文收集样本的两个特征:垂直1/2过线数Half-Vnum,另一个是垂直1/4过线数Quarter-Vnum.
本系统采用了效果良好的细化算法进行了预处理,采集过线数特征非常简便。用个两个数组分别记录对图像进行垂直1/2和垂直1/4扫描的结果。当待识别的数字宽度不是单像素时,计算过线数需要遵循下面的原则:计算扫描线与笔画相交的次数时,无论是水平还是垂直扫描,连续相交的像素点记做一个过线点,即记为一次过线。
按照两个特征值可以将十个数字划分为几个分组。考虑到数字字体的差异,在特征值分类器的分组划分时,设计各个分组集合为交叉的集合。垂直1/2过线数Half-Vnum为2产生分组{0},为3产生分组{2,3,5,6,8,9},其它时产生分组{1,7,4}。垂直1/4过线数Quarter-Vnum为0产生分组{1},为1产生分组{7},为2产生分组{0,3,4},为3产生分组{2,5,6,9},为4产生分组{8}。
⑶模板匹配模板匹配识别方法是一种常用的方法。本系统采用宋体数字作为模板,对模板同样做⑴中的预处理。通过过线数特征分类器的筛选,将实验样本进行粗略分类,然后再与对应模板进行匹配识别,减少了模板匹配的计算量,大大提高了识别效率。
结束语这里介绍的采用模板匹配数字识别方法,通过对票据印刷品中数字进行预处理后,输入过线数特征分类器进行分类识别。相对其它基于特征提取的识别方法,本文提出的识别方法识别准确率高,同时又大大缩短了单纯模板识别的运行时间。实验证明,在票据印刷过程中对图像进行识别,该方法是一种有效的识别方法。
(完)