网站服务热线:
当前位置:
首页 > 资讯 > 技术应用 > 正文

印刷构体内数控程序解化的研讨

来源:中国喷码机网发布日期:2013-01-19

  孤立式公式的提取孤立式数学公式和非孤立式数学公式在排版风格上有许多的差异,因此不经过字符识别直接抽取孤立式数学公式是可行的。孤立式公式的抽取可以利用一些帮助信息,如可以直接确定数学公式的垂直行间距、相对行高,还可以通过密度来区分,公式和普通文本段相比有较低的密度。

  文本行的特征抽取从待分类的文本行中提取的特征如下所示:a)标准行高H=h/h0b)标准行上间距A=as/h0c)标准行下间距B=bs/h0d)左缩排L=li/le)右缩排R=ri/lf)公式和它所对应的序号的间距D=ld/h0g)密度E=N/(lh)在上述几个特征中,h表示行高,l表示行的长度,h0表示一行中所有字符的平均高度,N表示该行中的黑像素的个数。其中as,bs,li,ri和ld的定义如所示。因此,每一行都可以用向量x={H,A,B,L,R,D,E}来表示。

  假定在类Xk中有Nk个训练样例,xk1,xk2,,,xkNk,一个中心函数和窗口宽度hk.用(1)来做中心函数,其中p^(V|Xk)是p(x|Xk)的估计,E^是Xk的训练样例的协方差矩阵。

  实验结果及讨论本实验利用VisualC++编程实现,对50余篇科技文档进行了扫描分析,总共包括3972行,其中632行是孤立公式行,其余3340行是纯文本行或包含嵌入公式的文本行。

  孤立式公式抽取的实验结果如下表所示:孤立式公式抽取的结果如所示,孤立式公式抽取的正确率为95.41%,另有1.05%的非公式被误认为是公式。一般文档中的标题很容易被错误地识别为孤立的公式。可以通过用基于识别结果的抽取方法来避免标题被识别为公式。

  嵌入式公式的抽取一般比较复杂,它们嵌入在文本行中,对嵌入式公式的抽取一般都是基于识别结果的,还有待进一步研究。

(完)

更多资讯!欢迎扫描下方二维码关注喷码机产业网官方微博。

喷码机产业网