英文科技文档中粘连下标的一种判定方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sophieyeah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及,使用计算机处理日常工作和存储信息成为人们更多的选择。对图像格式文档文件的识别与检索引起了广泛的关注。适用于普通印刷体文档图像的OCR系统已经比较成熟,对粘连字符的处理成为其识别正确率的主要影响因素之一。科技文档中存在较多的数学表达式,它们是由特殊符号及字符组成的比较复杂的结构体。数学表达式中字符之间存在着二维关系,这使得粘连字符的处理成为正确识别数学表达式的一个重要部分。为此,本文作了一些尝试,给出了一种粘连下标的判定方法。本文主要包括以下内容:本文第1章简单介绍了神经网络方面的一些知识,概述了数学表达式识别系统的一些流程,包括数学表达式的定位,识别,重组。并且列出了粘连字符检测,分割方面的主要方法。在第2章,分析了粘连下标的主要特征,给出了一种新的投影方法。基于此,总结出了一种粘连下标的判定方法:首先,通过上述投影方法获取字符或者符号的轮廓信息,然后通过粘连下标特殊的轮廓特征进行判别。最后,给出了数值实验,表明该方法能够在不同类型字符中能够很好的检测出粘连下标。针对粘连下标判定方法中参数选取的问题,第3章中给出了一种模糊神经网络方法。该方法将第2章方法的参数作为权值,通过学习来获得比较合适的数值。当然,这种模糊神经网络方法也可以直接用来判定粘连下标。第4章考虑到粘连字符出现的概率问题,针对实际科技文档图像作了数值实验。主要是在数学表达式定位的过程中,运用粘连下标判定方法,检测文档中的粘连字符并标记出来。
其他文献
近年来,随着应用领域中提出的众多问题,研究微分方程的解或者解的导数在区间内部不连续、边界条件依赖于谱参数的微分方程边值问题受到了越来越多研究者的关注.这些问题来源