论文部分内容阅读
随着网络技术和计算机技术的快速发展,电子文档成为日常学习和工作中不可或缺的资料。数学表达式作为许多电子文档重要的组成部分,如何将其输入到计算机中是亟待解决的问题。早期人们主要通过MathType一类型的图形化交互界面编辑器和LaTex一类型的一维描述语言进行数学表达式录入。基于图形化交互的数学表达式编辑工具存在效率低和输入繁琐等缺点,而基于数学表达式描述语言的录入要求录入者掌握该语言才能进行描述。随着手写技术设备的发展与普及,数学表达式联机手写录入由于更加直观和方便,成为了一种重要的录入手段,联机手写数学表达式识别技术也成为了研究热点。联机手写数学表达式识别过程一般分为符号分割、字符识别和结构分析三个连续的步骤。现有识别方法均采用上述识别过程,只是对不同步骤采用的具体方法不一样。当输入新笔画时,现有的识别方法往往丢弃之前识别的结果,然后重新开始整个识别过程,并且不支持笔画的回写,可见,现有方法在识别速度和识别率两个方面都有值得改进的地方。本文旨在研究输入笔画对区域的影响以及表达式组织结构对笔画动态改变的适应能力,以期寻求一种更加优化的识别方法。论文主要开展了以下一些工作:1)本论文通过分析大量手写数学表达式输入实例,发现新输入的笔画在绝大部分情况下只影响先前输入的数学表达式的一部分,于是提出了基于笔画影响区域定位的实时识别方法。该方法以先前的识别结果为基础,并将先前的识别结果存储在一棵数学表达式树中,在表达式树中寻找新输入笔画影响的部分,最后根据新输入笔画和受其影响的表达式树中的节点的关系动态调整数学表达式树结构,从而完成数学表达式的识别。2)现有的方法没有解决笔画回写问题,本文提出了笔画影响区域定位算法,该算法将需要进行符号分割、字符识别和结构分析的笔画集缩小到可控范围,从而解决了笔画回写问题,也同时解决了现有识别方法中的符号分割搜索空间过大问题。3)在上述研究工作的基础上,本文设计并实现了一个联机手写数学表达式识别原型系统。利用该系统,结合现有的标准数据集对本文识别方法的可行性和有效性进行了验证,并将实验结果与相关识别方法做了对比。结果显示本文的识别方法在识别速度和识别率上较之现有识别方法均有提高。