论文部分内容阅读
支持向量机(SVM)是近年来发展起来的基于小样本的新的通用学习技术。该技术具有坚实的理论基础、强泛化能力、分类精度高且能收敛至全局最优解。支持向量机是机器学习领域若干标准技术的集大成者,它集成了最大间距超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术,在若干挑战性的应用中,获得了目前为止最好的性能。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛的研究并广泛应用于模式识别等领域。但它是二值分类器,不适用于多值分类场合及处理海量数据。
数学公式图像自动识别与理解已成为文档图像处理(DIP)领域的一个热点问题。数学公式图像识别主要包括两大阶段:符号识别与语法分析。多数学者将研究重点放在语法分析阶段,因为很多人误认为传统OCR技术能够较好的识别数学公式符号,但实际应用中却并非如此。
数学公式符号是介于普通文字字符与图形符号之间的一种符号,它在排版印刷、符号集方面都与普通文字字符有着很大的区别,而且数学公式符号图像受字体影响较大,因此设计专门的数学公式识别引擎非常必要。
本文研究支持向量机在大类别数分类中的应用,结合二叉决策树的基本思想提出一种基于支持向量机的大类别数分类解决方法,该决策树的建立基于类间距的聚类算法。经过在数学公式符号识别中的应用,验证了该算法在多分类问题中有着良好的分类效果。