论文部分内容阅读
脱机手写体汉字识别技术有着重要的研究价值,从中我们不仅可以得到理论上的提升,它的实现还可以解决更多的实际应用问题。但是因为汉字的识别具有一些难点,如整个汉字集的规模很大,不同的人具有不同的书写风格,很多汉字之间的差别很小以及汉字具有较复杂的字型结构等,使得它在模式识别领域中一直是极具挑战性的课题。
特征提取与分类识别是汉字识别过程中的两个关键环节,本文主要是对这两个环节进行研究。本文的主要内容如下:
脱机手写体汉字识别的粗分类,通过不同的特点将汉字集分为9个子集,首先根据汉字的复杂程度将汉字分为简单字与复杂字,简单字的识别相对简单不再进行分类,接着根据直方图投影法将复杂字集分为一级可分的字集、二级可分的字集与杂合集,一级可分字集又可以分为左右字集与上下字集,二级可分字集又可分为上中下字集与左中右字集,而杂合字集可根据外边框的类型进一步进行分类。
特征的提取,首先介绍了几种简单的特征提取方法,有粗外围特征、粗网格特征、笔划密度的特征等。接着介绍了在手写体汉字识别中对小波变换的应用,通过对行列方向的小波变换的理解,提出了两种不同方向的小波变换—对角线方向的小波分析与径向加权的小波分析,三种方向的变换与弹 性网格结合,形成新的小波网格特征。最后介绍了双弹性的模糊网格特征,对用小波变换得到的4个笔画的子图像进行双弹性的模糊网格特征的提取。
用基于SVM的AdaBoost算法对简单集、混合集、左右字集、左中右字集、上下字集与边框字集这几个样本集进行训练与测试,分别采用了不同的特征提取方法,识别得到的结果与Libsvm得到的识别结果进行分析,其中,双弹性模糊网格的特征提取方法与其它特征相比具有较好的性能。实验结果的数据表明,基于 SVM的AdaBoost算法比SVM方法的正确率有所提升。