论文部分内容阅读
《基于经验模式分解的汉字字体识别方法》一文中提出了一种基于经验模式分解(empirical mode decomposition,简称EMD)的汉字字体识别方法,其具体过程为:通过对大量汉字字体的研究比较,选取了能反映汉字字体基本特征的8种基本笔画.以这8种汉字笔画为模板,在汉字文档图像块中随机地抽取笔画信息,形成笔画特征序列,通过对笔画特征序列作EMD分解,提取每个笔画特征序列的高频能量,并结合汉字文档图像块的平均灰度,形成字体识别的一个9维特征,称作EMD特征.
本文首先实现了上文中的EMD特征,接着在上文中提出的8种汉字特征笔画序列的基础上,提出一种新的字体特征提取方法,即对每种序列分别提取一阶矩(期望)和二阶矩(方差)两个特征,并结合汉字文档图像块的平均灰度,形成字体识别的一个17维特征,称作矩特征.最后分别设计了欧式距离分类器和改进的二次分类器(MQDF)两种分类器,并分别结合上面两类特征进行汉字字体的对比识别.对实际扫描样本的识别结果表明,本文提出的矩特征结合MQDF分类器的方法在上述各组对比实验中平均识别率最高,约为98.9%.