论文部分内容阅读
随着计算机信息技术的飞速发展,传统的纸张文字已无法满足人们对信息的要求,将纸张文字通过各种扫描设备输入到计算机中,即将传统的纸张文字转化为数字化信息已成为时代的必然趋势。随着各种扫描设备的不断发展,基于OCR光学字符识别系统的电子设备已逐渐投入到使用中来。OCR技术是一种图像信息数字化的过程,主要包括原始图像的输入、图像预处理、字符分割、字符特征提取和字符识别几个步骤。OCR的最终目的是要将纸张信息转化为数字化信息,并进行字符识别,而在该过程中,字符分割是字符识别的一个基础和难点。本文主要针对手写体汉字进行研究,研究重点是字符分割以及图像预处理中的字符图像细化。现有的手写体汉字图像细化和分割方法仍存在许多不足之处,如字符图像细化不彻底、字符图像的误分割或过分割现象等。针对这些不足之处,本文对原有的手写体汉字图像细化方法及分割方法进行了一定的改进,较好的解决了细化不彻底现象与误分割问题。本文主要针对手写体汉字的二值化图像进行研究,这样做可以很好的排除其他因素的干扰,将字符图像与背景相分离,更加关注字符图像的细节信息,有利于进一步的字符图像特征的提取和字符识别。本文所做的主要工作包括:(1)介绍了OCR技术的应用与发展,并针对本文的研究内容,对字符分割的国内外研究现状进行分析。针对手写体汉字的字符特征以及字符特性,分析使用各种方法的优缺点,并对其分割准确度进行比较。(2)介绍了字符图像的预处理工作,主要包括图像去噪、图像二值化以及文本行分割。内容包括进行该工作使用的方法以及进行该预处理的好处,并通过相应的实验效果对比说明进行预处理工作的必要性。(3)主要论述了手写体汉字的字符特征,以及针对手写体汉字的独特性对字符图像进行的细化处理,即手写体汉字细化。简单介绍了字符细化研究现状和研究背景,并针对原有的细化方法进行分析,提出了一种改进的基于数学形态学的手写体汉字细化方法。(4)介绍了字分割方法中的两大难点,粘连字的确认以及如何寻找正确的分裂点。针对原有的基于连通域标记和基于投影的分割方法的不足之处,本文提出了一种改进的基于投影的手写体汉字分割方法。(5)根据论文中所介绍的方法,对手写体汉字图像进行实验,并对实验结果进行分析和比较。对本研究方向中还存在的缺点以及需要改进的地方进行阐述,并介绍了手写体汉字分割在模式识别领域中的应用情况。