论文部分内容阅读
离线手写文档识别主要是切分图片文档中的不同类型区域,检测表格结构和提取表格单元,并识别含有手写文本的表格内容,加快将纸质手写文档录入计算机的速度。考虑到移动平台的普及率和发展趋势,本文的研究内容实现在Android平台上。由于许多图片文档包含复杂的背景,并且在扫描或者传输过程中会产生噪声等无效信息,如果直接进行处理,会使算法难于设计,处理效果变差。将文档分类为文本元素和非文本元素,然后分别对不同的元素进行处理,可以解决这个问题。因此,本文首先对含有复杂背景的文档预处理的方法进行了介绍,进行二值化和倾斜变换。然后在此基础之上对文本元素和非文本元素进行分离。在只含有非文本元素的文档图像上,依据组成表格元素可能具有的形态特征,筛选出候选元素。然后在文本元素图像上,对落在候选元素包围盒里的文本元素进行提取文本行操作。封闭表格和半封闭表格因为有分隔内外的轮廓线,检测起来比较容易。表格逻辑结构的获取是根据表格内部的文本行在水平和垂直方向上的间距,来确定行和列。平行表格的判定需要制定更多的规则,而这些规则可以用在无线条表格的检测中。彩色表格的处理则是依据彩色图像二值化以后的特征。目前大部分字符识别引擎只能进行单字识别,为了处理连续书写的文本,需要在识别前进行切分,把一张完整的文本行图像分成若干张单字图像,然后送入识别引擎进行识别。如果切分不正确,那么就会对识别引擎的工作形成干扰,无法得到正确的识别结果,降低系统的整体表现。本课题描述了一种改进的投影切分算法,先用不同阈值对文本行进行切分,然后根据切分结果的统计特征选择最优结果,解决了阈值选择的困难,一定程度上减少了错误切分的发生。整个系统选择Android平台作为开发环境,通过本地相册获取文档图像,系统会依次进行文档结构切分、表格检测与识别和手写汉字切分,并将切分结果单字形式传递给后端识别引擎。经过测试,系统在表格内容切分方面达到了86%的成功率,整个系统具有较好的实用价值。