论文部分内容阅读
基于图像处理技术的文档数字化重构是模式识别研究的一个重要领域。将纸质档案原件影像化,通过图像处理、字符识别等技术实现文档的版面分析与版面理解并最终实现文档版面数字化重构,转化为数字化的文档资源并以双层PDF文档、Word文档等形式呈现,以互联网为媒介服务大众,极大地便利了档案资料的检索、查阅、保存与传播等工作。版面分析与字符提取是文档数字化重构的重要基础步骤,尤其是在这个追求个性与创造的时代,文档版面的排版结构越来越复杂,图片、文字、表格等元素甚至印刷体与手写体的混合排版对版面分析与字符提取带来了很大的挑战,异构文档图像版面分析的任务是实现版面多种组合元素的分解,将复杂的版面同构化为同质化的单一区域,进而通过字符提取、字符识别实现文档版面理解,进而实现版面重构。针对文档图像版面分析与字符提取问题,本文的主要研究工作体现在以下两个方面:(1)基于深度迁移学习的文档版面目标检测研究。由于文档图像版面中公式、表格、插图等基本图像单元排版的无序性与多样性,传统的版面分析方法针对不同的文档图像往往需要不同的处理策略,并且文档版面区域的定位与分类模块完全独立,不仅导致系统的冗余还严重限制了系统的通用性。为了更好的实现文档版面的区域定位与分类,同时克服文档图像标注样本数据不足的缺陷,提出了一种基于深度迁移学习的文档版面目标检测方法。由于在自然场景的语义理解方面具有大量的标注数据集来做深度学习的研究支撑,本文采用迁移学习的方式将自然场景下的目标检测模型迁移到文档版面目标即公式、插图、表格的检测任务上。在一个网络框架下同时实现了文档版面多种目标的检测与界限框的定位,提高了系统的通用性,实验结果表明该算法具有较高的准确率,不仅实现了文档图像版面区域的识别还实现了版面目标的精确定位。(2)无约束书写条件下的手写文本行提取算法研究。在没有基准线与界限框约束的条件下,自由书写的文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。传统的文本块几何线分割或超像素聚类的方法一般都无法保证文本行边缘字符笔画的精确分割。针对这些问题提出了一种改进的方案,文本行回归-聚类联合框架。首先,利用拖尾效应提取文本行主体区域,并结合形态学处理对其骨架化得到文本行回归模型。然后,建立了像素-超像素-文本行关联层级随机场模型,利用能量函数优化的方法实现字符连通域的聚类,并分配所属文本行标签。在此基础上,检测出所有的行间粘连字符块,采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类,实现粘连字符分割与所属文本行标注。最后,利用文本行标签开关实现了文本行像素的操控显示与定向提取,而不再需要几何分割。实验表明,提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时,最大程度地避免了相邻文本行的干扰,具有较高的准确率和鲁棒性。