档案图像版面分析与字符提取方法研究

来源 :五邑大学 | 被引量 : 2次 | 上传用户:aigeng87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于图像处理技术的文档数字化重构是模式识别研究的一个重要领域。将纸质档案原件影像化,通过图像处理、字符识别等技术实现文档的版面分析与版面理解并最终实现文档版面数字化重构,转化为数字化的文档资源并以双层PDF文档、Word文档等形式呈现,以互联网为媒介服务大众,极大地便利了档案资料的检索、查阅、保存与传播等工作。版面分析与字符提取是文档数字化重构的重要基础步骤,尤其是在这个追求个性与创造的时代,文档版面的排版结构越来越复杂,图片、文字、表格等元素甚至印刷体与手写体的混合排版对版面分析与字符提取带来了很大的挑战,异构文档图像版面分析的任务是实现版面多种组合元素的分解,将复杂的版面同构化为同质化的单一区域,进而通过字符提取、字符识别实现文档版面理解,进而实现版面重构。针对文档图像版面分析与字符提取问题,本文的主要研究工作体现在以下两个方面:(1)基于深度迁移学习的文档版面目标检测研究。由于文档图像版面中公式、表格、插图等基本图像单元排版的无序性与多样性,传统的版面分析方法针对不同的文档图像往往需要不同的处理策略,并且文档版面区域的定位与分类模块完全独立,不仅导致系统的冗余还严重限制了系统的通用性。为了更好的实现文档版面的区域定位与分类,同时克服文档图像标注样本数据不足的缺陷,提出了一种基于深度迁移学习的文档版面目标检测方法。由于在自然场景的语义理解方面具有大量的标注数据集来做深度学习的研究支撑,本文采用迁移学习的方式将自然场景下的目标检测模型迁移到文档版面目标即公式、插图、表格的检测任务上。在一个网络框架下同时实现了文档版面多种目标的检测与界限框的定位,提高了系统的通用性,实验结果表明该算法具有较高的准确率,不仅实现了文档图像版面区域的识别还实现了版面目标的精确定位。(2)无约束书写条件下的手写文本行提取算法研究。在没有基准线与界限框约束的条件下,自由书写的文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。传统的文本块几何线分割或超像素聚类的方法一般都无法保证文本行边缘字符笔画的精确分割。针对这些问题提出了一种改进的方案,文本行回归-聚类联合框架。首先,利用拖尾效应提取文本行主体区域,并结合形态学处理对其骨架化得到文本行回归模型。然后,建立了像素-超像素-文本行关联层级随机场模型,利用能量函数优化的方法实现字符连通域的聚类,并分配所属文本行标签。在此基础上,检测出所有的行间粘连字符块,采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类,实现粘连字符分割与所属文本行标注。最后,利用文本行标签开关实现了文本行像素的操控显示与定向提取,而不再需要几何分割。实验表明,提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时,最大程度地避免了相邻文本行的干扰,具有较高的准确率和鲁棒性。
其他文献
保证汽车行车安全,除对车辆勤检查,勤保养,驾驶员严格遵守交通法规,提高驾驶技能,增强安全行国意识外,主要应保证车辆经常处于完好的技术状态,本文从转向系,制动系,传动系及装载四个方
本文主要研究新媒介素养对城市中小学生网络参与的影响。运用问卷调查方法,对山西省9所中小学进行实地调查研究,发现新媒介技能和新媒介内容理解对城市中小学生的网络参与有
《财富》预言:2000年七大投资趋势,2000年投资热点:网络与生物技术,2000年网上服务将免费,’99全球主题:网上购物.com狂热,电子企业领导者的重要特证,亚洲主要国家及地区网络费用比较
以榴莲皮为原料,添加纤维素酶、表面活性剂提取榴莲皮中的总黄酮.研究了纤维素酶及表面活性剂用量、乙醇浓度、提取温度、提取时间对总黄酮产率的影响,采用Box-Behnken试验设计
【正】 1985年第1期《北京师范大学学报》发表了我的《坚持在教育实践中研究儿童心理学与教育心理学》一文,在拙文中我曾指出:"儿童心理学与教育心理学研究的基本方法有观察
烧伤伴有呼吸系统障碍包括:因颜面、颈部烧伤引起的上呼吸道闭塞,胸部烧伤引起胸廓运动障碍,以及呼吸道本身烧伤,或休克脱离期体液再分配异常而发生的肺水肿。在免疫功能低下
一、适应新形势的需要,进一步加强伤亡事故管理工作在从计划经济向社会主义市场经济转变过程中,新的形势对伤亡事故管理工作提出了许多新课题。比如:伤亡事故的统计范围如何与《
目的:通过观察关节镜清理术配合术后口服补肾活血中药治疗膝骨关节炎,评估其临床疗效。方法:选取2016年6月至2017年12月共收集到来自梅州市第二中医医院骨伤科三个病区膝骨关
本研究以来自达里湖(碱水)和松花江(淡水)的瓦氏雅罗鱼(Leuciscus waleckii)杂交F2为实验材料,通过碱度耐受实验进行性状测定,以39对多态的EST-SSR和SSR为标记,对77个F2个体进行基