基于深度学习的低质量文档图像二值化算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:dsdfafdsfsda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为文档分析系统的预处理步骤,二值化分割文字与背景,这个过程在例如字符识别等要求提取的文字精确且视觉质量高方面起着关键作用。大多数二值化算法以无监督的方式构建在低级特征上,因此无法充分利用输入域知识,会大大限制前景文本与背景噪声的区分。随着深度学习在计算机视觉各个领域的广泛应用,研究者开始采用深度学习模型解决二值化问题,并取得了较好的分割效果。针对于此,本文围绕基于深度学习的低质量文档图像二值化算法展开研究,主要工作及创新点如下:
  (1)介绍了十二种二值化算法,其中包含六种经典传统算法与六种基于深度学习的最新算法,分别对每种算法进行简要概述,通过实验结果分析算法的优势与不足。
  (2)算法一首先针对神经网络训练数据集有限的问题,提出一种文本增强网络(TANet)来扩充数据集,充分利用了现有的文档图像;然后将改进后的D-LinkNet网络(MD-LinkNet)作为二值化分割网络。该二值化网络有两处改进,一是在编解码中间部分增加剩余多核池化(RMP)模块与级联空洞卷积(CAC)模块来提取丰富的文档笔画特征;二是将池化后的低分辨率图像采用DUpsample替代传统的双线性插值进行上采样,结合了文档图像的像素邻域信息。采用国际文档图像二值化竞赛(Document Image Binarization Contest,DIBCO)所提供的数据集和评估指标,将该算法与十二种二值化算法进行对比,实验结果表明,算法一的FM值相比较性能次优的DSN算法有5.1%的提升。
  (3)算法二针对历史文档图像文本分布不均衡,导致单一神经网络的二值化分割存在噪点现象,提出一种级联卷积神经网络来解决二值化任务的多尺度信息融合的核心问题。算法首先采用U-Net网络做基础的分割,旨在保留文档完整的笔画信息;然后将不同比例的图像测试结果进行融合,送入算法一提出的MD-LinkNet进行训练测试;最后采用卷积条件随机场(ConvCRF)进行后处理,去除孤立的噪声点。实验结果表明,该算法在保留完整笔画的同时,对于文字占比较小的文档图像可以较好的抑制噪声。
其他文献
【摘 要】随着经济的持续增长,人们对于素质教育愈加重视,新课标提倡由教师通过肢体语言将丰富多彩的小学音乐课程内容形象的表现出来,提升自身对音乐的审美能力,本文从小学音乐现状出发,分析动作表演在小学音乐课中的作用。  【关键词】动作表演;小学音乐;音乐教学;体态律动  【中图分类号】J605 【文献标识码】A  【文章编号】2095-3089(2018)22-0262-02  引言  动作表演是在音
期刊
【中图分类号】G622 【文献标识码】A  【文章编号】2095-3089(2018)22-0263-01  猜疑是一种心理现象,是由缺乏“自我安全感”引起的。猜疑是对某种表面现象,或是从某一假象出发,没有把握地进行判断和推理,处处神经过敏,事事捕风捉影,对他人失去信任,对自己也同样心生疑虑,损害正常的人际关系,影响个人的身心健康。心理学认为,猜疑是一種不良的心理品质,一旦产生,其消极作用很多,并
期刊
【摘 要】本课从学生的认知规律出发,主要通过创设情境,设计动态演示的教学课件,采用“谈话法”引导学生以已有知识“线段”为生长点教学射线和直线,从有限到无限,并辅以“观察法”,“演示法”“讨论法”等教学方法,帮助学生建立射线和直线的表象,掌握射线,直线和线段的特征,并且知道它们的区别与联系,同时让学生形成“无限”的概念。最后通过学生动手操作和教师的“讲授法”让学生自主建立角的概念,认识角的符号和表示
期刊
【中图分类号】G633 【文献标识码】A  【文章编号】2095-3089(2018)22-0276-01  我是个样貌最普通不过的女孩,内心底处无时无刻的安放着“自卑”两个字,我总羡慕那些漂亮的女孩,她们总是散发着光芒,无论在班级里还是在学校里总是焦点,一看到那些美丽的女孩子,同学们都总会忍不住的多投去注视的眼光。  青春的萌动,像一棵小草破土而出。上高中的时候,有的长得漂亮的女孩子私下会收到很
期刊
【中图分类号】G424 【文献标识码】A  【文章编号】2095-3089(2018)22-0275-01  每人都可能有环境不好,遭遇坎坷,工作辛苦的时候。说得严重一点,几乎可以说,在我们每个人降生到这个世界以前,就被注定了要背负起经历各种困难折磨的命运。  但这并不是说,因此就该认定人间没有乐趣,或不值得来人间这一趟。我们虽然被注定了要靠劳力、靠工作来维持自己的生活,虽然被注定有七情六欲来品尝
期刊
【中图分类号】G623 【文献标识码】A  【文章编号】2095-3089(2018)22-0279-01  自主性游戏活动是幼儿自我学习、自我探索、自我发现、自我完善的活动。小班幼儿由于活动能力和思维方式的限制,在开展自主游戏时更多依赖于自身的生活经验,依赖于对游戏材料的迁想和经验的再现。  通过上学期的游戏开展,孩子们渐渐喜欢上了自主性游戏。在游戏中,孩子们的交往能力、语言能力、动手能力等有了
期刊
【摘 要】班主任要尊重学生独特个性,要用爱心、宽容之心教育每一名学生;管理要严中有爱,理直气和,要用细心和耐心处理学生出现的每一个问题;多鼓励,少表扬;多描述,少评价;班主任要诚实正直、以身作则,对学生要做到超前调查研究,要走进学生的精神世界,促使学生的个性得到充分发展。  【关键词】尊重;严中有爱;细心;耐心;以身作则  【中图分类号】G635.1 【文献标识码】A  【文章编号】2095-30
期刊
【中图分类号】C913 【文献标识码】A  【文章编号】2095-3089(2018)22-0273-01  小丽是一名漂亮乖巧的女孩,上高中后,她迷上时尚潮流杂志,加上同学戏称她为“胖妹”,便开始节食,除水果外不吃任何东西。过了几个月,小丽竟减到34公斤,不仅脑垂体变小、甲状腺功能低下、贫血,瘦得连打吊针都打不进,后来经心理科、营养科联合治疗,才慢慢变好。  医生指出,小丽患上的是“神经性厌食症
期刊
【摘 要】历史是初中教学课程中的重要课程之一,学习历史不仅仅是为了考试,更重要的是让学生了解历史,学习历史知识,树立历史感悟。老师在备课时应选定重点,深入研究教材,理清要点,教学方式采取多元化的方法,抛弃传统的、单方面的依靠老师课堂讲解的历史教学方式,进行历史改革创新,让历史教学取得更好的教学效果。  【关键词】初中历史;教学现状;措施;策略  【中图分类号】G633.5 【文献标识码】A  【文
期刊
【中图分类号】G633.91 【文獻标识码】A  【文章编号】2095-3089(2018)22-0290-01  很多人觉的,焦虑是不健康的,有人用一辈子来同焦虑做斗争。但从心里学角度看,焦虑和乐观都是心里应对策略。  研究发现,焦虑有三个好处:第一,适度焦虑的人因事先不会太乐观,所以,不论发生什么结果,都不会太意外。而乐观的人把一切想的太好,一旦出差错就会很愤怒,结果可能导致高血压、心脏病等。
期刊