论文部分内容阅读
文本在自然场景中几乎无处不见,与图像中的其它目标(如:花草、建筑物等)相比较,自然场景图像中的文本信息具有较强的逻辑性与较丰富的表达能力,可以有效地提供高层次的语义信息。高效自动地处理自然场景图像中的文本信息,对提高工业自动化水平、网络检索能力、场景分析能力等具有重要研究意义。文本是我们理解自然场景的重要元素,自然场景中的文本检测目前被用于解决许多实际视觉问题。因此研究自然场景中的文本检测具有重大的实际应用价值。然而,自然场景中的文本因为图像拍摄角度、光线等客观因素影响,也因为文字的排列方式等原因给文本检测带来了很大的困难。当下流行的深度学习方法相较于传统(Optical Character Recognition OCR)方法获得了更加优异的检测效果,但目前大多数深度学习方法都是从目标检测领域直接引用过来的模型,对文本信息的针对性不强,细节信息容易在串联式的卷积操作中丢失,导致误检和漏检。因此,从自然场景图像中检测文本仍是一件非常具有挑战性的任务。本文基于深度学习算法,针对卷积操作中的细节丢失,对文本信息不敏感等问题开展了一系列的研究:(1)提出一种端到端的基于注意力机制的复杂场景文本检测方法。受启发于人类视觉注意机制,我们在VGG16基础网络结构中引入视觉注意层,使得网络能够区分不同层次特征的重要性,模仿人类快速从复杂的场景中定位到感兴趣的目标(文本),并优先处理这些重要区域。同时,通过实验确定视觉注意力层的理想插入位置。该模块加强了网络对文本区域的敏感性,解决了通用网络结构无法聚焦文本检测中重要特征的问题,最大程度保护了有关文本的细节信息。此外,我们还使用了局部感知非极大值抑制精确文本框的位置,增快运行速度,减少计算量。实验证明,我们提出的方法减少了误检和漏检,查全率和查准率都有了一定明显的提高。(2)提出了一种通过结合局部与非局部特征信息的注意力机制网络模型进行复杂场景下的文本检测。通用的网络结构一般仅仅通过重复的卷积操作获得局部和全局的特征信息,并没有加强区分处理不同位置不同重要性的特征。不同于通用的从上到下的串联式网络结构,我们在原有的卷积运算基础上并行地提取了低层特征信息和高层特征信息,对这两种信息分别采用不同的运算机制,并且设计了不同层次的局部和非局部特征融合策略,让每一层的重要特征都得到有效的加强。实验部分可以看出我们的网络可以正确的检测出复杂场景中的文本区域,减少了误检和漏检。本文系统地研究了复杂场景下对文本区域检测的细节保护等问题,对于文本检测模型的构建,视觉注意力和不同卷积层特征之间的关系等科学问题进行了有益地探索,并且为后续的场景文字检测及相关应用问题的研究提供了新的思路。