论文部分内容阅读
自然场景中的文本检测在图像检索、辅助驾驶、工业检测等领域具有广泛的应用。传统的自然场景文本检测技术主要根据文本的颜色、纹理、笔画宽度等设计一些低层次的特征对文本进行检测,这类方法泛化能力和检测性能较弱。近些年,基于深度学习的文本检测方法利用深度卷积神经网络提取图像更深层次的特征,为文本检测任务带来了更好的性能和泛化能力。本文针对现有的基于深度学习的文本检测方法的不足之处,提出并设计了三种面向自然场景的文本检测方法,具体工作如下:(1)置信度融合的自然场景文本检测方法。非极大抑制算法在对同一个真实文本框的重复检测进行合并和筛选时,将预测框的分类置信度作为排序依据,导致那些定位更精确而分类置信度略低的预测框被抑制,从而影响检测准确率。本文针对以上不足,首先,设计了交并比网络预测每个锚框与真实文本框之间的交并比,作为每个预测框的定位置信度;其次,在非极大抑制算法中,将定位置信度与文本分类置信度融合作为预测框排序的依据;最后,在ICDAR2011和ICDAR2013数据集上对本方法进行了实验,结果表明,本方法可以提高文本检测的准确率,并且检测的文本框更加紧致,包含的背景区域更少。(2)无锚框的水平方向自然场景文本检测方法。基于锚框的文本检测方法具有超参数众多、正负样本数量不平衡、对狭长细小的文本区域检测不鲁棒等不足。本文针对以上不足,首先,设计了一种无锚框的水平方向文本检测方法,直接预测特征图上每个坐标点处距离真实文本框的左、上、右、下边的距离;其次,对模型训练中的特征选择策略作了改进,只将梯度传递给每个实例损失函数最小的特征层;最后,在ICDAR2011和ICDAR2013数据集上进行了实验,结果表明,本方法可以有效提高文本检测的速度,对细小狭长的文本区域检测具有较好的鲁棒性。(3)无锚框的任意方向自然场景文本检测方法。基于锚框的任意方向文本检测方法在设计锚框时,除了需要考虑锚框的尺寸和长宽比,还需要考虑覆盖更多的角度;这使得任意方向的文本检测速度较慢。本文针对以上不足,首先,设计了一种无锚框的任意方向文本检测方法,用带有角度的旋转矩形框来标注文本区域;其次,直接预测特征图上每个坐标点距离旋转矩形框的左、上、右、下边的距离和该矩形较长边与水平右向的角度;最后,在ICDAR2013和ICDAR2015数据集上进行了实验,结果表明,本方法能够有效检测任意方向的文本区域,并且检测每张图片的时间缩短为主流方法检测时间的32%。