论文部分内容阅读
目标检测是计算机视觉系统中最为关键的基础技术之一。对于现实世界中的许多人工智能系统而言,精准的目标定位是必不可少的,譬如目标追踪、识别和对齐等。目前,得益于卷积神经网络强大的特征提取能力,目标检测算法取得了突破性的进展。然而在某些对算法时间和空间复杂度要求较高的应用中,如无人机导航、安防领域和自动驾驶等,现有的实时目标检测算法在检测性能方面无法达到令人满意的效果。因此如何提高实时目标检测网络的准确率获得了广泛的关注。而现有对实时目标检测算法的改进工作大多是以牺牲时间和空间复杂度为代价,来换取准确率的提升。针对这一不足,本文以当前最先进的实时目标检测网络SSD为基础,设计了两种特征增强方法,分别从空间和通道的角度来提升卷积神经网络特征的判别性,在增加较少时间复杂度情况下,有效提升了SSD网络的检测准确率,并且减少了一定的空间复杂度。本文主要工作包含以下两方面:首先,针对目标特征提取过程中受周围背景或者无关目标干扰的问题,本文以SSD网络为基础提出了一种空间特征增强网络。这一网络借鉴人类视觉注意力机制,提出了一种轻量型的空间注意力模块,旨在以较小的代价使网络关注于检测场景中关键区域。该模块利用卷积神经网络特征的多尺度特性,通过网络深层特征层生成注意力图,来约束相邻浅层特征层的学习。在实验中,相比SSD网络,空间特征增强网络的检测性能具有较大优势,同时在模型复杂度方面相差很小。其次,针对特征冗余的问题,本文提出了一种多尺度通道特征增强方法。这一方法提出了一种通道特征增强网络,该网络设计了一种通道特征增强模块,可以使网络抑制冗余特征的学习,增强特征之间的判别性。通道特征增强模块逐通道对特征的重要性进行量化来获取特征重要性向量,使用该向量来抑制冗余特征。这一特征增强方法使SSD网络在公开数据集Pascal VOC上取得了较大的提升。最后,本文对以上两种特征增强方法进行了融合,从空间和通道角度来改善网络特征提取能力,提出了一种多尺度特征增强网络。实验结果表明,多尺度特征增强网络取得了与现有最先进的一些实时目标检测网络相近的准确率,同时具有更高的检测效率。