论文部分内容阅读
计算机视觉技术已经深入到人类日常生活的方方面面,目标检测便是其中一个热点领域,其目的是通过检测器给出图像中所关注物体的类别和位置。计算机视觉中很多其他任务都依赖于目标检测算法输出的结果,因此提高目标检测算法的准确率是十分必要的。目前大部分的目标检测算法将图像中的各个物体视为独立的个体来分类和定位。但是,在实际情况中,目标之间以及它们和所处环境之间总会存在千丝万缕的联系,利用好这种关系就可以在一定程度上提高算法的精度。本文通过对现有的基于关系的目标检测算法进行调研归纳,发现它们无差别对待所有区域提议框,不考虑其中负样本的反面效果,并且对上下文环境的整合方式也不太适用于关系这种非欧式数据结构。因此,本文针对这些发现的问题进行优化,主要的工作和贡献如下:(1)首次将目标检测任务中的可建模关系分类为几何关系、视觉关系、上下文关系、共现性关系,并归纳其优缺点和适用场景。(2)设计了基于掩码的多关系融合目标检测算法来解决已有的基于关系的目标检测算法中存在的问题。一方面,该算法将目标之间的几何和视觉关系融合进预设掩码的关系图结构中,减少区域提议中负样本的噪声,优化正样本的作用范围。另一方面,该算法巧妙地将上下文信息融合进关系图结构中,进一步有效利用图像中的关联信息。最终,所设计的关系图结构在图神经网络的卷积过程中完善区域提议的表征能力,提高检测效果。(3)在Faster R-CNN的基础上融合了基于掩码的多关系融合模块,并通过一系列实验验证其有效性。最终证明本方法不仅相较于基础模型准确率提高了近5个百分点,而且优于已有的基于关系的目标检测算法。