论文部分内容阅读
目标检测是计算机视觉领域的基础任务,被广泛地应用于目标跟踪、视频分析、自动驾驶、人机交互等研究和应用领域。近年来,随着深度神经网络在计算机视觉领域的成功,目标检测任务取得了快速发展。多种目标检测网络相继被提出,检测精度不断提升。由于目标在尺度、视角、外观等方面的多样性以及实际应用场景中复杂的数据特性,实现高精度的目标检测仍然面临挑战。深入研究目标检测任务并设计出高效的目标检测网络,对于推动计算机视觉领域的发展具有重要意义。因此,本文开展了多目标检测理论与方法研究。本文首先关注目标检测网络的结构设计,针对检测任务中目标特征提取、目标分类和目标定位三个基本步骤,分别开展研究并且提出新的网络结构设计;然后关注实际应用场景中复杂的数据特性对检测任务的影响,针对类别数目可扩展的目标检测问题以及目标域样本稀缺时的跨域目标检测问题分别开展研究。本文的具体研究内容和创新点如下:(1)对于目标特征提取步骤,本文研究了基于特征金字塔的目标特征增强算法。针对现有方法中存在的金字塔尺度信息不平衡分配以及相邻尺度信息利用率低的问题,提出了自适应多尺度信息流的网络连接结构。首先利用信息融合模块高效地整合相邻尺度的特征,然后通过从相邻尺度特征交互过渡到全局尺度特征交互的策略,进一步增强了特征金字塔中所有层级的特征表示。(2)对于目标分类步骤,本文研究了目标候选框的质量对分类结果的影响。针对低质量目标候选框中不完整的目标信息对分类精度的限制,以及窗口回归任务对真实目标类别的影响,从概率角度对检测器的分类任务进行了分析,提出了同时从目标候选框和定位更加精准的检测窗口中提取目标信息并生成分类置信度。据此设计了基于多路检测头的目标分类增强算法,同时利用目标候选框和检测窗口中的目标信息提高分类精度。(3)对于目标定位步骤,本文研究了现有递归检测方法无法有效提升定位准确度的问题。基于对训练样本的统计分析,提出了平衡优化策略提升定位任务的性能。利用了自迭代窗口采样改善训练样本的多样性,设计了 IoU相关的窗口回归模块对不同定位精度的目标候选框的窗口回归过程分别进行建模。以上两个部件共同保证了不同质量的目标候选框的定位精度能够一致性地提升,改善了递归目标检测的性能。(4)针对类别数目可扩展的目标检测问题,本文提出了利用类别互补的多源数据作为训练样本,免去额外的目标标注过程。为了避免训练数据中缺失的目标标注对检测性能的影响,提出了跨类别集合的目标验证和挖掘策略。设计了多分类器结构以避免使用错误背景标签作为监督,测试阶段利用投票策略综合多分类器的输出得到类别置信度。基于多分类器结构利用同一个检测网络为多源数据中的每个子集添加伪标注,扩增了标记数目,进一步提升了检测性能。(5)针对跨域目标检测问题,本文研究了在目标域数据稀缺时如何有效提升跨域目标检测的性能。依据检测任务的特点,考虑同时对图像特征和目标特征进行域自适应操作。对于图像级特征,提出样本自适应加权的策略优化域分类器,避免大量的源域数据主导优化过程,同时结合对抗学习的思想实现了特征域自适应。对于目标级特征,训练阶段利用源域和目标域数据的标注信息获取类别原型特征,通过拉近不同域的原型特征的距离实现域自适应。