论文部分内容阅读
近年来计算机视觉任务得到了越来越多的关注且取得了较大的发展,为了更进一步地了解视觉世界,计算机不仅需要完成目标检测这样的视觉感知任务,也需要对场景进行更复杂地分析以完成视觉理解任务。本文主要关注图像场景中的人物交互检测,其主旨在于识别人与物体之间的交互关系。由于人类行为的复杂性,一个人可能会同时与多个相同或不同种类的物体进行交互,这使得人物交互检测任务具有较高的难度和复杂度。人物交互检测框架通常为多路并行结构,使用人和物体的外观以及人和物体间的空间关系判断交互关系。这些方法大多基于实例级的外观和边界框,缺少交互中的细节信息和上下文信息,难以取得良好的检测效果。因此,本文提出了一种基于人体姿态的人物交互检测方法,利用人体部位级的细节信息,并由此获得有效上下文,提升了检测准确率。首先,针对现有方法使用的实例级空间信息缺少细节的问题,本文提出了一种基于骨架姿态信息的人物交互检测方法,引入人体姿态中各关节部位的骨架点信息。使用人体绝对姿态和人-物相对姿态描述人的各部位关键点与人和物体中心点之间的空间交互关系,绝对姿态表示人在交互中自身的动作姿势,相对姿态表示人体各部位与物体间的相对空间位置关系。通过部位级的人-物空间信息,对原有实例级空间信息缺少的细节进行补充,并使用词嵌入向量进一步优化人物交互表达。此外,本文还利用场景中多个人-物对之间的关联性信息,共同推测人-物之间的交互行为关系。其次,为有效利用场景信息,本文提出了一种基于姿态场景信息的人物交互检测方法。从交互者的角度出发,更好地利用与交互相关的场景信息从而帮助人物交互检测提高识别准确率。本文使用人体姿态引导场景以获取需要重点关注的区域,对该区域的特征进行增强,避免全图中无关背景的干扰,为使用人-物外观进行交互检测提供有效的上下文信息。此外,针对训练中出现的样本不平衡问题,本文使用聚焦损失函数指导网络学习,训练网络能够更好地判别困难样本,从而提高网络的检测性能。综上所述,本文主要研究基于人体姿态的人物交互检测方法,将部位级的人体姿态信息分别与实例级的空间信息、词嵌入向量、人和物体的外观以及全图场景信息进行融合,设计相应的交互检测网络,提升特征学习能力,并通过实验验证了本文方法的有效性,使用人体姿态为交互检测提供了更加丰富的信息,提高了人物交互检测精度。