论文部分内容阅读
人体目标再识别是计算机视觉和人工智能领域具有挑战性的前沿课题,其研究目标是借鉴人类的认知模型和视觉机制提取各视域中的感兴趣目标,对来自多个无重叠视域的视觉信息进行表达和整合,识别与匹配不同场景中的人体目标。该研究涉及认知心理学、计算机视觉、模式识别、机器学习等多个学科领域,在视频监控、人体行为分析、司法侦查、人机交互、医疗保健、多媒体娱乐和休闲、网上购物等诸多领域具有广泛的应用前景。近年来,人体目标再识别研究引起了大量学术研究机构和企业科研人员的兴趣。然而,由于人体结构和外部环境的复杂性,对该问题的研究仍然处于探索阶段。现有的基准数据库仅仅反映了封闭的场景,如两个摄像机和1:1的目标对应关系,而不是现实中更加开放的场景,例如数目较多的摄像机和未知的目标对应关系。本文围绕基于人体外观特征的再识别问题,进行了较深入的研究,主要研究成果如下:1.以图像之间的差异为出发点,提出基于参考图像特征学习的再识别方法。根据人类自身经验,使用多幅图像可以对目标提取更多稳定和有用的信息。针对传统的特征提取方法不能充分获取多幅图像信息的缺点,本文提出基于最大边缘准则和参考图像特征学习的人体目标再识别算法,学习给定目标最稳定和最具区分能力的特征。该方法首次将对数空间区域协方差特征引入人体目标再识别,将协方差信息和色彩信息相结合,得到了一种新的目标特征,该特征包含了图像的局部统计特征和颜色信息,对低分辨率、视角改变和姿态变化具有鲁棒性。受稀疏编码和基于原型的特征表达的启发,本文引入参考图像,通过显式的建模输入目标图像和参考图像之间的关系,将二者的不同作为输入目标具有区分能力的特征表达。根据最大边缘准则,从决策平面中得到给定图像关于参考图像的显著而又稳定的特征,用于人体目标再识别。实验结果表明,该方法可以有效的提取人体目标多幅图像的特征。2.以图像编码为基础,提出基于自由能分数空间特征映射的再识别方法。现有的基于外观特征的再识别方法主要使用局部和整体的图像特征来获取人体外观的视觉信息,局部特征用来提供肢体各部分的底层和基本信息,全局特征可以提供所有肢体的整体结构。提取图像的局部特征之后,可以采用多种策略组合不同的特征,用以捕捉不同的视觉信息。在计算机视觉领域,词袋模型是一种有效编码局部特征的方法,在图像检索、目标识别领域得到了广泛的应用。针对词袋模型仅编码了局部特征的出现频率,而没有考虑其他统计值的缺点,本文提出基于自由能分数空间的特征映射及编码方法。使用高斯混合模型对人体目标图像特征分布建模,得到图像的相对完整的统计表达。在分数自由能空间获得特征映射,并将图像不同区域的特征映射编码为固定长度的特征向量,该特征包含了图像的特征均值、协方差和二阶统计量等信息。实验结果证明,本文所提方法能取得良好的再识别效果。3.以人体姿态估计为基础,提出基于多视角肢体部位检测的再识别方法。在视频监控场所,由于缺乏面部特征及其他生物特征,人工操作者往往将观察目标看作连接刚体,通过比较肢体各部位的相似性识别目标。基于这种经验,本文将人体结构约束引入再识别,使用多视角图结构模型估计人体姿态和视角,得到目标各肢体部位,并在相应的部位提取外观特征进行再识别。根据目标视角的不同,采用不同的人体运动学先验和外观模型训练8种图结构模型,将验证图像对不同图结构模型的响应作为输入,训练8个视角的线性SVM分类器。使用SVM分类器判断目标视角,并将该视角下的姿态估计结果作为目标姿态。根据肢体各部位的位置和朝向将人体图像分为不同的区域,并将这些信息表示为各部位的前景掩膜和整体掩膜。利用掩膜信息,提取灰度-颜色直方图和最大稳定颜色区域特征,得到目标的特征。实验结果表明,多视角图结构模型能够有效检测目标各肢体部位,对目标姿态变化和低分辨率有着较强的鲁棒性。