基于深度迁移学习的动作识别研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:justice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别是指根据输入视频内容判断出其动作类别标签的视频分类任务。动作识别作为视频理解中横跨感知与认知的研究领域,在异常检测、人机交互、视频检索等任务中都充当着不可替代的角色。而由于视频中人类动作本身运动速度、起止时间、外观姿态的不确定性,以及光照、视角、人物遮挡等物理因素的干扰,使得要对人类运动进行良好的时空建模成为了一项非常具有挑战性的任务。在主流动作识别数据集的构建中,类别的选取具有随意性,导致同一数据集中类别重复、类别之间视觉相似性迥异的情况时有发生。时空卷积模型的高冗余性和标注样本数量的缺乏,使得类别可分性不均衡问题在动作识别任务中对分类性能的干扰尤为严重。现有的动作识别方法主要偏重于如何提取精准且高效的运动时空特征,而忽略了任务本身定义的合理性。小样本任务的提出旨在使得机器学习缓解其大样本依赖问题,与人类一样能够有效利用过去所学的知识,从而在只拥有少量标记样本的新任务场景中具有快速学习的能力。视频内容的多样性和动作本身的抽象性使得小样本任务中的运动特征极难抽取。现有小样本动作分类方法通过引入时序特征融合模块以增加视频特征的准确性,但依旧缺乏对类内特征分布的显式约束。本文针对动作识别任务复杂度过高和标注数据获取困难导致的训练样本不足问题,利用动作标签的语义信息作为知识先验,通过迁移学习的方式对视觉分类模型的学习进行指导。具体而言,本文取得如下成果:(1)本文提出了一种无需额外标注成本的基于语义特征迁移的层级化动作识别方法,通过特征迁移的方式,以对类别间固有的内在自然结构进行挖掘利用。通过提取类别的标签语义特征来挖掘动作类别之间的语义关联,对类别之间的可区分性进行有效的量化;并利用层级化损失函数与最大均值差异损失函数,将该语义关联作为知识先验迁移以用来约束视觉特征的学习,优化分类任务的合理性。实验表明,该方法可以与各种不同的动作识别网络相结合,提升模型的性能,并在主流的动作识别数据集中达到了业内领先的分类性能。(2)本文提出了基于语义特征分布的三元组损失函数,通过模型迁移的方式,对动作类别特征的分布进行直接的约束。该方法首次将三元组损失函数引入小样本动作分类任务;并基于类别的标签语义特征对类别间的相似性进行度量,以帮助进行负例样本的合理选取。既避免了每次都选到最难的负例样本而影响网络的收敛性,又约束了负例样本的复杂度以避免无效训练。实验表明,该方法可与不同的时序特征相似性度量方法进行灵活的有效结合,并与分类损失完美互补,对分类性能带来较大的提升。综上,本文在不增加标注成本的情况下,充分挖掘了现有动作识别数据集中动作类别的相关关联,以对视觉特征的学习进行合理的引导与约束。本文对基于深度迁移学习的动作识别方法进行了较为体系化的研究,量化了额外知识的引入为视频分类任务带来的性能提升,为基于感知与认知有效融合的智能视频理解任务的后续研究提供了较为详尽的指导与参考。
其他文献
为进一步规范中小学收费行为.从根本上解决教育乱收费问题,切实减轻学生家长的经济负担。江西省自2005年秋季学期开始,在义务教育阶段全面实行“一费制”收费办法。因“一费制”
对2016中国国际纺织机械展览会暨ITMA亚洲展览会针织印染前处理机械进行述评。介绍了针织物烧毛机、针织物平幅连续式练漂设备、连续式水洗机和针织物开幅设备等。并阐述了设
宜春汽车运输总公司位于赣西“山清水秀.天蓝地绿”的全国生态城市宜春市。是江西省百强企业,全国交通运输企业百强之一.交通部重点联系单位。具备国家客、货运输二级资质,2002年
新技术是演化着的结构中的体制性组分,这个结构塑造了一个新政体,即我们确实日益生活于其中的高度技术化的社会。在绝大多数的时候,这一结构仍在缺乏公众详察和辩论的情况下
渤中34-9油田钻完井过程中不可避免对储层造成损害,为了有效保护储层,本文对渤中34-9油田储层岩心进行了敏感性评价并探讨了其储层损害机理;在分析渤中34-9油田钻井已发生的