论文部分内容阅读
近年来,深度学习蒸蒸日上,极大的推动了计算机视觉领域和自然语言处理领域的发展。人类社会产生的大部分数据都是视频,那么对视频进行分析处理则显得格外重要。视频分析是计算机视觉中一项基础性和关键性工作。实际研究中,我们不仅需要对剪辑过的短视频进行分类,还需要对未剪辑的长视频进行分析。因为长视频中有更复杂场景和背景噪声的干扰,更符合人类社会的实际需要。由此引出了另一个极具挑战性的课题,即视频行为定位与识别。视频行为定位与识别任务是指给定一段未剪辑的长视频,算法模型不仅需要检测出行为片段的开始时间和结束时间,还需要识别出行为片段的动作类别。视频行为定位与识别在人类社会中具备极大的商业价值。比如在智能化安防领域,我们可以通过视频行为定位与识别对异常行为进行定位和识别,极大地减少了人力成本。视频行为定位与识别作为视频领域的基础任务,其引起了科研人员的广泛关注,并且有了一系列的研究工作产出。视频行为定位与识别任务的难点大致可以总结为三点:1)视频帧之间存在一定的关联关系,比如某些运动特征可能横跨多个时间点,那么对视频进行长期依赖建模是非常重要的;2)视频中的行为片段长短不一,因此多尺度信息对于视频行为定位与识别任务来说是非常重要的;3)算法模型检测出来的行为片段可能存在不准确或者多余的情况,因此我们除了对行为片段进行定位外,还需要对每个行为片段进行置信度评估。为了解决上诉三个问题,本文提出了不同的方案来解决以上问题:1)为了对长期依赖关系进行建模,本文提出了一个融合不同层语义信息的残差时序卷积模块和一个用于捕获长期依赖关系的双向长短时记忆模块。2)为了获取多尺度信息,本文提出了金字塔上下文感知机制,它包含一系列的时序空洞卷积,利用时序空洞卷积来获取不同尺度的信息,然后利用密集连接结构对不同时序空洞卷积层的输出进行连接从而得到多尺度信息。3)本文提出了两种提取行为片段特征的方式。第一种是基于关键帧的注意力机制,它能够识别行为片段中的关键帧,然后对行为片段的不同特征进行加权融合得到固定的特征表示。第二种是可学习行为片段特征提取方法,它可以通过学习的方式获取行为片段的特征,并且能够加入网络进行端到端训练。