基于时序分析的视频行为定位与识别

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:fzx0126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习蒸蒸日上,极大的推动了计算机视觉领域和自然语言处理领域的发展。人类社会产生的大部分数据都是视频,那么对视频进行分析处理则显得格外重要。视频分析是计算机视觉中一项基础性和关键性工作。实际研究中,我们不仅需要对剪辑过的短视频进行分类,还需要对未剪辑的长视频进行分析。因为长视频中有更复杂场景和背景噪声的干扰,更符合人类社会的实际需要。由此引出了另一个极具挑战性的课题,即视频行为定位与识别。视频行为定位与识别任务是指给定一段未剪辑的长视频,算法模型不仅需要检测出行为片段的开始时间和结束时间,还需要识别出行为片段的动作类别。视频行为定位与识别在人类社会中具备极大的商业价值。比如在智能化安防领域,我们可以通过视频行为定位与识别对异常行为进行定位和识别,极大地减少了人力成本。视频行为定位与识别作为视频领域的基础任务,其引起了科研人员的广泛关注,并且有了一系列的研究工作产出。视频行为定位与识别任务的难点大致可以总结为三点:1)视频帧之间存在一定的关联关系,比如某些运动特征可能横跨多个时间点,那么对视频进行长期依赖建模是非常重要的;2)视频中的行为片段长短不一,因此多尺度信息对于视频行为定位与识别任务来说是非常重要的;3)算法模型检测出来的行为片段可能存在不准确或者多余的情况,因此我们除了对行为片段进行定位外,还需要对每个行为片段进行置信度评估。为了解决上诉三个问题,本文提出了不同的方案来解决以上问题:1)为了对长期依赖关系进行建模,本文提出了一个融合不同层语义信息的残差时序卷积模块和一个用于捕获长期依赖关系的双向长短时记忆模块。2)为了获取多尺度信息,本文提出了金字塔上下文感知机制,它包含一系列的时序空洞卷积,利用时序空洞卷积来获取不同尺度的信息,然后利用密集连接结构对不同时序空洞卷积层的输出进行连接从而得到多尺度信息。3)本文提出了两种提取行为片段特征的方式。第一种是基于关键帧的注意力机制,它能够识别行为片段中的关键帧,然后对行为片段的不同特征进行加权融合得到固定的特征表示。第二种是可学习行为片段特征提取方法,它可以通过学习的方式获取行为片段的特征,并且能够加入网络进行端到端训练。
其他文献
"演讲与口才训练"是培养高职学生具有较强表达技能和口语素质的实用性课程,是面向各个专业学生开设的公共选修课程,也是一门人文素质教育课程和职业核心能力培养课程。文章从
人民幸福是新时代国家的建设目标,正确评价居民幸福感水平可以为政府制定民生政策,坚持在发展中补齐民生短板提供理论支撑。人口总数中60岁及60岁以上人口数量增加而导致的老年人口比例相应增长的状态称为人口老龄化,随着公共卫生政策和社会经济的不断发展,我国老年人口数量不断攀升,老龄问题逐渐成为制约经济、社会发展的首要问题。积极应对人口老龄化是我国面对老龄问题所做的战略选择,西安市作为西部地区老年人口数量最
目的:1、活髓切断术中使用激光治疗不可复性牙髓炎的临床疗效观察。2、探讨显微根尖手术和意向性牙再植在根管治疗失败牙齿的临床应用。为活髓切断术在不可复性牙髓炎及显微根管外科在根尖周病的临床研究提供参考和依据。方法:在严格的纳入、排除标准下收集采用活髓切断术治疗不可复性牙髓炎6例,显微根尖手术治疗根尖周病8例,意向性牙再植治疗畸形舌侧沟2例,分别进行1、3、6、12个月的随访观察。通过临床检查和影像学
小学英语教学要适合小学生的认识规律和心理特征。老师要采用灵活多变的教学方法,如发挥想像、巧设情景、创设问题、投入情感、学以致用等,使英语教学变得生动有趣,从而激发学习
人工全髋关节置换术是治疗髋关节退行性变、由类风湿关节炎引起髋关节强直及股骨头缺血性坏死等疾病最佳的治疗方案。近年来,随着人工全髋关节置换术在临床上的广泛应用,患者
文章提出了小样本、高可靠性、长寿命塔式起重机金属结构的定寿方法采用加速寿命试验方法;建立了应用加速寿命试验方法的理论基础,导出了塔式起重机金属结构的样本容量、可靠