基于多时序多级注意力网络的视频多目标分割算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yangsongzhao99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标分割是机器视觉中的一个热门方向,在视频理解的精确对象跟踪、视频编辑、场景理解、自动驾驶汽车等领域都有广泛的应用。然而视频目标分割在实际生活中应用仍然存在着许多难点和挑战。首先是目标随着场景的变化,会存在目标被背景遮挡的问题,以及目标多尺度变化的情况;然后目标与背景的纹理或者颜色有极大程度的相似性;最后是现有的算法都难以满足在实际应用中分割的速度,特别是对于多目标物体。为了克服这些难点,本文开发了一种有效且完全端到端的模型来实现快速准确的视频目标分割,称为基于多时序多级注意力的多目标分割网络。具体的研究内容如下:针对遮挡和多尺度变化的问题,需要更好捕获时序信息。现有的方法会造成误差积累,匹配不准确等问题。本文提出了多时序结构的视频目标分割网络,它包含一个用于编码目标绝对变化的长时网络,一个用于捕获相对对象动态的短时网络,以及一个融合长短时信息的门融合网络。通过长短时结构能准确得到目标的位置和细节信息。针对目标与背景相似的问题,需要提取更有判别性的目标特征。现有的方法没有考虑全局关系特征,时空语义性以及传统的卷积层不能自适应聚集目标的特征。本文提出了一种多级注意力机制。通过全局关系注意力推理当前帧和第一帧的全局关系信息,通过通道空间注意力去自适应当前帧目标特征,结合长短时时空注意力对门融合网络进行优化,从而能将目标与相似背景更好的区分开。针对目前的算法难以满足在实际应用中分割的速度,特别是对于多目标分割问题。本文提出基于单次前向传播多目标分割网络。本文采用将多目标作为一个批量处理,因此它只需前向运行一次就能同时分割多目标,而且不需要任何后处理。除此以外将短时网络使用的光流替换为掩码预测网络,提高分割速度。最后在You TubeVOS和DAVIS 2017数据集和许多最新方法相比,证明本文模型的优势。
其他文献
伴随着现代生活和社会生产的不断发展,人们对于电能质量的要求也不断提高。电力电子变换器正是顺应时代需求而生的,既能够实现电力系统的环境维护,也能够高效合理的利用电力能源。其中PWM整流器因为具有可以在单位功率因数下运行、支持能量双向流动等优点,广泛应用在电动汽车充电、可再生能源并网发电等领域。本文选择的研究对象是具有谐波补偿功能的单相PWM整流器,对单相PWM整流器的控制方式、直流侧二倍频波动抑制、
伴随着信息革命所带来的技术变革,人类社会所产生的信息规模正经历着爆炸式的增长和传播。然而,面对海量信息的涌入,互联网中的高质量信息被淹没在了信息洪流当中,人们越来越难以与外部世界进行有效的信息交换。因此,如何从海量的互联网资源对目标信息进行高效的挖掘与检索成为了当前亟待解决的关键问题。而作为信息检索过程中的关键环节,信息抽取技术扮演着重要的角色,引起了当前学术界和工业界的广泛关注。关系抽取作为信息
任意波形产生(Arbitrary Waveform Generation,AWG)技术在超宽带通信等领域应用广泛。与其它AWG技术相比,光生AWG方案具有体积小、重量轻、抗电磁干扰能力强、可产生超高速率、超大带宽信号等优势。其中,基于空间光谱整型器和频率-时间映射的AWG方案的可重构特性好,是光生AWG技术的研究热点之一。近年来,基于啁啾光纤光栅同时实现光谱整形和频率-时间映射的AWG方案,因可打
随着中国室内装修装饰行业市场规模呈现日益增长的趋势与计算机视觉技术的发展,越来越多的室内装饰企业结合深度学习技术进行室内环境辅助设计。基于深度学习技术的室内装修设计方案自动生成、软硬装自动搭配与三维室内场景重建等任务的关键在于获取精准的语义标签作为基础数据支持。然而,室内场景存在大量家具产生空间遮挡,室内场景照明不均衡,不同语义区域间纹理相似、边缘难以识别等问题,难以精准预测语义标签。为此,我们通
技术通过对文本内容的抽取、精炼和总结,概括原文的主要内容,获得原文的简要表示,是自然语言处理领域里的一个重要研究方向。由于文本自动摘要任务面对的文本序列具有复杂性及多样性的特点,尤其是中文,目前的文本自动摘要方法生成的摘要与参考摘要的差异性较大。同时,当前广泛使用的评估方法只根据表面的词汇重叠率评估生成文本的质量,评分不能有效反映文本摘要结果的优劣。针对这些问题,本文对如何提高中文文本自动摘要的语
随着世界经济的飞速发展,汽车的总数量亦迅猛增长,庞大的汽车数量带来了一系列问题,诸如交通事故、交通拥堵、交通违法等。基于此背景,2019年9月,中共中央联合国务院印发了《交通强国建设纲要》,首次将智能交通系统(Intelligent Transportation System,ITS)写入纲要中,极大地推动了ITS的蓬勃发展。在ITS中,车联网是凭借新一代信息通信技术,以运动车辆为信息感知对象,实
大口黑鲈又被称为加州鲈,属于太阳鱼科黑鲈属鱼类。上世纪80年代初引入我国,具有生长速度快、抗病能力强、肉质细腻、肌间刺少、味道鲜美、营养丰富,经济效益较好等特点,是当前我国较为重要的一种养殖鱼类。在传统"四大家鱼"养殖经济效益持续低迷的情况下,各地将大口黑鲈(加州鲈鱼)作为优质淡水养殖品种进行推广养殖,养殖面积和产量逐年提升,获得了不错的经济效益。循环水养殖模式是一种新型养殖方式,是通过加装
图像融合技术通过对多传感器采集的图像进行信息提取,将有效信息融合到一幅图像中,实现对场景有效全面的表达。图像融合技术已经在军事、数码成像等领域广泛应用,但因为不同传感器的成像机理与成像特性有较大差别,所以图像融合技术仍未达到理想结果。本文针对多聚焦图像和红外与可见光图像的区域特征进行了深入研究,主要研究内容如下:(1)针对目前空间域算法的聚焦区域检测出现边缘扩散现象,本文提出了一种基于边窗滤波机制
信息系统作为企业经营必要的手段之一,能够大幅减少信息传输的成本,提高企业自身竞争力。但系统存在的安全脆弱点容易演变成入侵者攻击的目标,造成无法挽回的损失。企业需要投入一定数量的资源,研发安全防御技术抵御外部攻击,以保障系统持续稳定地运行。通常企业可利用的安全资源是有限的;不同类型的信息系统面临的安全威胁各异,应采取的安全防御技术有所区别。如何在有限的资源下,选择信息系统的安全防御技术并分配合理的资
随着智能设备的普及和移动互联网技术的迅速发展,基于位置的社交网络(Location-based Social Networks,LBSNs)开始变得普遍和流行。兴趣点(Point-of-Interest,POI)推荐作为LBSNs中核心的智能应用,能够通过用户在社交网络上记录的历史移动轨迹预测用户将要访问的下一个兴趣点。然而现有对这项技术的研究仍然面临着两个挑战。首先,用户的历史签到轨迹蕴含了用户