立体视觉显著区域检测方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:rrtaobao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
显著性区域检测是近些年计算机视觉方向的研究热点,其目的是让计算机用算法模拟人类视觉注意机制,从图像/视频的大量数据中捕获人类感兴趣的区域。目前面向二维视觉显著区域检测的模型已经趋向成熟,但更接近人类视觉特性的三维视觉显著区域检测还有待深入。先前研究表明,深度信息可以丰富显著区域的空间结构,提高显著性检测准确率。深度图在获取或计算过程中可能会产生一些错误,这些错误会对检测结果造成负面影响,所以如何充分利用深度信息是一个值得探究的问题。此外,在立体视频显著性检测中,立体视频数据中隐含但不限于运动、深度、色彩等特征,怎样全面且有效的提取特征、融合特征也是研究者们值得探究的问题。基于上述研究背景,本学位论文主要研究方向为面向立体图像/视频的显著区域检测方法,主要工作内容如下:·提出了一种基于多层元胞自动机(Multi-layer Cellular Automata,MCA)融合多域信息的RGB-D视频显著区域检测算法。本算法充分挖掘了立体视频序列中隐含的显著性信息,在彩色视频序列的空间域和时域分别提取了色彩、空间特征和帧间运动特征,在深度序列的空域和时域分别提取了图像块间深度差异信息和帧间深度变化信息;然后利用多层元胞自动机更新融合上述四种显著性特征。本算法不需要训练大量人工标注的有效RGB-D数据库,并充分利用了立体视频序列中隐含的各类视觉显著性特征,使用MCA融合各类显著特征,消除了单一信息可能带来的错误预测。本算法在两个数据集的实验结果证明:本算法(S值:0.8486,0.8619;E值:0.8813,0.8563;MAE:0.0435,0.0655)具有较高的准确率和稳定性。在面对复杂背景及难以预测的运动时,本算法都能较准确的识别显著目标。·面向RGB-D图像显著区域检测,提出了一种结合注意力机制的跨模态交互算法。本算法首先将RGB与深度特征交互补充,并通过边缘增强来消除深度图边界模糊问题。然后根据多尺度深度特征分配增强后的多种特征,最后把融合后的显著特征经过一个循环注意模块来优化特征细节,提高了显著性检测的性能。本算法在RGB-D交互模块、深度权重分配模块中都对深度信息的噪声进行了抑制,在循环注意模块中根据先前存储显著特征记忆对当前特征进行处理,与人类视觉注意机制更相吻合。在NJU-2000和DUT-RGBD两个数据库上的实验结果表明(S值:0.886,0.853;F值:0.875,0851;MAE:0.046,0.068;E值:0.881,0.865),本算法在主观评价和客观性能上取得了优秀的成绩,优于最近的一些算法,能在多种复杂场景下突出显著区域。
其他文献
模块化多电平矩阵变换器(Modular Multilevel Matrix Converter,M3C)作为模块化多电平系列拓扑的一员,具有模块化设计、输出谐波含量低、扩展性强等优势。在分频输电,电力牵引,风力发电等领域具有广阔的应用前景,并引起了工业界和学术界的广泛关注。在对多电平技术的发展和模块化多电平系列拓扑研究分析后,本文的工作以M3C作为研究对象展开,主要内容包含:首先,本文介绍了M3C
近年来,随着无线传感器网络技术的发展,基于位置的服务受到的关注与日俱增,相关的应用需求和定位技术层出不穷。而受限于室内墙体对卫星信号的遮蔽,全球卫星导航系统无法在室内实现精准定位,国内外学者针对室内定位进行了大量的研究,进而催生了许多室内定位技术。无线局域网(Wireless Local Area Network,WLAN)在室内广泛分布,智能移动终端也不断普及,为组合导航定位技术的发展、应用和推
第五代移动通信(5th Generation,5G)中的关键技术之一的非正交多址接入(Non-orthogonal Multiple Access,NOMA)是实现海量用户接入的方案之一,通过在功率域中区分不同的用户使得多个用户信号能够复用同一个时频资源块也即同一个子信道进行通信,能够极大地提升频谱利用率。与此同时也引入了一个新的问题,即如何在有限的时频域中进行资源分配。资源的分配主要包括两个方面
传感器网络因其造价低廉、易于维护、可靠性高的优点无论在民用还是军用领域都应用广泛。值得关注的是,传感器的测量信号在传输过程中极易受到不稳定信道的干扰导致测量衰减,影响系统的性能。另外,如果大量数据同时传输,不仅会占用公共网络资源,而且还容易影响传输效果和滤波性能。因此,研究测量衰减下基于通讯协议的非线性系统的分布式滤波问题,既具有重要的理论意义又具有实际应用价值。本文将针对测量衰减下基于通信协议的
图像语义理解是指对图像中包含的信息进行解析,研究图像属于哪一类场景、图像中有哪些目标、各目标间的语义交互关系等。人类生活在一个多种信息交融的环境中,每一种信息的来源或形式都称为一种模态,要想让计算机能够从人类的角度理解世界,多模态信息的利用是必不可少的。本文围绕图像语义理解问题,以深度学习作为研究工具,以多模态嵌入融合作为研究方法,针对图像语义理解中的场景识别、场景图生成、图像描述三个任务开展研究
雷电是一种频发的自然现象,其发生时常常伴随着强电流、高电压并向外辐射电磁脉冲。据统计,全球各个地区每秒会发生近两千个雷电。雷电会对人类生存生产造成严重干扰。因此对雷电探测开展研究,提供精准的雷电定位和预测,具有重要意义。本文对雷电测向正交磁环天线(Orthogonal Magnetic Loop Antenna,OMLA)的结构特性进行分析研究,提出一种新型结构的三磁环测向天线。通过MATLAB仿
由于信息技术的飞速发展,必然出现一些对时延和可靠性有更高要求的新兴业务。5G作为新一代移动通信技术,将广泛应用于增强移动带宽(enhanced Mobile Broadband,eMBB)、超高可靠低时延通信(Ultra Reliable Low Latency Communication,URLLC)和海量物联(massive Machine Type Communication,m MTC)等
电视节目策划是以提高节目质量为目标,凭借节目所拥有的特色,最大限度地扩大节目的核心观众群,以此来提高节目的收视率。而优质节目是观众保持忠诚和收视率稳定的重要前提,具有创新意识和创新精神的节目策划者能够以标新立异的思维方式和策划理念去审视新现象、表达新内容、带来新视点,收获观众对于节目的认可度以及忠诚度。在数字技术快速发展的今天,人工智能技术、虚拟现实技术为电视节目带来巨大的发展契机,层出不穷的新媒
期刊
随着高铁的发展,处于高速移动环境下的无线通信用户也日益增加,导致高速移动通信面临严峻考验。正交频分复用(OFDM)作为多载波调制技术,将频域内信道划分成若干正交子信道,把高速串行信号调制到子信道并行低速传输,具有抗多径效应能力强、频谱资源利用率高等优势。但高铁传输时收发端相对位移加快,使OFDM子载波间不再严格正交,进而引起了子载波间干扰(ICI)。故寻找较好抑制ICI的信道估计成为当前研究热点。
随着数字视频技术的快速发展以及消费水平的不断提高,三维(Three Dimensional,3D)视频在生活中的应用越来越多,如3D影视,3D投影机,虚拟现实等。3D视频的数据量通常十分庞大,这是由于3D视频需要更多2D视频作为信息载体,同时还需要大量的辅助信息和距离信息。这无疑给3D视频的存储和传输带来非常巨大的挑战。为了在保证3D视频质量的同时,提高传输和压缩效率,国际3D视频编码扩展开发联合