复杂场景的深度识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:maomao1t
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景识别是计算机视觉的一个重要而有基础的问题,在图像分类、图像检索以及视频监控等领域有着广泛而又重要的应用,长期以来受到广大研究者的关注。与物体识别问题相比,场景是一个相对抽象的概念,不能依靠单一的物体区域去识别一个场景。同时,由于场景存在较大的类内差异和类间易混淆性等原因,场景识别目前还是一个非常具有挑战性的任务。针对这些挑战,本文从设计新型局部描述特征和开发深度学习模型两个方面开展研究,主要贡献包括以下几个方面:  提出了一种局部彩色相对描述子(LCCD)来进行场景识别。目前形状和纹理信息提供了计算机视觉中最重要的两种特征表示,并且已经有很多成功的局部描述子被广泛应用到这个领域,比如SIFT, LBP和HOG等。不同于这些梯度相关的描述子,本文提出了一种简单而且有效的局部相对描述子,它能够捕获不同区域或者通道之间的颜色对比信息。设计这种颜色相对描述子的灵感来自于神经学中一个事实即颜色对比在视觉中起了很重要作用,并且视觉感知中颜色和形状之间存在着紧密联系。我们利用f-divergence作为一个度量来测量不同区域和通道之间的对比特征。这种描述子同时丰富了图像中的颜色和相对信息表示。实验证明颜色相对描述子能够与SIFT特征具有很好的互补性。  开发了局部监督深度混合模型(LS-DHM)。通过局部监督提升卷积层特征的判别能力,进而通过局部卷积特征编码获取场景图像特征表示。我们发现在卷积过程中图像的细节信息随着卷积流程不断的丢失,而这些丢失的细节信息正是帮助区分差异性小的场景类别所需要,而中间卷积层就能够捕捉这些细节信息。其次,我们提出了一个新的局部卷积监督层(LCS),它可以将标签信息直接传播至卷积层而提高局部图像的信息表示。最后,我们提出了一个有效的Fisher卷积向量(FCV),能够提取图像的中层语义信息(例如,场景图像的纹理和物体)。FCV编码将卷积映射到一个固定长度的中层表示,这种中层表示与高层FC特征具有很强的互补性。最后,将FC特征和FCV特征融合成最后的LS-DHM模型来用于场景识别,实验证明这种混合模型能够在场景识别中取得不错的效果。  设计了一种知识引导和多分辨CNNs的消歧模型结构用于大规模场景识别问题。首先,我们提出了一个多分辨率的CNNs架构,来捕捉不同尺度的视觉内容和结构。我们提出的多分辨率CNNs是由CNN细分辨率和粗分辨率组成,其性能具有互补性。其次,我们设计了两个知识引导消歧技术来处理标签歧义的问题。在第一种情况下,我们利用从验证集混淆矩阵的知识,将原始类别合并成一个新的类别。而在第二种情况下,我们利用额外的网络知识来给每一个图像产生一个软标签。我们在三个大规模场景识别数据库(Imagenet,Places,Places2)上进行实验来证明我们所提出的方法的有效性。此外,利用这种方法在两个主要场景识别挑战赛中取得不错的成绩,在Places2中获得2015年第二名,在LSUN中获得2015年第二和2016年第一。  提出了一个新的自我知识迁移框架,这种框架能够有效地处理大规模场景中存在标签歧义和标注困难的问题。该框架包含一个初步的网络和最终(主)网络,先训练一个初步网络,然后将这个初步网络的知识迁移到最终网络的训练中。它通过最小化从两个网络高层语义表示的差异来提出一种新的正规化方式。这种方式能够提高最终网络模型对标签歧义性的泛化能力。此外,我们这种自我知识迁移框架在可以应用在半监督模型下,将半监督的方式引入了分类训练中。从而使得我们可以利用大量未标记的数据来加入我们的半监督学习框架中,来提高我们最终模型的识别性能和泛化能力。我们在三个标准场景识别的基础上对我们的方法进行了大量评估,并且实验证明我们的方法在场景数据库中取得不错的结果。  本文在两个层面上介绍上介绍了场景识别方法:底层特征和深度学习。我们从最开始设计场景图像的底层特征描述到最后构造一种多模式下的深度卷积模型框架来研究场景识别问题。首先对图像的底层语义特征进行研究设计了局部颜色相对描述子来表征场景图像,利用传统的编码模型对这些描述子进行编码用于最终分类。接着将传统的编码方式引入卷积神经网络中用于捕捉图像的中层语义信息,设计了一种局部监督深度混合模型。这种模型能够将场景图像中的中层语义和高层语义进行合并来作为场景特征。随着数据库的快速发展,传统的计算机视觉方法已经很难适用于大规模场景识别任务。我们分别开发了多分辨率CNNs下的知识引导消歧模型和自我知识迁移模型来进行大规模场景识别。我们通过对场景的底层、中层和高层语义三个层次特征进行探讨,来逐步解决场景识别中的难点问题。
其他文献
随着世界航天科技的发展,现代卫星已经不再是一个简单的非线性系统,而是已经变为一个具有强非线性、强耦合、时变以及具有很大不确定性的非线性系统。卫星姿态控制系统是卫星控
由于网络本身存在的脆弱性以及可能遭受的来自各方面的威胁和攻击,信息的安全保密在网络环境下具有特别重要的意义。近年来,人们利用IPSec协议通过使用合理的密钥协商方式,灵
由于永磁同步电动机具有高效率、高可靠性、体积小等优点,目前在众多领域得到了广泛应用。为了实现永磁同步电动机的精确控制,需要在其转轴上安装位置传感器,考虑到诸多应用领域
心血管疾病是严重危害人类健康的重大疾病。我国人口众多且心血管疾病一直处于高发状态,因此通过计算机辅助手段预测、诊断和治疗心血管疾病是迫切并且有实际需要的。在各种计
步进电动机是基于电磁感应原理将电脉冲信号转换为相应的角位移或线位移的一种特殊电机。随着电子技术、控制技术以及电动机本体的发展和变化,结合其具有的快速启停能力强、精
唇读是用计算机再现聋人通过唇动破解语言规律读懂语言的过程,现已被广泛应用于语音识别、身份验证、人机智能接口等领域,成为当前研究的一个新的热点问题,是一个有着广阔发展前
企业孵化器是一类网络化的知识密集型服务组织,核心功能是向在孵企业提供创业知识服务。当前企业孵化器的发展还处于依赖硬件资源的阶段,对知识服务的重视处于起步阶段。本文
优化问题广泛存在于日常生活、生产实践和科学研究中。优化方法则是以数学为基础,用于求解各类优化问题的应用技术。如何设计高效的优化方法求解优化问题一直是研究的热点。受
永磁同步电动机具有体积小,损耗低,效率高等优点,随着电力电子技术、微电子技术、新型电动机控制理论和稀土永磁材料的快速发展,永磁同步电动机得以迅速的推广应用。但是永磁同步
由于永磁同步电机具有效率高、功率密度大、节能效果好、运行可靠等优点,使其在工业、农业以及航天等领域得到广泛的应用。本文采用Motorola公司生产的专用于电机控制的DSP56F