【摘 要】
:
细粒度图像识别近几年来在计算机视觉领域受到了广泛的关注,其任务是识别在外观信息以及语义信息都非常相似的物体子类,例如识别不同种类的“鸟”:如“棕头鸦雀”、“百耳画眉”,“赤腹山雀”等(或者识别不同种类的车:如“丰田”、“本田”、“路虎”等),具有广泛的应用前景。与传统的图像分类相比,细粒度图像识别的不同和难点在于:一是类间差异非常细微(比如鸟的不同子类或车的不同子类),不同子类对象间的差异主要体现
论文部分内容阅读
细粒度图像识别近几年来在计算机视觉领域受到了广泛的关注,其任务是识别在外观信息以及语义信息都非常相似的物体子类,例如识别不同种类的“鸟”:如“棕头鸦雀”、“百耳画眉”,“赤腹山雀”等(或者识别不同种类的车:如“丰田”、“本田”、“路虎”等),具有广泛的应用前景。与传统的图像分类相比,细粒度图像识别的不同和难点在于:一是类间差异非常细微(比如鸟的不同子类或车的不同子类),不同子类对象间的差异主要体现在局部细节上;二是对于细粒度级别图像而言,类内差异大,即同一子类图像本身也具有形态、姿势、颜色、背景等较大差异。因此如何检测出具有分辨性的物体部件,以及如何更好的提取细粒度特征,成为当前细粒度识别领域亟待解决的难题。本文主要研究基于深度学习的细粒度图像识别算法。根据训练阶段是否使用除图像类别之外(如物体部位的边界框标注)的标签信息可以将细粒度图像分类算法分为两类:基于强监督学习的细粒度图像识别以及基于弱监督学习的细粒度图像识别。本文提出的两个算法致力于使用弱监督学习的方式使网络去学习定位物体中的分辨性区域,以及提取细粒度级别的特征。本文的主要研究内容如下:(1)提出了一种结合非局部和多区域注意力机制的细粒度图像识别算法。通过导航模块实现对鉴别性区域的弱监督定位。在此基础上,针对导航模块未考虑不同位置间的联系,通过引入非局部模块与导航模块进行结合,加强模型的全局信息感知能力。此外,通过分析非局部模块未建立特征通道间联系的缺陷,构建基于通道注意力机制的特征提取网络,使得网络关注更加重要的特征通道。在3个公开的细粒度图像识别库CUB-200-2011、Stanford Cars和FGVC Aircraft上的实验结果表明,结合非局部模块和通道注意力机制之后的模型较导航模块的基础上有明显的精度提升,并且高于多种对比算法。(2)提出了结合多层交叉双线性池化和视觉注意力机制的细粒度图像识别算法。该算法在多层交叉双线性池化(HBP)的基础上,在网络结构上做出了一些改进。首先,增加一个尺度的多层交叉双线性模块,即对两组提取不同尺度特征的卷积层分别进行多层交叉双线性池化,使用两种尺度能够利用上下文语义信息,丰富细粒度特征表达。此外,在级联(concat)两组层间交叉双线性池化特征之外,新增级联最后一个全局均值池化的输出特征作为最终的特征表示。最后,引入一种“区域打乱”的训练机制RCM以及一个对抗训练分支[28]。RCM机制可以使得模型能够关注一些重要的局部区域,对抗训练分支用来降低区域打乱引入的噪声影响。RCM和对抗分支只在训练阶段引入小部分计算,而测试阶段可以完全移除,几乎不增加模型的复杂度。在3个公开的细粒度图像库上的实验结果表明,提出的算法的识别精度高于多种对比算法。
其他文献
光子计数成像广泛应用于天文成像,夜视成像,医学成像等重要领域。但是,由于硬件设备和成像环境的影响,成像设备采集到的光子数量严重不足,此时,服从Poisson分布的散粒噪声会严重降低成像质量,生成低质量的低光子Poisson图像。在低光子Poisson图像中,图像局部自相似性、图像局部几何的灰度一致性和连续性均受到严重破坏,导致在图像的局部几何结构检测和非局部图像块几何相似性度量中上均存在非常大的误
目前,神经网络和深度学习的理论与方法广泛应用于计算机视觉和目标检测的研究,其研究成果已广泛用于自动驾驶、航空出行、安防等领域。传统的目标检测方法依靠绘制在目标上的矩形,通过水平和垂直边界框来确定目标位置。航空图像中的物体方向随机,密集且周围复杂,因此对传统的物体检测模型构成了挑战。传统的矩形框会忽略物体的方向,从而导致物体定位减少,并且在目标密集情况下重叠的框会限制进一步的处理,例如目标的理解和检
随着仿真系统愈发复杂,以及用户对仿真应用的要求日益提高,仿真系统可信度评估正面临越来越多的挑战。可信度评估是指分析、计算和评价仿真系统可信度程度,并最终判断其是否可信的一系列复杂过程。如何正确地开展仿真可信度评估是当前研究的热点与难点,也是本文研究的重点。国外在可信度评估中引入可接受性标准(Acceptability Criteria,AC)的概念,通过从仿真需求或预期用途中归纳出合适的可接受性标
近年来新零售概念十分火热,多方行业巨头针对这一革新在国内展开布局,但当下中国的无人零售市场还处于初期发展阶段,没有达到规模化、秩序化,其中无人超市作为新零售的尖端产品始终没有一套统一而完善的解决方案,反而无人售货机相对来说可以更容易实现无人超市的部分功能和体验,仍然拥有很高的提升空间,但是现阶段市场反馈差强人意,存在很多问题,开发一款新型的拥有更高兼容性、更大发展空间、更智能人性的无人售货机势在必
随着社会经济和科学技术的快速发展,以老年智能手环为代表的智能产品为智慧养老提供了解决思路。然而,目前针对老年智能手环的研究和发展主要集中在功能创新和技术实现层面,缺少对人机交互方式的研究,现有产品复杂的功能信息和不友好的交互方式导致老年用户产生抵触心理。本文从用户行为逻辑的角度出发,将认知经验、行为习惯等内容与老年智能手环交互设计要素相结合,以降低老年用户的学习、认知和操作成本。首先,梳理行为逻辑
同时定位与地图构建(Simultaneous localization and mapping,SLAM)是一种同时获取未知环境三维结构和环境中传感器运动的技术。语义SLAM将语义信息包含到SLAM流程中,通过提供高层语义信息来增强SLAM系统的性能。将深度学习等人工智能方法与SLAM结合在一起,可以同时实现场景几何地图构建和语义信息提取的计算,这对于智能机器人定位与规划具有重要意义。本课题对基于
单兵虚拟作战平台是通过数据调整与虚拟仿真模拟复杂战场环境的综合作战平台,基于此平台的应用方式与虚拟技术优化自动步枪试验定型过程中的人机工效评价流程是本文所研究的重要方向,以此方向进行设计实践与设计评估。本文通过数据调研与实验方式开展基于单兵虚拟作战平台的自动步枪人机工效评价研究与设计实践,具体工作内容如下:分析自动步枪人机工效评价方法,确定了基于单兵虚拟系统的子系统的建立条件。通过研究,建立人枪肌
目标跟踪是计算机视觉中的重要研究方向之一,广泛应用于智能监控、人机交互、制导控制等领域。经过几十年的发展,研究人员提出了许多经典、优秀的跟踪算法,但由于实际环境的复杂性与目标的多变性,如光照变化、形变、遮挡等,目标跟踪仍然是一个非常具有挑战性的任务。近年来,精度与速度兼具的相关滤波跟踪算法吸引了研究者的广泛关注,而判别式尺度空间目标跟踪算法DSST是相关滤波算法中的代表算法之一,该算法基于MOSS
视频序列中的目标跟踪是一项基础且重要的计算机视觉任务。无论是在学术研究还是工业应用中,目标跟踪都有着深刻的研究意义与广泛的应用前景。本文基于多目标跟踪框架,探讨在密集场景下的目标跟踪。针对目标漏检、数据关联以及目标更新这三个方面,展开了深入的研究,主要研究内容与成果如下:(1)融合基于通道与空间置信度的相关滤波器跟踪结果在线跟踪多目标。本文研究发现在基于检测结果的多目标跟踪算法中,若目标被遮挡、或
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术用于解决机器人在未知环境中的定位和建图问题,是实现机器人自主定位的关键技术,对机器人踏入实际应用领域具有重要意义。近年来,视觉SLAM技术依靠相机的成本低、获取信息量丰富等优势,成为研究热点。数据关联是SLAM系统的核心技术,旨在寻找观测信息与环境地图的对应关系,稳定准确的数据关联是SLA