论文部分内容阅读
随着多媒体互联网时代的发展,网络数据正以惊人的速度增长,图像数据作为信息传播的重要媒介之一。面对海量的图像数据,如何利用计算机图像分类和识别技术来快速区分和有效管理变得越来越重要。而计算机图像分类识别和技术作为计算机处理图像的重要手段之一,跨越了图像处理、计算机视觉机器学习和模式识别等领域的相关知识,一直是近年来研究领域的热点问题。由于收集的图像数据会受到光照、角度以及同类目标的多样性等因素影响,图像分类和识别技术仍是一个具有挑战性的研究问题。
关于图像分类和识别技术的关键在于如何获取合理有效的图像表示,而早期主要利用传统的视觉特征学习框架。随着深度学习的发展和应用,针对基于深度学习的图像分类和识别技术,研究者们已经展开了大量的探索和研究。但是图像分类和识别技术在学术研究和实际应用面临图像的类内差异和类间差异对分类识别的影响。本文将围绕该技术中存在的问题,利用特征和机器学习方法,从视觉特征、极限学习机和深度学习等学术研究角度出发,针对有基于单标签和多标签的有监督学习、基于噪声标签数据的半监督学习和基于行人再识别的无监督学习的三种实际应用问题,展开一系列的深入探索研究工作,论文的主要创新性研究工作包括以下几点:
(1)针对传统的图像分类框架中的特征描述、特征编码和分类器方法,本文提出了一种基于视觉特征学习和极限学习的图像分类算法。由于传统的图像分类框架都采用灰度图像下的SIFT特征描述子,只能够统计灰度空间中的图像特征信息变化,往往忽略了彩色图像中目标对象的颜色特征信息,从而导致图像的错误分类。因此,本文提出构建了基于颜色特征的CSIFT描述子的图像分类方法。然后,利用局部约束线性编码和局部软分配编码作为特征编码方法,来进一步提高图像分类的性能。最后,本文引入一种新的极限学习算法来改进传统的分类器方法,提出了一种新的基于颜色特征CSIFT描述子和特征编码方法,来融合极限学习机的图像分类框架,并且能够获得较好的分类性能。
(2)针对深度卷积神经网络特征存在忽略图像背景等信息的局限性,本文提出了一种基于深度卷积神经网络与多重VLAD编码方法结合的图像分类算法研究。在大多数情况下,深度卷积神经网络的特征提取方法都是关注图像中的核心目标对象,往往会忽略复杂图像背景和局部区域对象的特征信息变化。因此,本文首先利用深度卷积神经网络特征与VLAD特征编码方法结合构建图像分类框架。然后,我们采用三种特征编码算法对VLAD特征编码方法进行扩展,探索了基于VLAD特征编码方法的多重性来提高分类性能。最后,通过在VLAD编码方法中引入空间金字塔匹配方法,来增加图像卷积神经网络特征的空间信息,从而进一步提高了图像分类的性能。
(3)针对海量噪声标签的商品图像分类识别问题,本文提出了一种基于引导学习和噪声监督的商品图像识别算法研究。随着智能零售在线购物市场的不断发展,本文考虑了一个关于真实日常商品图像识别的研究方向。这不仅是一个现实生活应用中的重要问题,同时也是一个具有极大挑战性的实际问题。为了探索和解决现实世界中的商品图像识别任务,我们构建了一个新颖的大规模商品图像数据集,称为Products-90。图像数据的采集方式,是通过检索电子商务网站评论区图片数据,按照相关商品关键字查找,从中下载相关的商品图像数据。由于图像来源于网站用户随意拍摄并上传到网站上的。所以,这些图像数据往往会有杂乱背景,多样商品类别和海量噪声标签信息干扰等问题。因此,本文针对海量噪声标签数据,提出了一种通用的引导学习方法,通过充分利用Products-90数据中的小规模干净数据集和大规模噪声数据集,来有效地提高日常商品图像识别的性能。
(4)针对多标签的图像分类识别问题,本文提出了一个统一标准的基于自适应图卷积网络的多标签图像识别框架。该网络通过利用目前受欢迎的图卷积网络,来学习一种自适应标签图,用于训练学习目标对象分类器。本文根据现实世界中某些目标对象,通常会同时出现在一个场景环境中,所以探索如何有效建模标签之间的依赖关系是解决多标签图像识别的核心问题。本文首先通过提出的一个即插即用的自适应的标签图模块,该模块利用词嵌入信息来学习标签的相关性,并对标签之间的相互依赖关系进行建模。然后,使用传统的图卷积网络模型将这个图映射成标签相关的目标对象分类器,并进一步将这些分类器应用于图像特征的分类。最后,利用一个稀疏相关约束损失函数来增强自适应的标签图模块的学习。实验证明该框架能够有效的提高多标签分类性能。
(5)针对无监督的行人再识别研究任务,学习具有鲁棒性的和区分性的特征表示仍面临着巨大的挑战。为了缓解这个问题,本文提出了一种简单但有效的基于元学习注意力特征的无监督行人再识别模型框架。该框架首先,利用元学习方式构建小群组的样本特征,通过注意力学习机制对小群组的样本特征得到注意力权重。然后,通过这个注意力权重对样本特征进行加权求和操作,并生成一个新的样本特征。最后,通过利用多任务学习机制,将整个框架网络以端到端的方式在两个独立的域上训练学习。最终得到的元学习注意力特征框架具有两个优点:1)能够利用更多的新样本进行模型训练,在训练学习过程中密集地扩展特征空间,使模型网络具有更好的泛化能力。2)可训练的注意力权重能够捕获样本相互之间的重要性,使得网络模型可以关注在更有用或更具鉴别性的样本上。
关于图像分类和识别技术的关键在于如何获取合理有效的图像表示,而早期主要利用传统的视觉特征学习框架。随着深度学习的发展和应用,针对基于深度学习的图像分类和识别技术,研究者们已经展开了大量的探索和研究。但是图像分类和识别技术在学术研究和实际应用面临图像的类内差异和类间差异对分类识别的影响。本文将围绕该技术中存在的问题,利用特征和机器学习方法,从视觉特征、极限学习机和深度学习等学术研究角度出发,针对有基于单标签和多标签的有监督学习、基于噪声标签数据的半监督学习和基于行人再识别的无监督学习的三种实际应用问题,展开一系列的深入探索研究工作,论文的主要创新性研究工作包括以下几点:
(1)针对传统的图像分类框架中的特征描述、特征编码和分类器方法,本文提出了一种基于视觉特征学习和极限学习的图像分类算法。由于传统的图像分类框架都采用灰度图像下的SIFT特征描述子,只能够统计灰度空间中的图像特征信息变化,往往忽略了彩色图像中目标对象的颜色特征信息,从而导致图像的错误分类。因此,本文提出构建了基于颜色特征的CSIFT描述子的图像分类方法。然后,利用局部约束线性编码和局部软分配编码作为特征编码方法,来进一步提高图像分类的性能。最后,本文引入一种新的极限学习算法来改进传统的分类器方法,提出了一种新的基于颜色特征CSIFT描述子和特征编码方法,来融合极限学习机的图像分类框架,并且能够获得较好的分类性能。
(2)针对深度卷积神经网络特征存在忽略图像背景等信息的局限性,本文提出了一种基于深度卷积神经网络与多重VLAD编码方法结合的图像分类算法研究。在大多数情况下,深度卷积神经网络的特征提取方法都是关注图像中的核心目标对象,往往会忽略复杂图像背景和局部区域对象的特征信息变化。因此,本文首先利用深度卷积神经网络特征与VLAD特征编码方法结合构建图像分类框架。然后,我们采用三种特征编码算法对VLAD特征编码方法进行扩展,探索了基于VLAD特征编码方法的多重性来提高分类性能。最后,通过在VLAD编码方法中引入空间金字塔匹配方法,来增加图像卷积神经网络特征的空间信息,从而进一步提高了图像分类的性能。
(3)针对海量噪声标签的商品图像分类识别问题,本文提出了一种基于引导学习和噪声监督的商品图像识别算法研究。随着智能零售在线购物市场的不断发展,本文考虑了一个关于真实日常商品图像识别的研究方向。这不仅是一个现实生活应用中的重要问题,同时也是一个具有极大挑战性的实际问题。为了探索和解决现实世界中的商品图像识别任务,我们构建了一个新颖的大规模商品图像数据集,称为Products-90。图像数据的采集方式,是通过检索电子商务网站评论区图片数据,按照相关商品关键字查找,从中下载相关的商品图像数据。由于图像来源于网站用户随意拍摄并上传到网站上的。所以,这些图像数据往往会有杂乱背景,多样商品类别和海量噪声标签信息干扰等问题。因此,本文针对海量噪声标签数据,提出了一种通用的引导学习方法,通过充分利用Products-90数据中的小规模干净数据集和大规模噪声数据集,来有效地提高日常商品图像识别的性能。
(4)针对多标签的图像分类识别问题,本文提出了一个统一标准的基于自适应图卷积网络的多标签图像识别框架。该网络通过利用目前受欢迎的图卷积网络,来学习一种自适应标签图,用于训练学习目标对象分类器。本文根据现实世界中某些目标对象,通常会同时出现在一个场景环境中,所以探索如何有效建模标签之间的依赖关系是解决多标签图像识别的核心问题。本文首先通过提出的一个即插即用的自适应的标签图模块,该模块利用词嵌入信息来学习标签的相关性,并对标签之间的相互依赖关系进行建模。然后,使用传统的图卷积网络模型将这个图映射成标签相关的目标对象分类器,并进一步将这些分类器应用于图像特征的分类。最后,利用一个稀疏相关约束损失函数来增强自适应的标签图模块的学习。实验证明该框架能够有效的提高多标签分类性能。
(5)针对无监督的行人再识别研究任务,学习具有鲁棒性的和区分性的特征表示仍面临着巨大的挑战。为了缓解这个问题,本文提出了一种简单但有效的基于元学习注意力特征的无监督行人再识别模型框架。该框架首先,利用元学习方式构建小群组的样本特征,通过注意力学习机制对小群组的样本特征得到注意力权重。然后,通过这个注意力权重对样本特征进行加权求和操作,并生成一个新的样本特征。最后,通过利用多任务学习机制,将整个框架网络以端到端的方式在两个独立的域上训练学习。最终得到的元学习注意力特征框架具有两个优点:1)能够利用更多的新样本进行模型训练,在训练学习过程中密集地扩展特征空间,使模型网络具有更好的泛化能力。2)可训练的注意力权重能够捕获样本相互之间的重要性,使得网络模型可以关注在更有用或更具鉴别性的样本上。