论文部分内容阅读
随着互联网的高速发展以及智能相机和移动设备的普及,图像数据出现了爆炸式增长。在日常生活中,人们越来越习惯于通过拍照来记录他们生活的点点滴滴、表达抒发他们对待一些事物的看法、亦或者通过社交网络去分享一段他们自己的经历。据InfoTrends[1]估计,2017年全年使用智能手机,数码相机和其他设备拍摄的图片数目达1.2万亿张,而储存的照片总量将高达4.7万亿。这些照片一部分被用户储存在本地的储存设备中,一部分将被用户上传至社交网络中,作为用户分享的内容。图像已然成为了人类记录生活的重要信息组成部分。用户的图像通常通过以下几个方面进行管理:1)作为独立个体的图像,这类图像通常以单张图像的形式出现,图像描述独立物体、风景或者人物等。2)作为事件内容的图像,这类图像通常以故事相册的形式得以保存,其内容多为通过一系列时间连续的图像记录生活中的一些事件,比如生日聚会,外出旅游。3)作为某一类特定物体的图像,这类图像通常以集合相册的形式得以保存,其内容不具有时间连续性,其中的图像描述具体的特定物体,比如各种各样的花、狗。4)作为人脸图像,这类图像包含了用户与亲朋好友的合照,用户希望得到人脸信息。而对于如此大规模的图像,如何认知图像的内容并进行管理成为了一项挑战。关注度机制的灵感来自于人们认知事物的过程。为了更好地认知一个事物,人们在观察该事物的时候,目光会沿感兴趣的地方移动,有时会对着局部细节仔细观察,然后再得出最终结论。这一过程在网络的学习过程中体现为,对有用的信息给予其较高的权重而对于无用的信息给予其较低的权重。无论是在传统的机器学习领域还是近年来在计算机视觉领域产生了突破式进展的深度学习领域,关注度机制都可以对图像认知产生帮助。在传统的机器学习领域,关注度机制被广泛应用于adaboost[2]一类算法中。其将关注度机制应用于实例上,首先将关注度集中在容易分类的实例上,接下来逐步将关注度集中在难以分类的实例上。自2012年以来,深度学习极大地推动了计算机视觉领域的发展。其在大规模的图像数据集上训练得到的分类模型具有很好的可迁移性,在新的任务上表现出很好的泛化能力。这使得大规模的图像数据的理解分析成为了可能。在此基础上,我们将关注度机制应用于网络中可以帮助网络更好认知事物。在本文中,我们将利用关注度机制对图像进行进一步的分析理解。针对用户图像,我们逐一对其设计模型。对于独立个体图像而言,日常生活中的图像通常包含多个主体,且主体所占空间大小不一。其分类问题是一个多标签分类问题,而不是传统的单标签分类问题。我们利用关注度机制找到主体所在区域,利用这些区域更好地提取相关特征并挖掘主体之间的空间关联性,最终完成分类任务。对于事件内容的图像,我们通常对一个相册进行事件认知。然而由于用户存在迥然不同的拍照习惯,往往一个相册的事件不能通过其内一张图像所能展示,并且一个相册内的图像也往往不都于这个相册有关。我们利用关注度机制学习图像重要性,使于相册事件相关的图像有更高的认知权重,并利用多种视觉特征以及图像时间特征综合分析得出最终预测结果。对于某一类特定物体的相册,其内图像通常具有相同的高层语义,比如一个鸟类的相册集内会包含各种类型的鸟类。如何认知其中物体,这种问题被称为细粒度分类。我们利用关注度机制找到图像的细节特征,组合多种细节特征最终完成分类。对独立个体图像理解的另一方面是人脸检测任务。我们介绍了基于传统特征的利用了基于实例的关注度机制的人脸检测方法,并在此基础上作出改进。