论文部分内容阅读
食物与人类生活息息相关,是保证人类身体正常运转的主要能量来源。将计算机视觉技术与食物识别相结合可以极大促进生活的便利性。食物图片结构多变、背景干扰大、类间差异小、类内差异大等特点,使其比普通细粒度图片的识别难度更大。目前在食物图片识别领域,大量工作从不同的角度对食物识别方法进行了全面的研究。但是作为食物识别领域最基础的食物图片精确识别与分类目前仍存在识别精度低、泛化性差等问题。本文提出了基于多级卷积特征金字塔的细粒度食物图片识别模型,由整体到局部逐级提取特征,不仅避免了之前方法仅仅关注食物图片整体特征的缺点,而且保留了全局信息和局部细节信息,将干扰较大的背景信息丢弃,只针对食物目标区域提取特征。本文模型主要由食物特征提取网络、注意力区域定位网络与特征融合网络三部分组成,分别负责特征提取、细粒度局部区域定位与全局局部特征融合。单级食物特征提取网络无法同时获得食物图片全局与局部特征,因此采用三级食物特征提取网络级联的结构实现了特征由全局到局部的转移。针对食物图片尺度变化大的特点,在每级食物特征提取网络的特征图之间构建了特征金字塔网络,提高了网络的特征描述能力,在加入特征金字塔以后模型获得了2.1%的性能提升。为了使网络自动定位到细粒度区域,在每级特征提取网络之间设计了一个注意力区域定位网络,将特征提取范围由全局缩小到局部。然后将原始图片的细粒度区域裁剪、放大输入到下一级特征提取网络。最后将每一级特征提取网络提取的特征送入特征融合网络进行特征融合,融合后的特征既包含食物图片的全局特征,也包含食物目标的细节特征。实验结果表明,本文模型在Food-101、ChineseFoodNet与Food-172数据集上分别获得了91.3%、82.6%、90.1%的Top-1正确率,超过了当前最好的识别结果。同时本文还建立了一个类别更多、数据量更大的食物图片数据集。