论文部分内容阅读
菜品图像分类在智能健康管理中扮演着重要角色。随着软硬件技术的不断进步及人工智能理论的持续发展,菜品图像分类将在辅助生活、社交娱乐中具有更高的实用性和普遍性。菜品分类作为精细图像分类的一个子课题,利用图像细节以及寻找可判别区域在学术界与工业界得到广泛关注和研究。本文针对这两个关键任务,面向常见的90类菜品图像,研究三种新的菜品图像分类算法。文章主要内容如下:1.本文研究一种基于多尺度思想的菜品图像分类算法,包括多尺度输入图像和多尺度CNN特征谱两个方面。在多尺度输入图像方面,本文利用两种不同尺度的输入图像训练CNN分类网络,两个尺度不共享网络参数;在多尺度CNN特征谱方面,首先将低层、中层特征谱进行加权融合,再将中层、高层特征谱进行加权融合,最后进行分类。这种基于多尺度思想的方法可以更好利用图像细粒度信息,弥补了随着CNN网络层数增多,细粒度信息丢失的缺陷。2.本文研究一种基于可判别区域的菜品图像分类算法。针对菜品图像背景多为餐桌、桌布的特点,首先对菜品图像进行餐具分割,排除背景图像干扰,以确定菜品区域二值图;同时提取菜品图像的显著谱,比较菜品区域二值图和显著谱的交并比关系,以得出最终的菜品图像可判别区域;最后,通过对可判别区域提取CNN特征实现分类。3.本文研究一种基于注意力模型的菜品图像分类算法。针对菜品图像构建本文的注意力提取模型,并将其运用到本文CNN网络的后端,以得到菜品图像的注意力特征谱;随后利用注意力特征谱对原特征谱进行改进,以实现对注意力区域的增强;同时,采用卷积特征谱和全连接特征谱级联的方式,弥补CNN网络在后端对图像空间信息的丢失。为了训练本文算法模型并验证其有效性,文章从菜谱网站爬取用户上传的图片,构建CF90数据库。为了取得更好的分类效果,本文每一章算法不相互独立,均基于前面提出的算法,不断改进。实验结果表明本文算法能逐步提升菜品图像的分类准确率。