论文部分内容阅读
近年,随着深度学习的迅猛发展,计算机视觉领域和自然语言处理领域受到了众多学者关注。图像描述任务将二者相结合,根据图像的内容,生成一段与图像内容相关且语义通顺的自然语言,实质上是一个从编码到解码的过程。本文基于传统的图像描述方法,在其基础上进行改进,论文主要研究工作及创新点包括:1、传统的图像描述任务在处理图像特征信息能力不足,忽略了图像关键区域的位置信息,因此本论文提出了基于注意力(Attention)机制的图像描述方法,使用ResNet-101作为编码器,将图像的特征信息与语义信息进行融合,在解码生成描述时让模型对特征具有选择能力,关注到图像相对应的区域。2、考虑到模型在训练阶段将图像的真实标签作为输入,而在测试阶段将上一时刻的预测值作为当前时刻的输入,训练模型和测试模型的差异会造成测试时单词出现累加的错误。因此本论文提出了一种计划取样的方法,在训练阶段的当前时刻的输入部分添加上一时刻的预测值,让训练阶段的模型接近测试阶段的模型,使用掷硬币的策略方式来选择训练的阶段输入的是当前时刻的真实值还是上一时刻的预测值。3、为在测试时能生成更准确的描述,本论文使用了集束搜索(Beam Search)技术,每个时刻Top B概率的单词作为备选,选取当前累计得分最高的单词作为结果输出。4、注意力机制模型把特征图区域平均划分,并给每个区域分配权重,这种方法忽略了如何选取特定图像区域的功能。本论文提出了一种基于自下而上和自上而下的联合注意力机制。对于模型编码部分的自下而上注意力机制,使用目标检测技术获取图像兴趣区域的对象特征;而语言解码部分使用两层LSTM解码器来提高语言输出的表达能力,包含了自上而下注意力机制的LSTM和语言模型的LSTM,并在注意力机制输出中添加了一个门限机制(Gate)过滤Attend后模型中的冗余信息,使生成的描述更加可靠。