论文部分内容阅读
图像描述任务就是对图像生成一个简短的句子描述图像中的人物和场景。该任务是实现图像空间和语言空间的映射,通过构建能够感知和理解图像中细微的上下文信息的网络,将观察到的场景和现实世界联系起来,输出简洁准确的图像描述。虽然对于人类来说是很简单的事情但相对于机器来说具有诸多挑战。它不仅需要视觉算法理解图像当中的内容,同时也需要自然语言处理的语言模型,以便把对图像的理解转化为正确的单词。虽然最近提出了很多关于图像描述的算法也得了很不错的客观评价指标。但是它们还存在一些问题,产生的句子和实际上真正标注语句存在很大出入,对于图像上的某些关键的信息描述不到位。存在该问题的主要原因是大多数算法使用监督学习的方式来学习图像描述任务,但是当评价模型的性能却采用与监督网络学习完全不同的体系。对此,本文提出了新颖的基于分层强化学习的模型框架来解决这个问题。直接使用客观评价指标优化网络。首先模型使用Faster-RCNN目标检测器对图像的上下文信息编码成高维向量。对于解码过程,本文提出了一个‘分而治之’的思想,学习图像信息中的文本特征信息可以被视为一个强化学习过程。它包括以下几个部分:(1)在较低时间分辨率下运行的:管理者(Manager),目的是产生较高层的策略,产生一个具有语义意义的子目标策略。(2)运行在高时间分辨率下的:工作者(Worker),接受来自高层管理者(Manager)的子目标策略信息,产生具体的策略(产生具体的描述序列)。具体工作过程是管理者(Manager)为工作者(Worker)发出新的子目标策略,并且工作者(Worker)通过依次生成词语来完成各个子目标。此外,对于管理者(Manager)网络和工作者(Worker)网络在输入特征的时候都使用了注意力机制,让管理者(Manager)能够将重点放在更长的时间动态上,同时工作者(Worker)的注意力缩小到以目标为条件的当地动态。本文的主要研究内容如下:(1)设计了整个基于分层强学习模型的整个网络架构,包括Manager网络和工作者(Worker)网络,注意力机制。并且在没有引入额外的数据标签情况下使用分层强化学习的训练方式完成了整个模型的训练,并且通过大量实验取得了较高的评价指标,验证了模型的有效性。(2)采用目标检测器来编码图像中的复杂信息。相比较已有的方法采用深层卷积分类网络来说,目标检测器的优势在于检测器在训练阶段就对图像进行了分类和检测监督,能够获得图像中多目标的语义信息和位置信息。(3)本文针对策略梯度算法在进行单次采样训练过程中效率低下的问题提出了自我对抗式训练算法。在不同的环境状态下模型进行少量的采样是很难准确的估计出模型当前所执行动作的好坏程度。在基于策略的优化算法中通常需要引入一个基准(baseline)回报估计来衡量该状态下的平均好坏程度,才能精准估计出每次采样的动作在该状态下所带来的收益。而在少样本采样和状态空间庞大的前提下很难估计出不同状态下的基准估计变量和执行的动作所带来的收益。而自我对抗训练能够通过训练双模型去精准的估计双方在采样过程中不同状态下的基准估计,能够在较少的采样次数下估计出准确的策略梯度。本文通过实验证明该方法具有能够获得更快的学习效率和更高的评价指标。