论文部分内容阅读
图像数据中包含丰富的视觉信息,而将这些视觉信息自动解析并转换为对应的高级语义信息是实现人工智能的重要基础。在图像中,前景目标相对于背景往往包含更加丰富的语义信息,因此为了更好的提取图像中的高级语义信息,本论文主要研究对图像中前景目标的语义理解。具体地讲,本论文主要研究两个视觉任务——实例分割任务和图像描述生成任务,其中实例分割任务预测每个目标在图像中精准的像素级位置信息及对应的语义类别信息,图像描述生成任务进一步将图像中前景目标的语义信息转换为自然语言描述。当前实例分割模型主要基于多任务学习框架,通过多个独立的任务分支网络预测对应任务输出,共同组成对每个目标的分割结果。具体而言,当前模型是通过在检测模型上添加独立的分割分支网络扩展而来,其问题在于多个任务分支网络相互独立,无法利用任务之间的相关性导致输出存在不一致现象。为了解决当前存在的问题,我们首先设计了交错分支结构应用于检测和分割分支网络,不同任务共享空间信息来降低特征中的任务偏置,同时每个任务保留任务独享信息来适应于任务特性,最终实现任务之间的相互监督和促进,提高预测精度。更进一步,实例分割结果需要利用检测信息作为先验,当先验信息不准确时,实例分割结果也会受到影响。为了缓解该问题,我们提出了辅助检测损失函数来引入检测监督信息训练交错分支结构中的分割分支网络部分,对于不在检测框范围内的像素添加额外的训练信息,提高了模型在不准确的检测先验信息下预测的分割掩模质量。公开数据集上的实验结果表明我们的模型能够对每个目标预测更加精细的分割掩模,实现精准的语义信息提取。基于语义提取结果,图像描述生成模型进一步输出自然文本来描述图像内容。为了直接优化文本质量,当前工作采用强化学习中的策略梯度方法来训练模型,但是当前策略梯度方法的高方差问题导致模型收敛效果较差,限制了模型输出的文本质量。为了解决该问题,我们提出了基于束搜索的算法来估计奖励期望作为奖励偏置,在不影响梯度期望的情况下降低了梯度方差,提高了模型的收敛效果和生成的文本质量。进一步地,我们提出了自适应的困难样本挖掘方法来进一步促进模型训练。具体地讲,我们根据模型在图像样本上的实际奖励和奖励期望来区分样本,将实际奖励低于奖励期望的样本作为困难样本,并且将实际奖励和奖励期望的差值作为额外奖励,使得模型在这些样本上进行额外训练来输出更加高质量的文本。由于我们基于算法估计的奖励期望来筛选困难样本,该过程具有自适应性,避免了复杂的超参数调整同时提高了模型在整体数据上的表现。我们在公开的数据集上进行了测试,实验结果表明,对于同一模型,我们所提方法可以使得模型能够输出更加准确的文本描述。