目标级别的图像语义理解

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shijunjie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像数据中包含丰富的视觉信息,而将这些视觉信息自动解析并转换为对应的高级语义信息是实现人工智能的重要基础。在图像中,前景目标相对于背景往往包含更加丰富的语义信息,因此为了更好的提取图像中的高级语义信息,本论文主要研究对图像中前景目标的语义理解。具体地讲,本论文主要研究两个视觉任务——实例分割任务和图像描述生成任务,其中实例分割任务预测每个目标在图像中精准的像素级位置信息及对应的语义类别信息,图像描述生成任务进一步将图像中前景目标的语义信息转换为自然语言描述。当前实例分割模型主要基于多任务学习框架,通过多个独立的任务分支网络预测对应任务输出,共同组成对每个目标的分割结果。具体而言,当前模型是通过在检测模型上添加独立的分割分支网络扩展而来,其问题在于多个任务分支网络相互独立,无法利用任务之间的相关性导致输出存在不一致现象。为了解决当前存在的问题,我们首先设计了交错分支结构应用于检测和分割分支网络,不同任务共享空间信息来降低特征中的任务偏置,同时每个任务保留任务独享信息来适应于任务特性,最终实现任务之间的相互监督和促进,提高预测精度。更进一步,实例分割结果需要利用检测信息作为先验,当先验信息不准确时,实例分割结果也会受到影响。为了缓解该问题,我们提出了辅助检测损失函数来引入检测监督信息训练交错分支结构中的分割分支网络部分,对于不在检测框范围内的像素添加额外的训练信息,提高了模型在不准确的检测先验信息下预测的分割掩模质量。公开数据集上的实验结果表明我们的模型能够对每个目标预测更加精细的分割掩模,实现精准的语义信息提取。基于语义提取结果,图像描述生成模型进一步输出自然文本来描述图像内容。为了直接优化文本质量,当前工作采用强化学习中的策略梯度方法来训练模型,但是当前策略梯度方法的高方差问题导致模型收敛效果较差,限制了模型输出的文本质量。为了解决该问题,我们提出了基于束搜索的算法来估计奖励期望作为奖励偏置,在不影响梯度期望的情况下降低了梯度方差,提高了模型的收敛效果和生成的文本质量。进一步地,我们提出了自适应的困难样本挖掘方法来进一步促进模型训练。具体地讲,我们根据模型在图像样本上的实际奖励和奖励期望来区分样本,将实际奖励低于奖励期望的样本作为困难样本,并且将实际奖励和奖励期望的差值作为额外奖励,使得模型在这些样本上进行额外训练来输出更加高质量的文本。由于我们基于算法估计的奖励期望来筛选困难样本,该过程具有自适应性,避免了复杂的超参数调整同时提高了模型在整体数据上的表现。我们在公开的数据集上进行了测试,实验结果表明,对于同一模型,我们所提方法可以使得模型能够输出更加准确的文本描述。
其他文献
学位
随着计算机技术大规模的在工业过程中得到应用,越来越多的工业生产过程数据得以保存,如何从这些历史数据中挖掘出有效信息用以进行系统的过程监控是故障检测与诊断领域研究的热点问题。因此,基于数据驱动的故障检测与诊断得到了广泛的研究,而数据挖掘中的关键问题是如何提取出数据的有效特征表示。非负矩阵分解算法体现了局部组成整体的思想,通过在矩阵分解中添加非负性约束条件使得原始数据被分解为基向量矩阵和系数矩阵。其中
学位
学位
学位
学位
学位
学位
学位
学位