论文部分内容阅读
随着多模态数据的积累和深度学习的飞速发展,以视觉问答为代表的跨模态学习任务得到了广泛的关注和研究。视觉问答是指给定图像和自然语言的问题,对图像的视觉元素进行推理以推断出正确的答案。该任务是一项具有挑战性的多模态学习任务,因为它需要同时理解文本和视觉模态。因此,以细粒度的方式表示问题和图像在模型性能的提升上起着至关重要的作用。为了获得细粒度的表示方式,本文以注意力机制为基础设计了端到端的深度神经网络模型,以共同学习问题和图像特征。本文的主要工作内容包括:
1.针对传统协同注意力机制不能准确定位问题中的重要词汇和相关视觉区域的不足,本文提出了CAQT模型。CAQT包括协同注意力机制,该机制包括基于自注意力的文本注意力和问题引导的视觉注意力。基于自注意力的文本注意力可找出问题中重要的词汇,并获得具有区分性的问题表示。然后,利用该问题特征引导视觉注意力计算,该机制可根据文本信息定位出与问题相关的图像区域。另外,本文在CAQT模型中引入了问题类型,并将数据集VQAv1.0和VQAv2.0中的问题分为8个类别。本文将问题类型的独热编码直接拼接至多模态特征之后,可使模型在答案预测之前知道问题类型,减小答案的查找范围,从而提高模型性能。
2.针对经注意力模块计算得到的特征可能与参与计算的Query无关的不足,本文提出了双层注意力机制。DAtt的注意力模块由基于文本的双层注意力和基于视觉的双层注意力两部分组成。双层注意力机制可保证经注意力计算得到的特征和参与注意力计算的Query相关,能重点关注与问题语义相关的输入信息,从而减少无关信息的干扰。
3.本文在VQAv1.0和VQAv2.0两个公开数据集上进行实验验证,CAQT模型中的协同注意力机制和问题类型模块都能提升答案准确率;DAtt模型中基于文本的双层注意力和基于视觉的双层注意力也能改善模型性能。
1.针对传统协同注意力机制不能准确定位问题中的重要词汇和相关视觉区域的不足,本文提出了CAQT模型。CAQT包括协同注意力机制,该机制包括基于自注意力的文本注意力和问题引导的视觉注意力。基于自注意力的文本注意力可找出问题中重要的词汇,并获得具有区分性的问题表示。然后,利用该问题特征引导视觉注意力计算,该机制可根据文本信息定位出与问题相关的图像区域。另外,本文在CAQT模型中引入了问题类型,并将数据集VQAv1.0和VQAv2.0中的问题分为8个类别。本文将问题类型的独热编码直接拼接至多模态特征之后,可使模型在答案预测之前知道问题类型,减小答案的查找范围,从而提高模型性能。
2.针对经注意力模块计算得到的特征可能与参与计算的Query无关的不足,本文提出了双层注意力机制。DAtt的注意力模块由基于文本的双层注意力和基于视觉的双层注意力两部分组成。双层注意力机制可保证经注意力计算得到的特征和参与注意力计算的Query相关,能重点关注与问题语义相关的输入信息,从而减少无关信息的干扰。
3.本文在VQAv1.0和VQAv2.0两个公开数据集上进行实验验证,CAQT模型中的协同注意力机制和问题类型模块都能提升答案准确率;DAtt模型中基于文本的双层注意力和基于视觉的双层注意力也能改善模型性能。