论文部分内容阅读
世界是多模态的——信息往往同时存在于语言、声音、图像等多个模态当中。当前人工智能发展迅速,在自然语言处理(NLP)、自动语音识别(ASR)和计算机视觉(CV)各自领域都有重大突破,但这种单一领域的突破仍然与真实世界有着明显不同。为构建真正理解人类世界的人工智能,它需要有对多模态数据识别和响应的能力。近年来自然语言处理和计算机视觉两大领域不断碰撞和融合,衍生出很多跨模态研究课题,如图片检索和图片问答等,但是由于这两个领域中的基础模型大都针对纯NLP或CV任务单独设计和训练(例如NLP中针对语言模型设计的BERT和CV中针对图片分类设计的ResNet),这些模型无法很好地刻画语言和视觉内容之间的关联。从下游任务对应的标注数据中学习这类关联是解决方案之一,但由于标注开销大,数据量较少,该方案依然缺点明显。本文中提及的跨模态仅设计图像和文本两种模态之间的交互任务。本文设计一种新的结构——Unicoder-VL,基于自注意力机制学习语言与图像信息间的协同表示。在此基础上,利用大规模的图像文本匹配对数据,设计基于文本的掩码语言模型(MLM)、基于图像区域的掩码类别预测(MOC)、图像文本匹配(VLM)和图像特征生成(MRFG)等多种预训练任务,借助通用领域跨模态预训练-微调技术,该模型能够学习到图像和文本间的内在关联,并用于生成图像和文本的联合向量统一表示,同时从预训练好的模型参数开始微调可以加快训练速度、提高训练效果,减少对下游任务数据量的要求。预训练的Unicoder-VL考虑了跨模态信息的联合向量表示能够很好地迁移到下游任务中,并在图文检索、图像问答等多个任务上都取得很好的效果。本文在此基础上继续进行对比实验,探究各超参数对预训练质量的影响。本文发现,在目前允许的范围内,预训练数据集越大、数据质量越高、模型越大、合适的训练策略,可以使得预训练的模型在后续下游任务的表现越好。本文不涉及单模态的输入,未来旨在扩展模型支持单模态输入,允许图像字幕生成、场景图生成等等任务。本文提出的跨模态预训练思想不仅限于图像-文本领域,理论上可以迁移到其他跨模态领域,如视频-文本、语音-文本等等。而预训练技术本身还有很大的探索空间,这些都使得本文的工作具有很强的扩展性和探索价值,这是相关跨模态工作不具备的。