论文部分内容阅读
近年来随着互联网技术的发展以及可拍照设备的普及,图像资源呈现爆炸式增长。如何有效组织海量的图像资源并从中挖掘出有价值的图像是一个具有挑战性的问题。由于图像模态信息复杂难以组织,而文本模态信息容易组织易于搜索,因此将图像转换为文本能够更好地对图像资源加以挖掘和利用。 图像文本摘要技术是连接视觉和语言的桥梁,它能够从图像中提取文本摘要,将图像模态数据转换为文本模态数据。图像摘要研究开始于2010年,图像英文摘要的相关研究已取得了相当不错的成果。中文与英文不同,中文词语含义丰富,句子结构灵活度大,这些特点都给图像中文摘要研究带来了很大困难。 本文将经典的深度神经网络模型应用于图像中文摘要任务中,并在此基础上提出了基于多模态神经网络的方法以及融合整体局部视觉特征的方法,一方面对图像模态视觉信息和文本模态关键词信息进行融合,另一方面,充分考虑图像的整体和局部视觉特征进行建模,改善了摘要生成质量。 本论文主要取得了以下两个方面的成果: 1.提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络,解码器包含多模态摘要生成网络。根据多模态处理任务的特点,编码阶段同时提取视觉信息和关键词信息,解码阶段融合视觉信息和关键词信息对摘要生成过程建模,同时设计并实现了不同的多模态信息融合方法,最优模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了35.0和44.2,CIDEr达到了113.7和130.0。 2.提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息,不能够反映图像的全部特征。对于这个问题,引入注意力机制,对图像区域和摘要句子执行显示的对齐,充分使用图像局部信息,从冗杂的图像数据中提取若干关键信息,提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。最终模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了34.1和48.2,CIDEr达到了113.5和143.3。