基于多信息融合的图像中文摘要方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tianyi666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网技术的发展以及可拍照设备的普及,图像资源呈现爆炸式增长。如何有效组织海量的图像资源并从中挖掘出有价值的图像是一个具有挑战性的问题。由于图像模态信息复杂难以组织,而文本模态信息容易组织易于搜索,因此将图像转换为文本能够更好地对图像资源加以挖掘和利用。  图像文本摘要技术是连接视觉和语言的桥梁,它能够从图像中提取文本摘要,将图像模态数据转换为文本模态数据。图像摘要研究开始于2010年,图像英文摘要的相关研究已取得了相当不错的成果。中文与英文不同,中文词语含义丰富,句子结构灵活度大,这些特点都给图像中文摘要研究带来了很大困难。  本文将经典的深度神经网络模型应用于图像中文摘要任务中,并在此基础上提出了基于多模态神经网络的方法以及融合整体局部视觉特征的方法,一方面对图像模态视觉信息和文本模态关键词信息进行融合,另一方面,充分考虑图像的整体和局部视觉特征进行建模,改善了摘要生成质量。  本论文主要取得了以下两个方面的成果:  1.提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络,解码器包含多模态摘要生成网络。根据多模态处理任务的特点,编码阶段同时提取视觉信息和关键词信息,解码阶段融合视觉信息和关键词信息对摘要生成过程建模,同时设计并实现了不同的多模态信息融合方法,最优模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了35.0和44.2,CIDEr达到了113.7和130.0。  2.提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息,不能够反映图像的全部特征。对于这个问题,引入注意力机制,对图像区域和摘要句子执行显示的对齐,充分使用图像局部信息,从冗杂的图像数据中提取若干关键信息,提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。最终模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了34.1和48.2,CIDEr达到了113.5和143.3。
其他文献
随着社会信息化的不断深入,软件的应用领域不断拓展,软件系统复杂程度不断增加,许多现有的软件需要不断升级维护以适应新的应用的需求,从而对软件维护以及开发的效率提出了更高的
面向服务提供的新型网络技术体系是未来互联网发展的可行思路,实现面向服务提供的新型网络技术体系的关键是研究开放式可重构路由交换节点技术。本论文研究和实现的可重构路
随着Internet的迅猛发展和国家信息化建设的不断推进,在国防科技信息领域,汇集了种类繁多的信息资源,怎样对这些资源进行组织,怎样为广大国防科技管理和科研人员提供有效的信息资
随着计算机技术的日趋普及,软件应用的范围逐步扩大,软件的规模也随之扩大,因此软件的质量问题越来越重要。软件测试是软件质量保证的重要方法,静态测试是软件测试的一个重要
本篇论文首先从IPv4地址即将枯竭这一课题背景出发分析了IPv6出现目的以及IPv6相对于IPv4的优势;然后介绍了现有主流的IPv6过渡技术,列举了具有代表性的过渡技术的工作原理与
片上网络是解决大规模片上多处理器系统中片上通信问题的有效途径。与基于总线的方式相比,片上网络使用网络互连的方式进行通信,这有效的降低了通信功耗、缓解了带宽争夺、提
作为第三代的网络安全机制,入侵容忍系统受到越来越多的关注。随着技术上的突破,很多入侵容忍系统相继诞生,入侵容忍技术也日渐成熟。面对众多的入侵容忍系统的出现,如何判定
XML语言是W3C提出的一个Web上数据表示和数据交换的标准,XML文档在Web上的广泛应用使得基于XML文档的数据查询显得尤其重要。目前XML的标准查询语言XQuery不能满足用户提出的
随着智能手机和移动互联网的进步,移动平台上的恶意软件和病毒也在不断发展。据统计,手机安全公司网秦仅在2010年就截获了1700多个手机病毒,相比去年增长了193%。如何提高手
本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检