基于多信息融合的图像中文摘要方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：tianyi666

【摘要】

：

近年来随着互联网技术的发展以及可拍照设备的普及，图像资源呈现爆炸式增长。如何有效组织海量的图像资源并从中挖掘出有价值的图像是一个具有挑战性的问题。由于图像模态信息

【作者】

：

刘泽宇

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

图像中文摘要编码器特征提取神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来随着互联网技术的发展以及可拍照设备的普及，图像资源呈现爆炸式增长。如何有效组织海量的图像资源并从中挖掘出有价值的图像是一个具有挑战性的问题。由于图像模态信息复杂难以组织，而文本模态信息容易组织易于搜索，因此将图像转换为文本能够更好地对图像资源加以挖掘和利用。　　图像文本摘要技术是连接视觉和语言的桥梁，它能够从图像中提取文本摘要，将图像模态数据转换为文本模态数据。图像摘要研究开始于2010年，图像英文摘要的相关研究已取得了相当不错的成果。中文与英文不同，中文词语含义丰富，句子结构灵活度大，这些特点都给图像中文摘要研究带来了很大困难。　　本文将经典的深度神经网络模型应用于图像中文摘要任务中，并在此基础上提出了基于多模态神经网络的方法以及融合整体局部视觉特征的方法，一方面对图像模态视觉信息和文本模态关键词信息进行融合，另一方面，充分考虑图像的整体和局部视觉特征进行建模，改善了摘要生成质量。　　本论文主要取得了以下两个方面的成果:　　1.提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络，解码器包含多模态摘要生成网络。根据多模态处理任务的特点，编码阶段同时提取视觉信息和关键词信息，解码阶段融合视觉信息和关键词信息对摘要生成过程建模，同时设计并实现了不同的多模态信息融合方法，最优模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了35.0和44.2，CIDEr达到了113.7和130.0。　　2.提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息，不能够反映图像的全部特征。对于这个问题，引入注意力机制，对图像区域和摘要句子执行显示的对齐，充分使用图像局部信息，从冗杂的图像数据中提取若干关键信息，提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。最终模型在Flickr8k-CN和AIC-ICC数据集上BLEU-4分别达到了34.1和48.2，CIDEr达到了113.5和143.3。

其他文献

过程蓝图逆向转换与算法实现模式研究

随着社会信息化的不断深入，软件的应用领域不断拓展，软件系统复杂程度不断增加，许多现有的软件需要不断升级维护以适应新的应用的需求，从而对软件维护以及开发的效率提出了更高的

学位

过程蓝图逆向转换软件维护算法实现模式元模型

面向可重构路由软件开发的集成编译环境与可重构方法研究

面向服务提供的新型网络技术体系是未来互联网发展的可行思路,实现面向服务提供的新型网络技术体系的关键是研究开放式可重构路由交换节点技术。本论文研究和实现的可重构路

学位

可重构构件自动化测试多平台

智能检索在国防科技信息专网中的研究与应用

随着Internet的迅猛发展和国家信息化建设的不断推进，在国防科技信息领域，汇集了种类繁多的信息资源，怎样对这些资源进行组织，怎样为广大国防科技管理和科研人员提供有效的信息资

学位

智能检索国防科技信息专网本体技术叙词表资源服务

悬挂指针的静态检测方法研究

随着计算机技术的日趋普及,软件应用的范围逐步扩大,软件的规模也随之扩大,因此软件的质量问题越来越重要。软件测试是软件质量保证的重要方法,静态测试是软件测试的一个重要

学位

软件测试静态分析面向缺陷模式函数摘要缺陷模式状态机悬挂指针

基于IVI技术与应用层隧道的IPv6过渡方案的设计与实现

本篇论文首先从IPv4地址即将枯竭这一课题背景出发分析了IPv6出现目的以及IPv6相对于IPv4的优势；然后介绍了现有主流的IPv6过渡技术,列举了具有代表性的过渡技术的工作原理与

学位

应用层隧道主机模式网关模式翻译技术过渡方案

片上网络端到端任务截止期规划问题的研究

片上网络是解决大规模片上多处理器系统中片上通信问题的有效途径。与基于总线的方式相比,片上网络使用网络互连的方式进行通信,这有效的降低了通信功耗、缓解了带宽争夺、提

学位

片上网络端到端任务实时截止期分配虫洞交换

入侵容忍系统的动态安全性量化方法研究

作为第三代的网络安全机制,入侵容忍系统受到越来越多的关注。随着技术上的突破,很多入侵容忍系统相继诞生,入侵容忍技术也日渐成熟。面对众多的入侵容忍系统的出现,如何判定

学位

入侵容忍安全性量化暴露窗口驻留时间

XML模糊SPARQL查询方法的研究

XML语言是W3C提出的一个Web上数据表示和数据交换的标准,XML文档在Web上的广泛应用使得基于XML文档的数据查询显得尤其重要。目前XML的标准查询语言XQuery不能满足用户提出的

学位

SPARQLfSPARQLXQuery语义WebXML

Symbian平台软件行为监控系统的设计与实现

随着智能手机和移动互联网的进步,移动平台上的恶意软件和病毒也在不断发展。据统计,手机安全公司网秦仅在2010年就截获了1700多个手机病毒,相比去年增长了193%。如何提高手

学位

Symbian智能手机病毒软件行为监控

质检舆情监控系统中信息检索的研究

本文分析了对产品质量、食品安全方面的质检舆情监控的意义和必要性,介绍了垂直搜索、信息抽取、中文分词、文本相似度、文本聚类、信息检索等方面的技术现状。研究了信息检

学位

信息检索文本相似度网页去重文本聚类

基于多信息融合的图像中文摘要方法研究

其他学术论文