基于注意力机制的图像中文描述生成方法

来源 :西北大学 | 被引量 : 0次 | 上传用户:gaolch002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习和人工智能的快速崛起,计算机视觉和自然语言处理领域在图像理解和文本分析生成上均获取了巨大的成就。渐渐地,人们不再满足于从图像或文本中获取单一种类的信息,而是考虑如何充分利用多模式数据来解决语言和视觉的综合任务。在这个新的语言视觉研究热潮中,图像描述生成已经成为关键任务。图像描述生成任务类似于我们小时候做过的看图写话,其本质是一个从机器视觉到自然语言的转化过程,目的是让模型能自动生成描述给定图像内容的自然语句。相比于其它的视觉任务,该任务不仅需要计算机识别图像中的关键内容,理解它们之间的关系,还需要将获取到的图像信息用合适的自然语言表达出来。近年来,受机器翻译领域中编码-译码(Encoder-Decoder)模型的启发,图像描述生成研究取得了突破性进展。然而由于可用数据集的限制和中文语言处理的特殊性,图像中文描述生成任务虽然可以实现,但仍存在准确性、完整性较低,连贯性、可读性不佳等问题。针对以上问题,本文基于经典的编码-译码架构,提出了一种新型的结合文本词特征和注意力机制的中文图像描述生成模型(AW-NIC模型)。该方法的创新性主要表现在以下两个方面:1.词特征模块。针对中文自然语言处理的特殊性,考虑到在中文文本中不同词语贡献度不同的因素,本文在词特征模块,结合文本的词性特征、词频特征、词长特征,新设计了一种词在文本中贡献度的计算方法,用以在模型训练时对输出的文本向量的进行权重赋值操作,使描述语句中贡献度较大词语的正确性得到优先保证。2.注意力机制模块。为了减小图像编码转化过程信息损耗对模型识别精度的影响,提高模型的文本输出质量,我们在中文描述生成模型中加入注意力机制模块。该模块可根据之前生成的文本信息确定与当前任务关联度更强的图像区域,使模型能在解码的不同时刻获取到不同的图像信息,达到提高语言模型输出精度的效果。本文设计的AW-NIC模型不仅利用词特征模块优化模型性能,使其与中文描述生成任务特性更加契合,还利用注意力机制对图像的编码转换过程进行指导,使语言生成模型更关注与当前任务有关部分的图像特征,进而有效地提升模型输出质量。该模型在AIC-ICC数据集上实验结果表明,词特征和注意力机制模块的加入会极大地提升模型输出描述文本的精确性、完整性。
其他文献
生长干部本科学员骨干队伍不仅是军队高等院校人才培养的重要方面,也是军队高等院校管理的基础队伍之一,是在普通学员与干部之间起“桥梁纽带”作用的一个特殊阶层。生长干部
在推动“大众创业,万众创新”大环境中,作为社会资本的补充,我国各地方政府参照国外创投经验成立政府引导基金,利用公共财政资金拉动社会资本共同成立创业投资基金,间接投资到创业企业。如何建立政府引导基金参股的创投基金有效的风险管理体系,是提高政府资金利用效率保证投资者资金安全的关键。本文通过H创投基金的三个实际案例探讨了政府引导基金参股的创投基金的风险识别、风险管理和风险控制问题。首先,通过比较政府引导
随着无线通信业务的快速发展以及移动设备的普及,可用的频谱资源与通信业务的需求呈现反比例增长趋势。认知无线电(Cognitive Radio,CR)技术是解决频谱资源紧缺的有效途径之
DNS服务器是互联网中提供域名解析服务的核心基础设施,负责将IP地址和域名相互转换。DNS协议由于本身设计上的缺陷和各种软件漏洞,使得DNS服务器极易遭受攻击。一旦DNS服务器
物种多样性和遗传多样性是生物多样性的两个重要组成部分,对物种-遗传多样性相关关系(SGDC)的探讨将有助于深入理解生物多样性的本质,目前这一领域的研究对于水生植物群落的研究十分薄弱。沉水植物是维持湖泊清水稳态的关键类群,本文以洪湖为研究对象,利用AFLP分子标记结合野外调查,对不同干扰条件下沉水植物群落的物种多样性与其内优势沉水植物竹叶眼子菜(Potamogeton wrightii)和穗状狐尾藻
中国是一个植物遗传资源储备非常丰富的国家。但发达国家更早的开始了对植物新品种的保护,故而国外受权利保护的植物新品种与日俱增,这势必会造成我国的农业市场受制于人。如
非负矩阵分解(Non-negative Matrix Factorization,NMF)作为一种有效的数据降维和特征提取算法,已经在诸多领域获得了广泛的应用。而深度学习(Deep Learning),尤其是基于注意力机制(Attention Mechanism)的深度学习网络,也已经成为当下最火热的智能学习算法。本文在对NMF、注意力机制和深度学习进行深入研究后,提出了一种基于注意力机制的人脸属
超级电容器和燃料电池是两种主要的储能设备,其中固液界面双电层储能是超级电容器的主要储能机理之一,而催化剂表面上的析氢反应则是可持续生产氢气来用于燃料电池的有效办法。双电层和析氢反应均位于固体材料和溶液的界面上,因此深入理解其界面现象有助于提高双电层电容和析氢效率。二维过渡金属二硫化物中的金属性MoS_2具有较高导电性和稳定性,且层间距对电容性能有明显影响,但还未有过系统性的研究。Co_2P是过渡金
乡村发展,事关乡村居民的衣食住行、事关基层社会的稳定、事关国家粮食安全、事关小康社会的全面实现。基层社会治理法治化于党的十八届四中全会提出,基层社会治理分为城市社区治理和农村社区治理,一般而言,农村社区治理被学者称为乡村治理或农村治理。乡村治理属于社会治理,社会治理是国家治理体系中的重要部分。乡村治理法治化是全面依法治国的重要组成部分,也反映着国家治理体系和治理能力现代化的水平。乡村社会存在的黑恶
学位
面对未来能源需求的挑战,太阳能是最具前途的可再生能源之一。钙钛矿太阳能电池以其材料本身优异的光电性质和低廉的成本,一跃成为十分具有前景的新兴光伏技术。在过去十年中,钙钛矿太阳能电池的性能呈指数增长,最高光电转化效率已经超过23%[1]。柔性钙钛矿太阳能电池拥有较高的能质比,良好的抗弯折性,价格低廉,可以适用于卷对卷工艺,有潜力投入从背包到无人机各种各样的应用中。然而,钙钛矿太阳能电池制备常涉及高温