基于增强视觉特征的视觉问答研究

来源 :中原工学院 | 被引量 : 0次 | 上传用户:xiaosa12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是一个典型的多模态任务,也是一个重要的研究课题,结合了计算机视觉和自然语言处理两大领域,引起了人们的广泛关注。这个任务需要同时对图像和文本进行处理并将两种数据融合,因此多模态特征的信息表示与融合在视觉问答任务中起着关键作用,基于此提出了许多解决方案。通过对已有模型的回顾与分析,这些模型在理解句子语义和关注图像相关重点区域的能力上仍然存在一些不足,这影响了视觉问答模型的性能。有鉴于此,本文提出了增强的视觉特征,通过对图像特征的改进使模型的整体性能得到提高。具体研究内容如下:(1)提出了基于联合注意力机制和增强视觉特征的多模态融合模型,实现了对于特征信息的细粒度表示。通过结合空间特征和对象特征的方式得到增强的视觉特征。此外,使用双向长短期记忆网络实现对问题本身的自注意力机制,并根据问题中的关键字来关注视觉特征中的重要区域。最后,以多模态可分解双线性池化融合模型作为图像和文本特征的融合模型。本文通过实现视觉问答任务验证了所提出模型的有效性,并进行了大量的对比实验与分析。实验结果表明,通过与现有的多个基线模型和先进模型进行比较,该模型在GQA数据集上表现出了较为先进的性能,进而也证明了增强的视觉特征能够有效提高模型的整体性能。(2)针对模块化联合注意力机制堆叠模型,提出在图像的对象特征中加入每个对象对应的位置坐标信息,以此作为增强的视觉特征。相较于单独使用图像对象特征的情况,增强的视觉特征中包含了更为细粒度的信息,即对象的绝对位置信息,使模型在关注图像中的相关区域时更加准确。堆叠模型中包含了自注意力单元与指导注意力单元,对图像和文本实现了联合注意力学习。在VQA-v2数据集上对提出的改进模型进行视觉问答任务的实现,通过大量实验以及与相关的基线模型和先进模型的对比,结果证明了采用增强视觉特征的模型取得了较优的性能,再次充分验证了本文研究点的有效性。
其他文献
随着大数据时代的到来,利用大数据技术对大学生群体的研究越来越多,且智能移动终端在大学校园内的迅速普及,使得大学校园积累了大量基于位置的社交网络(Location-Based Socia
本文以防护结构抗射弹多发打击的军事需求为背景,针对超高分子量聚乙烯(UHMWPE)纤维混凝土开展了抗多发打击侵彻性能和机理研究,对于该种新型纤维混凝土的防护结构应用设计及
作为无人驾驶汽车实现过程中的基础算法,车辆检测算法已成为了研究热点。然而其面临的一个主要难题是:成像设备自身限制和道路环境影响往往导致车辆检测效果不尽完美。因此,
粒子滤波是一种适用于非线性、非高斯系统的滤波方法,它在各个领域中都发挥着不可替代的作用。但是,由于粒子滤波引入的重采样技术产生了粒子多样性匮乏的问题,使状态估计的
20世纪七八十年代,随着日本、德国等国经济飞速发展,美国世界霸主的地位面临挑战,联邦政府迫切需要通过改革使美国重新回到世界独尊的地位,教育改革成为美国促进社会发展、提
针对降雨入渗引起的暂态饱和土坡稳定性问题,考虑暂态饱和边坡重度、基质吸力以及暂态水压力的影响,分析了降雨入渗条件下暂态饱和边土坡失稳机制,总结归纳了暂态饱和区形式
超细纤维增强的气凝胶隔热材料由于兼具较好的力学性能和优异的高温隔热性能,在航空航天和军事领域有较大应用前景。本论文围绕高性能超细陶瓷隔热纤维开展了两部分工作。一
图像恢复和图像重建中的许多问题都可以表示为凸优化问题。为求解这些凸优化问题,在满足一定条件下,根据费马引理,通常可将其转化为单调包含问题。算子分裂算法是求解单调包含的一类重要迭代算法,包括向前向后算子分裂算法,Douglas-Rachford算子分裂算法和Tseng算子分裂算法等。特别,预解是研究各种算子分裂算法的基本概念,在这些算法中几乎都有预解的计算。但是对于某些组合算子的预解,它是不容易计算
宽禁带SiC以其优异的特性,成为制造超高压晶闸管的首选材料。SiC光触发晶闸管(LTT)因驱动电路简单、抗电磁干扰能力强,成为超高压、大电流的发展方向之一,放大门极结构是降低
随着加权分数傅里叶变换(Weightedtype Fractional Fourier Transform,WFRFT)在未来混合载波通信领域的更广泛应用,一种新的混合载波通信体制逐步建立与普及。对于一个新的载