基于多重注意力机制和特征融合算法的视觉问答系统研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liongliong485
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答任务是一个结合计算机视觉研究与自然语言处理两个领域的前沿方向。视觉问答系统可根据问题语义,从与问题相匹配的图像中找寻有用信息对问题进行答案预测。视觉问答任务模型包含图像特征处理、文本特征处理、多模态特征融合和答案预测四个模块,其中图像特征处理和文本特征处理均属于特征提取的范畴。在当前的视觉问答研究中,如何进行特征提取、多模态特征融合以及注意力机制的改进一直都是研究的难点问题,故而本文将针对这三个问题展开探索与研究:1.基于Faster-RCNN目标检测算法的图像预处理模型。本文利用Faster-RCNN与Resnet101相结合的方式处理图像信息,Faster-RCNN用于识别属于类的对象实例,并使用边界框对它们进行定位,进而Resnet101模型对VQA v2数据集进行预处理,提取2048维图像特征向量,图像特征信息则以矩阵向量的文件形式参与到视觉问答模型的训练中。2.基于多模态特征融合的视觉问答模型研究。为了解决跨模态特征融合的问题,基于1的工作基础,本文采用预训练好的词向量工具和长短时记忆网络对文本特征进行表征,形成一个2048维的特征向量来表示问题。然后将2048维图像特征向量和2048维的问题特征向量输入多模态分解双线性池化特征融合算法模块中,生成融合特征。最后预测答案模块,以Soft Max为分类器进行答案预测输出。通过在VQA v2数据集上的实验结果证明了本文构建的视觉问答模型的合理性和科学性。3.基于多模态特征融合的多重注意力机制的视觉问答模型研究。为了加强模型语义信息和更准确的抓取图片特征信息,本文在基于2的工作基础上加入自注意力机制、引导注意力机制和多头注意力机制,构成基于多重注意力机制的视觉问答模型,旨在更好的捕捉图片及文本之间的相关语义信息,缩短多模态特征融合的鸿沟。实验结果表明多重注意力机制与多模态分解双线性池化的特征融合算法相结合的视觉问答模型具有较高的准确率,且优于先进模型。
其他文献
本文试图论述柏拉图《蒂迈欧篇》中的“容器”(Receptacle)概念,“容器”作为柏拉图的第三种东西(The third kind),使理念(模型)的影像呈现于其中,同时它被比喻为“母亲”而生成物理世界中的可感事物。“容器”在创造宇宙的第二个原因——必然性——中具有重要的地位,但“容器”却在文本中没有确定的定义。柏拉图认为它逃脱逻各斯的捕捉,它需要靠不纯粹的理智(bastard reasonin
传统的人工监测方式和红外感应方式的人流密度监控系统由于人力的巨大成本和技术精度低等种种弊端无法应用于更多场景已被市场逐渐淘汰。基于视频处理的人流密度监控系统虽然
随着脑机接口技术的发展,基于脑电的情绪识别受到了广大研究者的青睐和重视。脑电情绪识别的研究为人工智能领域的发展注入了新的活力。本文针对脑电信号中眼电伪迹去除和模
花生是国际广泛栽培种植的油料作物和经济作物,是油脂和蛋白质的主要来源。近年来,伴随人们物质条件的不断丰富,花生油的需求比重持续加大,花生产业蒸蒸日上。人们对健康重视程度的加强,也要求花生品种既要有高的含油量,又要有好的品质,脂肪酸则是影响花生品质和油脂营养的重要成分。因此如何增加花生油中有益脂肪酸的比重,是全世界花生品种改良的重点。对花生含油量、蛋白质和脂肪酸等品质性状的相关QTL加以分析,可作为
合理分布供电系统中的无功功率是一种保证系统安全、可靠以及经济运行的前提条件,同时,合理的分布无功功率也可以有效的降低系统有功功率损耗以及提升电压质量。因此,本文为
由于科技发展迅速,以及手机的普及,移动摄像头数量也随之剧增。通常大多数人都会采用简便快捷的拍照的方式对文档进行记录,因此会产生大量随意拍摄的文档图像。该类文档图像
伴随着一次次工业革命,中国制造业得到高速的发展,PCB行业作为电子信息产品制造的基础产业,在需求和产量大幅度提升的基础上,其内部的元件也相应的复杂化和多样化。一般的标
癌症作为全球高发病率和死亡率的疾病,亟需高效的诊断方法。癌症早期诊断一般需要参照肿瘤标志物的含量,因此,肿瘤标志物的检测对于癌症排查至关重要。近年来,涌现出许多检测
近年来,偏标记学习作为一类重要的弱监督学习框架,在目标检测和临床医学等多个邻域得到了广泛关注。在偏标签学习框架中,一个样本对应于一个候选标签集合,然而在候选标签集合
抗菌肽作为新型的潜在抗菌药物,在耐药问题日益严峻的今天引起了广泛关注。在对抗菌肽体外研究不断深入的同时,抗菌肽体内作用研究也逐渐成为关注重点。本研究第一部分对本组