基于行为语义理解的多模态视觉问答方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：ary015

【摘要】

：

【作者】

：

练佳威

【出处】

：

哈尔滨工业大学

【发表日期】

：

2020年02期

【关键词】

：

注意力机制行为语义理解多模态视觉问答方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人类感知世界是多模态的,如图像、声音、气味等。为了更高效地获取信息,人们希望计算机也能够理解与处理多模态数据。其中视觉问答是一个热门的多模态数据研究方向,它结合了视觉技术与自然语言处理技术,对输入的图片与问题给出相应答案,在安防、儿童教育等领域具有很好的应用前景。现有的多模态视觉问答方法应用场景过于广泛,没有根据不同的应用场景对图像数据做特定的语义信息理解。这些方法虽然能较好的区分不同场景类型的问题并给出相关的答案,但对于同一场景下的相关问题,准确率仍然不高。另一方面,现有方法对多模态数据的特征提取没有充分考虑视觉问答任务的特性,简单地在单模态数据上提取特征,特征表达能力不足,难以学习深层次语义信息。为解决现有多模态视觉问答方法的不足,本文提出了一种基于行为语义理解的多模态视觉问答方法。针对应用场景太宽泛问题,考虑到在现实应用场景下人们对图片的视觉问答往往是关于交互行为信息的,本文提出一种基于注意力机制的多分支行为语义信息抽取网络(ASI-Net),使模型更聚焦于学习交互行为信息。通过注意力机制进一步提取人、物体实例的周边信息,并融合人与物体实例对的空间信息检测图片中的交互行为,实现行为语义信息抽取。为解决现有视觉问答方法对多模态数据特征表达能力不足的问题,本文提出一种双向注意力机制特征提取方法。首先模型自动检测图片目标实例并提取相应位置上的特征,然后由问题引导动态地赋予不同目标实例特征不同的权重,提升模型对多模态数据的特征表达能力,以学习更丰富的语义信息。上述行为语义信息抽取网络和双向注意力机制特征提取方法都是为了提升视觉问答方法的效果。本文将行为语义信息抽取网络和多模态数据特征提取网络进行融合,实现基于行为语义理解的多模态视觉问答模型(ASM-Net)。通过实验表明,本文提出的基于行为语义理解的多模态视觉问答方法在开放域问答上的准确率达到70.13%,高于主流的视觉问答方法,在与交互行为相关问答上的准确率超过现有模型2.18个百分点。

其他文献

珍惜“熟人”的6条法则

常言道，找熟人，拉关系。这里指的“熟人”是彼此比较熟悉．曾经打过交道，有一定关系的却又不是十分密切的人。在移动互联网时代．又该如何珍惜“熟人”这种资源呢？

期刊

以“四零原则”追求品质奥润顺达集团基于“零缺陷”的全面质量管理

"零缺陷"的概念由菲利浦·克劳士比在20世纪60年代初提出。同时期,菲根堡姆提出"全面质量管理"模式。奥润顺达集团作为节能门窗产业集团,秉持"以质量求生存、以信誉求发

期刊

零缺陷全面质量管理售后服务零容忍

NRAGE在类风湿性关节炎中的作用初步研究

类风湿性关节炎(Rheumatoid Artlhritis,RA)是一种以关节慢性炎症、滑膜组织增生和软骨、骨的侵蚀性破坏为主要表现的全身性疾病,具有较高的发病率和致残率。因其病因和发病

学位

NRAGE基因敲除小鼠类风湿性关节炎CIACAIA

基于深度学习的视觉问答系统研究

卷积神经网络在计算机视觉领域取得了突破性的进展,而神经网络语言模型和循环神经网络相关的算法的发展又推动了自然语言处理领域的进步。随着目标识别,神经网络翻译模型等相

学位

深度学习视觉问答系统卷积神经网络循环神经网络

倾听心声:谈音乐鉴赏为上海图书馆音乐鉴赏讲座而作

我们为何聆听音乐？或者说，我们为何需要音乐？乍一看，这个问题似乎不值得询问。听音乐，只要揿下开关，打开CD机（或者MP3，或者电脑，等等）即可，干吗还要费神去深究其中的道理呢？一旦美妙的乐

期刊

上海图书馆作曲家

ZIFs衍生碳纳米复合材料设计、制备及其电催化氧还原性能研究

氧还原反应（oxygen reduction reaction,ORR）是金属-空气电池阴极上的重要反应。商业化贵金属催化剂Pt/C虽然具有优异的催化性能,但是仍然具有价格高、储量低及稳定性差的特点,

学位

ZIFs衍生碳材料二维材料多孔碳材料ORR电催化剂

海南五指山国家级自然保护区石松类和蕨类植物多样性研究

五指山国家级自然保护区位于海南岛中南部腹地山区,其石松类和蕨类植物区系和生态特征目前尚未系统研究。在野外路线调查、标本鉴定和文献整理的基础上,对其石松类和蕨类区系

学位

石松类蕨类植物区系物种多样性生态位新记录海南五指山

黄龙汤对脓毒症大鼠肠道黏膜免疫屏障保护作用

目的:探讨中药黄龙汤对脓毒症大鼠免疫功能的保护作用及机制。方法:将55只Wistar大鼠按随机数字表法分为假手术组(10只)、模型组(15只)、西药治疗组(15只)和中西药联合治疗组

期刊

黄龙汤脓毒症免疫功能

上市寿险公司转型观察

中国寿险业正处在从初级阶段迈向起飞阶段的转型关键期，面对“怎么转”的行业性命题，以上市寿险公司为代表，探索转型发展新逻辑，切换转型发展新动能，构建转型发展新模式。$$中国人

报纸

文拉法辛缓释片联合天麻素治疗脑卒中后抑郁的疗效观察

目的探讨文拉法辛缓释片联合天麻素治疗脑卒中后抑郁的临床疗效。方法 80例脑卒中后抑郁患者按随机数字表法分为治疗组(40例,给予文拉法辛缓释片联合天麻素治疗)和对照组(40

期刊

脑血管意外抑郁文拉法辛缓释片天麻素

基于行为语义理解的多模态视觉问答方法

其他学术论文