基于行为语义理解的多模态视觉问答方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ary015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类感知世界是多模态的,如图像、声音、气味等。为了更高效地获取信息,人们希望计算机也能够理解与处理多模态数据。其中视觉问答是一个热门的多模态数据研究方向,它结合了视觉技术与自然语言处理技术,对输入的图片与问题给出相应答案,在安防、儿童教育等领域具有很好的应用前景。现有的多模态视觉问答方法应用场景过于广泛,没有根据不同的应用场景对图像数据做特定的语义信息理解。这些方法虽然能较好的区分不同场景类型的问题并给出相关的答案,但对于同一场景下的相关问题,准确率仍然不高。另一方面,现有方法对多模态数据的特征提取没有充分考虑视觉问答任务的特性,简单地在单模态数据上提取特征,特征表达能力不足,难以学习深层次语义信息。为解决现有多模态视觉问答方法的不足,本文提出了一种基于行为语义理解的多模态视觉问答方法。针对应用场景太宽泛问题,考虑到在现实应用场景下人们对图片的视觉问答往往是关于交互行为信息的,本文提出一种基于注意力机制的多分支行为语义信息抽取网络(ASI-Net),使模型更聚焦于学习交互行为信息。通过注意力机制进一步提取人、物体实例的周边信息,并融合人与物体实例对的空间信息检测图片中的交互行为,实现行为语义信息抽取。为解决现有视觉问答方法对多模态数据特征表达能力不足的问题,本文提出一种双向注意力机制特征提取方法。首先模型自动检测图片目标实例并提取相应位置上的特征,然后由问题引导动态地赋予不同目标实例特征不同的权重,提升模型对多模态数据的特征表达能力,以学习更丰富的语义信息。上述行为语义信息抽取网络和双向注意力机制特征提取方法都是为了提升视觉问答方法的效果。本文将行为语义信息抽取网络和多模态数据特征提取网络进行融合,实现基于行为语义理解的多模态视觉问答模型(ASM-Net)。通过实验表明,本文提出的基于行为语义理解的多模态视觉问答方法在开放域问答上的准确率达到70.13%,高于主流的视觉问答方法,在与交互行为相关问答上的准确率超过现有模型2.18个百分点。
其他文献
常言道,找熟人,拉关系。这里指的“熟人”是彼此比较熟悉.曾经打过交道,有一定关系的却又不是十分密切的人。在移动互联网时代.又该如何珍惜“熟人”这种资源呢?
期刊
"零缺陷"的概念由菲利浦·克劳士比在20世纪60年代初提出。同时期,菲根堡姆提出"全面质量管理"模式。奥润顺达集团作为节能门窗产业集团,秉持"以质量求生存、以信誉求发
类风湿性关节炎(Rheumatoid Artlhritis,RA)是一种以关节慢性炎症、滑膜组织增生和软骨、骨的侵蚀性破坏为主要表现的全身性疾病,具有较高的发病率和致残率。因其病因和发病
卷积神经网络在计算机视觉领域取得了突破性的进展,而神经网络语言模型和循环神经网络相关的算法的发展又推动了自然语言处理领域的进步。随着目标识别,神经网络翻译模型等相
我们为何聆听音乐?或者说,我们为何需要音乐?乍一看,这个问题似乎不值得询问。听音乐,只要揿下开关,打开CD机(或者MP3,或者电脑,等等)即可,干吗还要费神去深究其中的道理呢?一旦美妙的乐
氧还原反应(oxygen reduction reaction,ORR)是金属-空气电池阴极上的重要反应。商业化贵金属催化剂Pt/C虽然具有优异的催化性能,但是仍然具有价格高、储量低及稳定性差的特点,
五指山国家级自然保护区位于海南岛中南部腹地山区,其石松类和蕨类植物区系和生态特征目前尚未系统研究。在野外路线调查、标本鉴定和文献整理的基础上,对其石松类和蕨类区系
目的:探讨中药黄龙汤对脓毒症大鼠免疫功能的保护作用及机制。方法:将55只Wistar大鼠按随机数字表法分为假手术组(10只)、模型组(15只)、西药治疗组(15只)和中西药联合治疗组
中国寿险业正处在从初级阶段迈向起飞阶段的转型关键期,面对“怎么转”的行业性命题,以上市寿险公司为代表,探索转型发展新逻辑,切换转型发展新动能,构建转型发展新模式。$$中国人
报纸
目的探讨文拉法辛缓释片联合天麻素治疗脑卒中后抑郁的临床疗效。方法 80例脑卒中后抑郁患者按随机数字表法分为治疗组(40例,给予文拉法辛缓释片联合天麻素治疗)和对照组(40