【摘 要】
:
复杂场景下多模态信息推理算法研究是人工智能领域研究热点之一,其结合了计算机视觉和自然语言处理两大研究方向,已成为学术界以及工业界关注的焦点。具体来说,给定一个场景(图片或视频),推理模型需要理解场景中复杂的多模态信息(物体和文本),然后生成一段符合该场景语义的文字描述,或者回答与该场景相关的问题。基于这个角度进行归类,复杂场景下的推理任务可以分为场景描述(Image Captioning)和视觉问
论文部分内容阅读
复杂场景下多模态信息推理算法研究是人工智能领域研究热点之一,其结合了计算机视觉和自然语言处理两大研究方向,已成为学术界以及工业界关注的焦点。具体来说,给定一个场景(图片或视频),推理模型需要理解场景中复杂的多模态信息(物体和文本),然后生成一段符合该场景语义的文字描述,或者回答与该场景相关的问题。基于这个角度进行归类,复杂场景下的推理任务可以分为场景描述(Image Captioning)和视觉问答(Visual Question Answering,VQA)。场景描述技术可用于电影自动字幕、帮助视觉障碍人士迅速了解周围环境等,视觉问答技术以交互式的方式帮助人类探索未知环境,可用于视觉导航和聊天机器人等。因此,研究并解决复杂场景下的推理任务,具有十分重要的现实意义,也是国内外众多企业和科研机构力图抢占的技术制高点。然而,解决复杂场景推理任务仍存在以下问题:1)现有模型普遍不具备“阅读”能力,往往忽略场景中的文本信息;2)场景中可能存在大量相互遮挡的物体,且这些物体往往带有丰富的文本信息,如何更好建模并利用场景多模态信息仍是未知的;3)现有推理模型倾向于针对场景中一两个显著物体进行描述,从而忽略掉一些重要的(或人们真正感兴趣的)物体和文本;4)难以正确理解问题中的复杂逻辑,并据此捕捉问题与场景多模态内容之间的关系。为了解决目前复杂场景推理算法研究在两个细分任务上所存在的问题与挑战,本文基于多模态注意力机制提出新的改进方案:1)针对场景描述任务,本文提出一个基于锚点图(anchor-centered graph)的描述生成方法;通过构造不同的锚点图,从多个角度更加全面地描述输入场景。2)针对视觉问答任务,本文采用级联式的推理方式,融合多模态信息时逐步考虑不同模态信息;融于场景语义理解,从冗余的复杂场景中提取回答问题的关键线索,排除其他无关信息的干扰。通过大量的实验证明,本文所提出的方法能有效解决场景描述任务和视觉问答任务,显著提升模型在复杂场景下的推理性能。
其他文献
纤维素是地球上含量最丰富的天然高分子碳水化合物,采用化学法、机械法或化学与机械相结合等方法可制备出尺度较小的微纳米纤维素(Micro-nano Cellulose Filaments),尤其是纳米纤维素具有较大的比表面积、高强度、高长径比和低热膨胀系数等特点,在食品、化妆、烟草、涂料和造纸等领域具有广泛的应用。本文以漂白针叶木浆为原料,通过羧甲基化预处理结合超声波处理的方法制备出具有高长径比的微纳
作为聚类分析的一大分支,子空间聚类由于其在高维数据条件下表现出的优异性能引起了国内外的广泛关注。而深度学习和子空间聚类理论的结合,则让这种通过将高维数据映射至低维子空间,获取自表达矩阵以进行谱聚类的算法在速度和准确性上提升到一个新高度。然而,当前的深度子空间聚类算法在准确性上仍有进步空间,其局限于理论本身所带来对数据量的限制,导致信息量缺失,影响了算法的泛化性和鲁棒性;此外,其无法良好学习原始高维
在软件产品呈现多样化的今天,软件规模与复杂度也随之提高,给软件测试与质量保证带来了新的挑战。软件缺陷预测通过历史代码模块构建缺陷预测模型,预测项目中潜在的缺陷模块,帮助开发者合理地分配有限的测试资源以及优化测试流程,为软件质量提供保障。传统的软件缺陷预测方法通过设计与源代码统计特性相关的软件度量作为缺陷预测模型的输入特征。然而这些手工软件度量存在不能充分地捕获源代码语法结构和语义信息的问题。此外,
目前临床上对于骨缺损的治疗主要仍为自体骨、异种或同种异体骨和人工合成的骨替代材料来进行移植。然而,对于自身本就有全身性慢性疾病比如糖尿病、甲状腺功能减退、慢性骨感染、恶性肿瘤、钙磷代谢紊乱以及骨质疏松症的人群来说,骨缺损的愈合就尤为困难。因此这就需要研究和开发能够负载相关药物的骨修复材料以满足临床需求。所以从生物安全性、良好的成骨性能以及局部药物长期释放的角度出发,本研究首先使用溶胶凝胶结合模板法
大量实际产品表面均具有某种天然/人工纹理模式。从局部视野来看,纹理模式可表现出复杂的像素灰度空间分布,导致如何从纹理背景中定位和分离出各种潜在缺陷成为一个具有挑战性的问题。同时,生产技术的进步及人工成本的升高使得从工业现场收集足量类型齐全的缺陷样本几乎不可行,意味着现有的有监督检测方法存在较大的局限性。为此,本文基于频谱分析及深度学习,探索了若干无监督纹理缺陷检测方法,具体研究内容如下:(1)针对
随着互联网信息技术的不断发展,互联网上的信息量呈现爆炸式增长。为了缓解信息过载问题,推荐系统的研究受到越来越多研究人员的关注,并应用到了现实生活中的很多场景中,比如:在线购物系统、在线多媒体系统以及搜索引擎等。社会化推荐系统是现代推荐系统中的重要研究方向之一,其研究内容是在结合用户与商品交互关系的基础上引入用户之间的社交关系,希望进一步提升用户偏好预测效果,并缓解数据稀疏问题。虽然近年来许多工作表
儿童玩具消费的增长给儿童家庭空间带来了一定的负担,儿童收纳习惯的培养日益受到了家长们的重视。学龄前期正是儿童认知和生活技能发展的黄金时期,学龄前儿童养成的玩具收纳习惯随着时间的推移,会逐渐延伸为对身边大小事物的收纳,甚至是精神上的归纳与整理,对儿童的未来大有益处。然而大多学龄前儿童并不具备主动收纳的执行能力,需要得到来自家长和收纳产品的引导。但很多家长无法有效引导儿童学习收纳,市场上现有的收纳产品
随着图像处理技术的发展,医学图像分割领域逐渐走向成熟。近年来,卷积神经网络的出现,涌出大量基于深度学习的医学图像分割方法,相比于传统的分割技术,基于深度学习的方法可以取得更好的分割效果。实现计算机辅助医生勾画器官已不再遥不可及。但带标注信息的医学数据稀缺,为器官分割网络模型的训练带来了一定的限制。为解决数据不足的问题,研究者将目光集中在数据增强、调整网络架构、设计网络模块等方面,较少利用同一解剖结
数字化电网是未来电网的发展目标,当下电力物联网和信息网通过万物互联和海量信息为电网数字化建立数据基础,通过5G技术初步发展所带来的效益可以预见,该技术在未来能够大幅提高数据通信能力,成为数据传输过程的重要辅助手段。而电气数据的数量和质量是上述新兴概念和技术的基础和重点。数量大、范围广、特征维度高、高频细节丰富的电气数据对于提高电网态势感知准确度、监控水平和辅助服务质量等业务场景具有重要意义。当下,