结合图像的文本模态实体抽取方法研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:shiyiyiyiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展使得网络中数据的数量急剧膨胀,这带来了珍贵的数据财富。但由于大多数的网络数据为冗余数据,不具有重大价值,这为信息抽取任务带来了极大的挑战。实体抽取作为信息抽取任务中最重要的一步因此其研究具有重要的理论意义和应用价值。网络中的数据类型随着网络地发展变得更加丰富,而传统的实体抽取方法只能从单一模态入手,不能同时考虑多种模态之间的联系,所以传统地实体抽取方法在跨模态数据中表现不佳。为了完成跨模态实体抽取,本文充分利用深度神经网络研究结合图像的文本模态实体抽取方法。本论文在调研已有的研究基础上提出了文本模态实体抽取的改进方法和结合图像的文本模态实体抽取方法;本文进一步搭建了实体抽取系统,为相关研究提供应用支撑。本论文主要工作如下:(1)文本模态实体抽取方法研究。针对现有的文本模态实体抽取方法,提出了改进方案,用以提升实体抽取的性能。在双向长短记忆网络的基础上,加入了注意力机制改进实体抽取模型。加入的注意力机制可以通过赋予不同词在网络中训练的权重,标明不同神经元之间的强弱关系,改善网络处理长文本的能力。实验证明改进了的文本模态实体抽取方法较未改进方法的效果有一定提升。(2)结合图像的文本模态实体抽取方法。为有效地从一段文字对应一张图片的跨模态数据中抽取实体,研究设计结合图像的文本模态实体抽取方法,实现了跨模态实体抽取模型,该方法先将图像转换为特征向量,再将图像的特征向量作为长短时记忆网络的初始步骤,与后续输入的文本信息进行融合,从融合的数据中抽取实体,最后通过该方法实现跨模态实体抽取模型。图像模态信息与原有的文本模态信息在语义表达上能够相互补充,提升实体抽取在跨模态数据中的效果。经实验证明,跨模态实体抽取模型在跨模态数据中的表现比未融合图像信息的方法有所提高。(3)实体抽取系统。实体抽取是众多人工智能任务的基础,为实现实体抽取方法的应用,本文构建了一个实体抽取系统。该系统是一个实体识别展示平台,通过该平台能够实现从文本模态数据或者跨模态数据中抽取实体,用户可以根据自己的需求选取实体抽取的方法。该平台还使用目标检测、网络爬虫与文本相似度计算的技术对跨模态实体抽取应用进行扩展,直观地表现出图像模态的信息对于跨模态实体抽取的重要性。
其他文献
蛇鮈属东亚地区特有鱼类,广泛分布于我国各主要水系,是嘉陵江流域主要的经济鱼类之一。本文以嘉陵江蛇鮈为研究对象,采用相关性分析、t检验和segmented分析等方法,描述了蛇鮈
光学成像系统对雾、霾等恶劣天气较敏感。受大气中水分子等微小颗粒对光线的吸收和散射影响,在这些条件下获取的图像对比度、颜色饱和度和可见度大大降低,严重影响了图像在计
本文采用国标法对雅安市栗子坪自然保护区中的峨热竹被大熊猫采食后其粗蛋白、粗脂肪、粗灰分等营养成分进行分析,探究大熊猫采食对峨热竹各构件器官的营养成分积累的影响,从
行人再识别是指给定一张行人图片,检索跨监控设备下包含该行人的其他图片,可应用在火车站、医院、银行等人流量较大地点或者重点安防场所,用来识别逃犯、寻找被拐卖儿童等。
随着绿色合成化学的不断发展,绿色经济地实现有机分子官能团的转化以及合成功能性有机化合物提供新的研究日益得到人们的关注。本论文基于上述理念,主要开展了以下工作。1.鉴
随着人们生活水平的提高和生育观念的转变,安全套的需求量与日俱增,2019年上半年安全套年产量已接近60亿只,据国家GB/T 7544-2019要求每只必须强制检测。目前,安全套的出厂检
竹柏作为具有树形优美、适应性强的优质裸子植物树种,具有较高的研究价值。本文研究了不同施肥效益对竹柏3年生优质幼苗生长特性的影响,旨在探寻不同的施肥管理措施,为竹柏科
本论文首先列举并分析了国内外对矢量光束产生、应用、紧聚焦特性等方面的研究进展,总结了各研究成果的突出优势和不足之处,并分析了在激光探测领域接收端与信号同频的噪声不
Konnov对向量变分不等式(VVI)问题提出了标量化方法,我们利用这种标量化方法对一般的强变分不等式(SVI)和弱变分不等式(WVI)做了进一步探讨和推广,其中介绍了强广义混合向量
颅面复原是一项依据人的颅骨恢复其对应面部相貌的研究,在公安法医学、考古学、医学整形等诸多领域有着普遍应用。为了达到降低模型中样本数据维度,同时提高复原精度的目的,