论文部分内容阅读
随着互联网的快速发展使得网络中数据的数量急剧膨胀,这带来了珍贵的数据财富。但由于大多数的网络数据为冗余数据,不具有重大价值,这为信息抽取任务带来了极大的挑战。实体抽取作为信息抽取任务中最重要的一步因此其研究具有重要的理论意义和应用价值。网络中的数据类型随着网络地发展变得更加丰富,而传统的实体抽取方法只能从单一模态入手,不能同时考虑多种模态之间的联系,所以传统地实体抽取方法在跨模态数据中表现不佳。为了完成跨模态实体抽取,本文充分利用深度神经网络研究结合图像的文本模态实体抽取方法。本论文在调研已有的研究基础上提出了文本模态实体抽取的改进方法和结合图像的文本模态实体抽取方法;本文进一步搭建了实体抽取系统,为相关研究提供应用支撑。本论文主要工作如下:(1)文本模态实体抽取方法研究。针对现有的文本模态实体抽取方法,提出了改进方案,用以提升实体抽取的性能。在双向长短记忆网络的基础上,加入了注意力机制改进实体抽取模型。加入的注意力机制可以通过赋予不同词在网络中训练的权重,标明不同神经元之间的强弱关系,改善网络处理长文本的能力。实验证明改进了的文本模态实体抽取方法较未改进方法的效果有一定提升。(2)结合图像的文本模态实体抽取方法。为有效地从一段文字对应一张图片的跨模态数据中抽取实体,研究设计结合图像的文本模态实体抽取方法,实现了跨模态实体抽取模型,该方法先将图像转换为特征向量,再将图像的特征向量作为长短时记忆网络的初始步骤,与后续输入的文本信息进行融合,从融合的数据中抽取实体,最后通过该方法实现跨模态实体抽取模型。图像模态信息与原有的文本模态信息在语义表达上能够相互补充,提升实体抽取在跨模态数据中的效果。经实验证明,跨模态实体抽取模型在跨模态数据中的表现比未融合图像信息的方法有所提高。(3)实体抽取系统。实体抽取是众多人工智能任务的基础,为实现实体抽取方法的应用,本文构建了一个实体抽取系统。该系统是一个实体识别展示平台,通过该平台能够实现从文本模态数据或者跨模态数据中抽取实体,用户可以根据自己的需求选取实体抽取的方法。该平台还使用目标检测、网络爬虫与文本相似度计算的技术对跨模态实体抽取应用进行扩展,直观地表现出图像模态的信息对于跨模态实体抽取的重要性。