论文部分内容阅读
如何将大量的非结构化信息转换为人们易于理解的结构化信息,提取语义信息,已成为近年来研究的热点。实体的属性抽取方法,是将非结构化数据转换为结构化数据的一种重要手段,是自然语言处理任务的一个重要子任务。虽然,已经有不少的方法提出用来完成属性抽取任务,但是这些方法中仍然存在一些问题需要解决。本文针对这些方法中存在的问题进行深入研究,提出了一种基于长短期记忆网络的多实例多标签的算法,主要按照以下顺序展开工作:首先展示了属性抽取较为流行的几种方法,主要有基于规则的方法、有监督的和无监督的机器学习方法。这些方法存在对人工和其他自然语言处理工具依赖性过大,无法应用到目标关系,性能还有待提升等问题。针对上述问题,本文提出的方法使用远程监督的方式生成模型训练和测试所需要的样本,减少对人工的依赖。使用多实例多标签模型解决远程监督生成样本中的多实例多标签现象。多实例多标签模型利用带有隐变量的图模型建模一个实体对有多个实例,以及不同实例可能对应不同标签因而存在多个标签的问题。同时,使用深度学习的方法自动学习大量样本数据的内部规律。利用词向量作为模型需要的特征,能够表达词与词之间的相似性,减少对其它自然语言处理工具的依赖,防止错误的传播和累加。使用长短期记忆网络训练模型,充分利用了句子的时序信息,通过句子前后的上下文关系,学习了句子中存在的语法关系和语义关系。长短期记忆网络能够选择性的丢弃一些无用信息,而保留重要的有用信息,对于学习较长句子中的内在关系非常有效。此外,本文还利用了实体的类型信息,用来区分不同实体对的不同关系。本文用属性抽取较为常用的数据集,与目前比较流行的几个属性抽取模型进行对比实验。实验结果表明,与其它对比模型相比,本文提出的方法在几个重要评价指标上的表现更优。证明它在性能上有一定的提升,验证了它的有效性。最后,本文将属性算法应用到了 973跨媒体计算示范应用平台,构建了一个关于疾病的知识图谱。通过实践,验证了本文方法的实用性。