论文部分内容阅读
生物医学实体关系是生物医学知识获取的基石,也是复杂生化网络构建中的必要组成部分。随着生物技术和信息技术的快速发展,生物医学领域的实体关系抽取已逐渐成为跨学科研究的热点。如何从海量文本中快速、准确地抽取出人们感兴趣的生物医学实体关系对于生物医学的发展具有重要意义。本课题选择当下最为热点的化学物与疾病之间的文档级关系抽取问题进行研究,旨在充分利用生物医学文献资源,抽取出具有高度价值的生物医学信息,以期更好地服务于生物医学领域的研究、生产和实践工作。本文的主要研究内容包括:1.针对生物医学文献中化学物与疾病间的文档级实体关系抽取问题,本文提出一种基于上下位过滤与层次化特征提取的关系抽取方法,并发布了相关实验平台。本文首先将文档级的实体关系分解为句内关系和句间关系两个层次,进而采用词汇、词性、句法等多种语言学特征对不同层次的实体关系分别进行抽取;在抽取出不同层次的实体关系后,本文将所得结果进行融合,以获得最终的文档级实体关系抽取结果。在实体关系抽取的过程中,本文提出一种上下位过滤方法以解决实体间复杂的语义包含现象,从而保证关系抽取结果的准确性。实验结果表明基于上下位过滤与层次化特征提取的关系抽取方法对生物医学文献中的文档级实体关系具有良好的抽取效果。2.针对文本中实体关系的表示问题,本文进一步提出一种基于上下文与依存表示模型的关系抽取方法。本文重点针对句内关系抽取问题进行了改进。在进行句内关系抽取时,本文提出将实体间的上下文信息与依存信息相结合,利用深度学习中的卷积神经网络对其进行抽象的语义表示,以捕获实体关系更深层次的抽象特征,从而提升关系抽取的效果。实验结果表明,基于上下文与依存表示模型的关系抽取方法可以显著提高文档级实体关系的抽取性能。3.针对语料库中训练数据不足的问题,本文提出一种基于远程监督学习的关系抽取方法。本文首先将数据库中已有的知识通过实体对齐方式从文本中自动构建出大量训练实例,然后利用这些实例训练关系抽取模型,并对句内关系和句间关系分别进行抽取。在句间关系抽取层面,本文提出一种基于栈式自编码器的神经网络关系抽取模型。在句内关系抽取层面,本文提出一种基于注意力机制的循环神经网络关系抽取模型,并在关系抽取过程中结合了多种关系实例的语义信息,充分考量了不同关系实例的重要性程度。实验结果表明,基于远程监督学习的关系抽取方法在面对文档级的生物医学实体关系时,具有良好的抽取效果,可以达到当前最为先进的关系抽取水平。综上所述,本文致力于面向生物医学领域的实体关系抽取研究,希望通过提出行之有效的实例表示和生成方法来提高实体关系抽取的性能,从而协助推动生物医学领域信息抽取技术的进步。期待本文所取得的初步成果能够对该领域的相关研究提供一定的参考价值,从而促进生物医学领域自然语言深层理解技术的发展。