论文部分内容阅读
知识图谱技术的推广与应用,给相关领域带来了新的研究方向与挑战。目前油气勘探开发领域的知识图谱正处于起步阶段,需要大量该领域的知识提供支持,这些知识主要来源于油气勘探开发文档,然而还没有一套完善的方法和系统,能自动地从这些文档中提取知识。如何从非结构化的文档中大规模地自动提取知识已经成为研究油气勘探开发知识图谱的首要任务(知识主要指油气勘探开发领域的实体和关系)。为了准确地提取油气勘探开发领域的知识,本文从三个方面研究了油气勘探开发文档的语义分析及提取方法,分别是油气勘探开发文档的信息提取、油气勘探开发文档的命名实体识别以及油气勘探开发文档的实体关系提取。其中,在文档的信息提取部分设计了一种基于规则和SVM相结合的文档信息提取方法,并通过对比实验证明了该方法的效果;在文档的命名实体识别部分,针对油气勘探开发领域的特点,编制出合适的规则和词典去优化机器学习训练的命名实体识别模型,更好地提升了油气勘探开发领域命名实体识别的效果;在文档的实体关系提取部分,采用模式和远监督相结合的关系提取方法,有效地提取了大量的油气勘探开发领域的实体关系。通过对三部分研究的整合,提出并实现了油气勘探开发文档的语义分析及提取方法。实验表明,该方法能够较好地从油气勘探开发文档中自动提取大量的油气勘探开发知识。