论文部分内容阅读
随着互联网的飞速发展,如何在海量的数据中快速地检索到人们所想要的信息,是现在乃至未来Web发展的方向。准确理解用户的自然语言问句进而在Web数据或在知识图谱中进行检索,是下一代智能搜索引擎的核心组成部分之一。本文针对搜索引擎或者问答系统领域中的问句语义理解问题,设计了一种基于知识图谱的问句语义理解系统,该系统把用户的问句转化为与问句语义等价的结构化图数据库查询语句,然后通过该查询语句检索图数据存储的知识图谱,获得智能解答。本文的主要工作如下:为了从问句中抽取高质量的关键短语,本文提出了基于上下文特征和XGBoost的关键短语抽取方法。首先,借助含有丰富短语链接信息的百度百科构建短语词典,接着通过预先构建的短语词典提取每个问句中的候选短语,然后抓取短语丰富的上下文特征,如短语的统计特征:短语的短语稀有度特征等;短语的结构特征:短语的位置特征、短语的长度特征,短语的前置词特征、短语的后置词特征等;短语的句法特征:短语的前置词词性特征、短语的后置词词性特征等。来训练XGBoost分类器,利用训练好的分类器来抽取问句的关键短语。实验表明,本文提出的关键短语抽取方法提高了问句关键短语抽取的准确率。本文将问句的语义解析任务当做候选属性排序任务处理,基于深度学习方法设计并实现了基于传统的卷积神经网络的候选属性排序方法和基于Attentive Max-Pooling CNN的候选属性排序方法,其中基于Attentive Max-Pooling CNN的候选属性排序方法中改进的是卷积神经网络的池化层,在池化层中引入了简化的注意力机制,使得来自知识图谱中的属性信息影响到问句的分布式语义表示,并以此提高候选属性排序的准确率。