论文部分内容阅读
随着互联网所承载的信息量日益增大,如何在互联网上快速高效的找到用户所需要的数据是互联网发展的方向。结构化数据的存储为海量信息的查找提供了途径,因而出现了越来越多的知识库、本体库。运用这些海量的知识,特别是领域类的专业知识,能有针对性地回答用户的问题。知识库通常采用RDF三元组的形式存储,要利用这些海量的数据,就需要专业的查询语句。而用户输入的是自然语言的问句,需要在理解用户问句的基础上得到相应的查询语句。问句的理解与分析不仅是问答系统的第一步,其句意分析的好坏更是直接影响到问答系统答案的优劣。从问答系统的处理流程来看,一般包括三个子系统:问题理解子系统、信息检索子系统和答案抽取子系统。问题理解子系统主要对用户输入的自然语言提问进行分析和分类,同时提取用户的提问意图,并以某种形式来表示该语义信息;信息检索子系统根据问题理解部分提供的结果进行检索,找到包含正确的知识表示或是找到可能包含答案的范围;答案抽取子系统的主要工作是对检索的结果进行过滤,并按照自然语言生成算法,将检索到的知识表示生成精确的问题答句,而后将答案返回给用户。本论文在对问句进行预处理后,对问句的句法分析树进行语义查询图的构造,目的是将自然语言问句构造成为机器可以理解的SPARQL查询语句,实现对本体知识库的查询。论文研究的主要内容:(1)构建领域本体库。本文使用OWL2本体描述语言,利用本体可视化工具Protege构建桂林旅游领域本体。(2)对自然语言描述的问句进行预处理。进行分词、命名实体识别和句法分析处理,在分词模块中加入桂林旅游领域的词表进行分词,提高分词的准确率;再进行句法分析获得句法分析树。(3)构造句法分析树的查询语义图。构造语义图的目的是为了从句法分析树中提取出句子的主体部分,以便使用SPARQL语句构造查询语句。本文将名词构造成节点,动词构造成边,介词用来限定实体的属性,查询语义图就是一张用来描述用户查询中实体关系的图,其中包含了实体,实体间关系以及实体的方向性属性。(4)查询语义图与领域本体的映射。语义图中的点映射到本体库中的实体,边映射到本体库中的关系,生成SPARQL查询语句。当语义图中的点或边在本体库中不存在时,利用《同义词词林》对不存在的点或边进行扩充,对扩充后的候选集中的各个节点均生成一个SPARQL查询语句。