基于本体的中文问答系统中问句的语义理解

来源 :广西师范大学 | 被引量 : 5次 | 上传用户:abwyn12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网所承载的信息量日益增大,如何在互联网上快速高效的找到用户所需要的数据是互联网发展的方向。结构化数据的存储为海量信息的查找提供了途径,因而出现了越来越多的知识库、本体库。运用这些海量的知识,特别是领域类的专业知识,能有针对性地回答用户的问题。知识库通常采用RDF三元组的形式存储,要利用这些海量的数据,就需要专业的查询语句。而用户输入的是自然语言的问句,需要在理解用户问句的基础上得到相应的查询语句。问句的理解与分析不仅是问答系统的第一步,其句意分析的好坏更是直接影响到问答系统答案的优劣。从问答系统的处理流程来看,一般包括三个子系统:问题理解子系统、信息检索子系统和答案抽取子系统。问题理解子系统主要对用户输入的自然语言提问进行分析和分类,同时提取用户的提问意图,并以某种形式来表示该语义信息;信息检索子系统根据问题理解部分提供的结果进行检索,找到包含正确的知识表示或是找到可能包含答案的范围;答案抽取子系统的主要工作是对检索的结果进行过滤,并按照自然语言生成算法,将检索到的知识表示生成精确的问题答句,而后将答案返回给用户。本论文在对问句进行预处理后,对问句的句法分析树进行语义查询图的构造,目的是将自然语言问句构造成为机器可以理解的SPARQL查询语句,实现对本体知识库的查询。论文研究的主要内容:(1)构建领域本体库。本文使用OWL2本体描述语言,利用本体可视化工具Protege构建桂林旅游领域本体。(2)对自然语言描述的问句进行预处理。进行分词、命名实体识别和句法分析处理,在分词模块中加入桂林旅游领域的词表进行分词,提高分词的准确率;再进行句法分析获得句法分析树。(3)构造句法分析树的查询语义图。构造语义图的目的是为了从句法分析树中提取出句子的主体部分,以便使用SPARQL语句构造查询语句。本文将名词构造成节点,动词构造成边,介词用来限定实体的属性,查询语义图就是一张用来描述用户查询中实体关系的图,其中包含了实体,实体间关系以及实体的方向性属性。(4)查询语义图与领域本体的映射。语义图中的点映射到本体库中的实体,边映射到本体库中的关系,生成SPARQL查询语句。当语义图中的点或边在本体库中不存在时,利用《同义词词林》对不存在的点或边进行扩充,对扩充后的候选集中的各个节点均生成一个SPARQL查询语句。
其他文献
工作流技术是一种对某个工作流程及流程间各个操作步骤的抽象、概括和描述。之所以要发展工作流技术,重要原因之一是工作流可以实现企业生产的自动化,当满足给出的约束规则等条
基因表达数据反映的是直接或者间接测量得到的多个不同基因在多个不同条件下的表达水平,通过对这些数据的分析可以发现哪些基因的表达发生了改变,基因之间有何相关性以及在不
随着互联网和电子商务的迅速发展,如何将合适的产品和服务推荐给用户,成为了信息时代最具挑战性的问题之一。个性化推荐系统在这信息爆炸的时代应运而生,它能主动的预测到用户的
随着电力工业的发展,变电站的数字化、信息化的要求越发迫切,数字化变电站成为了变电站自动化系统的发展方向,在变电站在线监测系统中,数字化变电站网络通信也显得尤为重要。本文
自20世纪末以来,虚拟现实技术一直是信息领域研究、开发和应用的热点方向之一。它借助计算机构建出一个与现实环境十分逼真的虚拟环境,而且支持用户使用自然的技能亲身感受它
随着移动互联网、物联网等新兴领域的蓬勃发展,人类社会正逐步从大数据时代向移动大数据时代演进。据统计,全球移动手机占有率预计2020年达到28亿,随之产生的移动数据规模以
微博作为一个新兴的社交媒体服务,从各个方面渗透并影响着人们的生活,成为人们共享信息、交流情感的一个重要平台。其中大部分的个人微博内容记录其生活经历、专业兴趣以及热点
多目标跟踪是智能交通系统中最重要的模块,它是实现交通监控智能化和其他视觉领域实时应用的关键所在。传统跟踪方法通常限定在特定的场景设计,对于各种复杂环境的变化难以应
感知哈希算法是多媒体信息安全领域的一个新课题,已应用于多媒体检索、多媒体索引、数字水印、多媒体认证和拷贝检测等方面。从本质上而言,它是一种单向映射函数,可把任意的多媒
高光谱图像(HSI)的信息量巨大,导致数据的传输、存储及处理都有很大的困难,如何有效地减少数据量、降低数据维数是高光谱图像处理技术中的重要研究内容。本文采用波段选择的方