论文部分内容阅读
随着计算机技术与因特网的迅速发展,人们愈来愈多的借助搜索引擎来查询网络上的各种信息,然而搜索引擎存在很多弊端,首先,它返回给用户大量相关和无关的网页,用户需要从这些网页中进一步的筛选信息;其次,几个关键字的组合很难清楚的表达用户检索意图,同时,基于关键字的索引,匹配算法不涉及语义,很难提高检索的效果。因此,探索更人性化、更高效的搜索引擎具有十分重要的意义。而问答系统是集知识表示、信息检索和自然语言处理为一体的,能更好的满足用户的检索需求,已经成为新的研究热点。另一方面,网络技术的发展使远程教育被越来越多的人接受,远程教学突出的特点是时空的分离,教师与学生之间缺乏有效的沟通。智能问答系统结合自然语言处理技术能对用户自然语言形式的提问进行理解,并给出简洁、明确的回答,能够很好的解决远程教学中学生的答疑问题。目前,基于自然语言理解的中文问答系统很少而且准确率都不高,主要困难在于知识库的构建和计算机对用户问句的语义理解。本文研究的问答系统是基于本体知识库和句型模板的。首先,论文以本体技术为基础构建了领域本体知识库,在本体构建中利用Tbox中已有的概念和关系定义了抽象概念,抽象概念的定义克服了对复杂概念进行表示的困难,能满足用户对概念定义与特征的提问;其次,论文选用基于语义块的句型模板匹配方法,在句型模板的定义时,新增了同义语义模板,定义了主题语义块、特征语义块、疑问语义块、辅助语义块,并制定了用户问句的语义块识别规则,提出了句型模板相似度计算方法;然后,设计了基于本知识库和句型模板的问答系统模型,该模型在问句理解、本体知识库等方面进行了改进,在很大程度上提高了问答系统的准确率;最后利用该模型实现了面向《大学计算机基础》的问答系统。论文主要做了以下几个方面的工作:一、系统阐述问答系统基础知识。分析了问答系统的国内外的研究现状,以及问答系统的内涵、研究的主要内容,并探讨了中文自动问答系统研究的难点。根据本论文的研究方向,着重介绍了本体和领域知识库的主要内容,以及相关的汉语语言处理技术,包括现有的分词算法和问句理解方法等。二、构建基于本体的知识库。本体知识库有利于知识的组织、管理、维护以及实现语义查询和推理。论文在本体构建方面的最大特点是定义了基于特殊关系的抽象概念,抽象概念是利用Tbox中已有的概念和关系进行定义的,它能清晰的表达复杂概念,更好的满足了用户的提问。论文中介绍了常用的本体构建方法,通过比较这些方法的特点,我们选择知识工程方法构建了《大学计算机基础》领域本体知识库。三、理解用户问句语义。本论文采用基于语义块句型模板匹配方法,在定义句型模板的结构时,新增了同义语义模板,定义了主题语义块、特征语义块、疑问语义块、辅助语义块,其中只有主题语义块和特征语义块对用户问句的语义特征有影响,结合论文语义块的定义的特点,制定了语义块识别规则。在用户问句模板与句型模板库中模板匹配时,提出了模板相似度计算,在很大程度上提高了提取用户问句语义特征的成功率,放宽了匹配尺度,尽可能的回答用户的提问。四、基于本体知识库和句型模板的问答系统的设计与实现。本文设计的问答系统模型,在问句理解、本体知识库等方面进行了改进,系统是由前台的自然语言界面和后台的领域本体知识库构成。自然语言理解界面主要是获取用户的问句,并采用我们基于语义块的句型模板匹配算法获取用户提问的语义;对后台领域本体知识库的主要操作是查询和推理,获得了问句的准确语义后,根据不同的语义信息采用相应的查询形式对本体知识库进行查询与推理,将查询到的结果重新组织,并返回给用户。最后利用该模型实现了面向《大学计算机基础》的问答系统,该系统不仅能对实例进行查询,还能回答对概念定义与特征的提问,可以很好的应用于教学领域,实现对学生问题的答疑。