论文部分内容阅读
数据库自然语言查询接口是人机接口的重要研究课题,它大大简化了人机交互的过程,使用户可以只以应用领域的概念访问数据库。它是人工智能与数据库技术相结合的产物,主要涉及到人工智能、自然语言处理、数据库系统、人机接口等多方面的研究。随着数据库应用及信息检索技术的广泛普及,对中文数据库自然语言查询接口的研究将具有重要的理论意义和巨大的实用价值。
由于中文语句的复杂性和多样性,如果我们不对输入的语句加以限制,就会为自然语言查询接口的实现带来困难。因此,基于受限汉语的概念和考虑到通用性,本文设计并实现了一个通用的基于受限汉语的中文数据库自然语言查询接口系统,并希望该系统具有良好的可用性和可移植性。
本文介绍了数据库自然语言查询接口的概念,提出了本课题的研究背景和研究现状。在对已有技术研究和总结的基础上,设计了一个通用的中文数据库自然语言查询接口模型,在设计上强调良好的可用性、可移植性、可适应性、鲁棒性和智能性。该接口主要包括知识库部分和汉语自然查询语言的计算机理解部分。在知识的表示和知识库的构造上,强调了语言知识,领域知识和数据库知识三者的融合,并对多种类型的知识进行了详细的语义划分,将数据库语义作为整个处理流程的关键。在语义分类的基础上,为各类知识设计合理的表示结构并建立语义词典,为系统的可移植性、可适应性提供了良好基础。
语言理解部分分为词法分析、词语义标注、句法分析、中间语言转SQL等几个相对独立的模块。
(1)词法分析部分使用了基于统计与基于数据库语义相结合的分词方法。基于统计的分词方法可以有效解决歧义切分和未登录词识别等问题。在基于统计的基础上,按照数据库概念和语义进行切分和标注,使得切分结果能正确对应到数据库模式上,并标注词汇的数据库语义类别,为后续处理打好基础。
(2)对分词和标注语义类别后的词汇,通过查找语义词典,赋予该词汇对应的数据库语义。对具有多个数据库语义的歧义词,通过相关语义确定方法、通用消歧规则等进行消歧。
(3)在对各种句法分析方法经过分析判断后,本文采用了基于数据库语义的依存文法分析模型进行句法分析,该模型定义了数据库语义依存关系并且描述了依存关系的判定规则。经过依存分析得到的语义依存树具有良好的向SQL查询进行转换的能力,我们直接将语义依存树作为中间语言并给出了语义依存树到SQL的转换算法。
最后基于上述接口系统,构建了两个实验性的查询系统,分别为教务信息查询系统和列车信息查询系统,用于验证本文实现的中文数据库自然语言查询接口的可行性。实验表明,该系统基本能够有效地处理各种常见形式的查询语句,具有良好的可用性和可移植性。