数据库自然查询语言的研究及应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ShakeBabyYTT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设计数据库自然查询语言接口,已成为自然语言研究中最具有广泛应用前景的方向之一。 本文主要对受限的数据库自然查询语言进行研究。通过自然语言的相关技术将受限的数据库查询语句翻译成机器可识别的SQL语句,最终实现数据库的查询。本文将关键的技术分为了五个模块,分别是分词模块、数据库语义标注模块、语法分析模块、ER图中找连接路径模块、语义依存树生成SQL语句模块。 其中分词模块所用算法思路是先将所有可能的分词情况找出来,再将这些词中相邻的词汇作为节点,将两个相邻节点用边连接起来,通过查找二叉词典为边赋上权值,这样就形成了一个带有权值的图。图中边的权值代表了词汇之间的耦合程度,耦合度越低证明两个词的独立性越强,两个词重新组词的几率就越小,当前分词正确率就越高。因此分词的问题就转化为找出该图的最短路径。用Dijkstra算法即可解决。 第二个模块是数据库语义标注模块,数据库语义即是将数据库的对象分为实体词,属性词,通用词等8大类,并将其按照一定的格式存储在词典中,通过查找词典对分好的词选择适当的数据库对象进行标注。 语法分析模块是利用语法依存树的特点对查询语句进行语法分析。语法依存树的特点可以更好的体现汉语语法的灵活性,便于查询语句的语法分析。 ER图中找连接路径模块的主要的作用是用来找出SQL的条件子句(where子句)后面的实体连接条件,可以智能的推测出用户的意思。 最后一个模块是语义依存树生成SQL语句模块,在这个模块中,将语义依存树划分为若干的语义块,将每一个语义块的目标对象(O),表集(T)和条件(C)提取出来,保存在该语义块中。再对每一个语义块进行递归的合并,最终形成整个语义依存树的目标对象(O),表集(T)和条件(C),最后在简单的合并,即可形成语义依存树的SQL语句。 按照上述的理论,实现了基于自然查询语言的数据库搜索系统,并在此系统的基础上做了大量的实验。实验结果表明,在受限的自然查询语句的识别上,系统表现良好。而且系统具有易扩充性。对于其他领域的数据库,只需要增加专业词典而无需修改程序即可实现不同领域的数据库的查询。
其他文献
近些年来,以规则引擎为核心的业务规则管理系统得到了很大的发展,但规则引擎服务器的效率始终处于一个比较低的水平。造成这一结果的原因有很多,其中规则引擎工作存储器中大量无
体育比赛中的精彩场面往往稍纵即逝,电视节目的制作者们常以慢镜头回放的形式展现精彩时刻给观众,这种方式可以在时间上,却不能在空间上满足观众的视觉需求,因为拍摄画面的摄像机
GD包装机是德国GD公司生产的专利产品,其在机械传动和电气控制方面的技术都达到了相当高的水平,小包烟支检测器是其至关重要的配件之一。当机器运行时,排列完整的20支烟随着模盒
图像是人们获取外界信息的重要媒介。尤其是在当今这个大数据的时代,图像对于人们的日常生活、科学研究都有着十分重要的作用。然而图像在记录和传播中难免会受到许多因素的
伴随着因特网技术的快速发展,因特网上的信息资源以惊人的速度不断增长。在对这些海量的信息进行检索的过程中,传统的Web搜索引擎越来越无法满足人们的需要。在这种情况下,各类
近年来,随着数字视频应用的日益广泛,图像压缩标准也在不断的提高和完善中。为此,国际标准化组织(ISO)和国际电信联盟(ITU)提出了一系列视频编码的国际标准。其中最为引人注目的
H.264/AVC是ITU-T和ISO/IEC联合推出的新一代视频压缩编码标准。与以往的视频编码标准相比,H.264/AVC的显著优点是压缩效率高、图像质量好、网络性能好,适用于交互和非交互应
随着互联网技术的不断发展,在线社交网络已逐渐成为互联网中最流行的交流平台。社交网络中的用户可以相互结识并分享传播各种信息。社交网络中的海量用户及用户发布的信息具有
人脸检测是模式识别和计算机视觉等领域中重要的研究课题,也是人脸信息处理领域的一项关键技术,在自动人脸识别系统、视频监控、基于内容的图像检索等领域的研究中发挥着重要
近年来我国国防实力得到很大增强,武器种类越来越丰富,作战方式越来越多样化,使军事仿真训练也变得越来越复杂,从而对军事仿真系统提出了进一步的要求,国家对于拥有我国自主