论文部分内容阅读
数据库的关键字检索算法能够提供一种像信息检索一样简单的接口,输入想要查询的关键词,即可返回所需要的数据;掌握一门结构化查询语言成本太高,关键字检索大大降低了使用数据库的门槛。关系数据和XML数据在企业数据管理过程中相互依存、互为补充,关系-XML双引擎数据的关键字检索面临着明确的应用驱动。对数据库关键字检索的研究是一个有价值且热门的话题,但目前并没有一个完善的设计可以解决关系-XML数据的关键字检索问题。 因此,本文基于北京大学数据库与信息系统研究室的承担的“863”课题《无缝集成的关系-XML双引擎数据库管理系统研制及其示范应用》和“核高基”重大专项《大型通用数据库管理系统与套件研发及产业化》下的课题《XML数据管理技术研究与开发》,为关系-XML双引擎数据库CoSQL RX设计了关键字检索模块,并辅以大量的实验验证了该方法的准确性和有效性。本文主要研究内容包括: 本文在CoSQL RX数据库系统中设计并实现了关键字检索模块,支持关系-XML双引擎数据的关键字检索。该模块主要包含索引管理、关键字检索算法和查询结果的排序三大部分。用户输入想要查询的关键字,即可返回包含所有关键字的RX-最小生成树。 在CoSQL RX数据库系统中关系-XML数据存储结构的基础上,设计了支持关系-XML双引擎数据的二级倒排索引结构,降低了内存的占用率。 提出了RX-关键字检索算法,支持关系-XML双引擎数据的关键字检索。首先在元组数据图中找到包含所有关键字的最小生成树;若节点中包含关键字的列属于XML数据类型,则需要在该XML数据中找到包含关键字的SLCA节点。最后,返回RX-最小生成树。 提出了Backward-TopK算法,提高了在元组数据图中计算最小生成树的效率。