论文部分内容阅读
XML(eXtensibleMarkupLanguage)已成为Intemet上的数据存储、交换和表示的事实性标准。随着XML应用的普及,越来越多的数据以XML的形式存储和交换,对XML文档中的数据进行查询的要求也就越来越高。
为充分利用XML的特点开展XML查询的优化,本文研究和开发了以下的XML查询改进和优化技术:
1)现有的XML查询语言一般都采用路径表达式方式对XML进行查询,因此XML编码索引技术要能提供一种机制使得可以快速的判定两个结点间的结构关系,特别是祖先.后代关系和父亲.孩子关系。而现有利用基于树遍历(前序遍历和后序遍历)的编号方案对XML文档进行编码的XML编码索引技术往往未意识到结点间的前序遍历值和后序遍历值间存在着数值上的某种联系,这种联系在以R树或者B树的数据结构为索引基石的时候能很好地起到加速查询的作用。本文的主要工作之一是深入诠释了这种联系,最终在以R树或者B树的数据结构为索引基石的系统上加速XML查询。
2)在课题组原有的工作基础之上,本文提出了解决包含递归结构的DTD的处理方法。而由于从效率上考虑,原有的实现XML结点到相应DTD结点的映射算法在处理包含递归结构的DTD时不再适用,本文相应地开发了一个充分利用了XML/DTD解析特征的优化映射算法。
3)在深入学习研究现有XML编码索引技术的基础上,本文提出了一种新的XML编码索引技术的设想。它吸收了基于模式和基于序列化编码的XML索引方法的优点,通过高效地定位被查询的XPath片段,从而避免了代价高昂的连接(join)操作。