论文部分内容阅读
随着信息网络的迅速发展,越来越多的Web数据通过XML形式进行表达,XML的数据量呈指数级增长,由最初的MB发展到GB,以至TB。面对如此庞大的数据,信息的在线获取和查询变得越来越困难,因此,如何有效的存储XML数据,并高效的检索用户所需的信息变得尤为重要。由此XML查询优化引起了企业和学术界的广泛关注,成为XML数据管理研究中的一个重要课题。目前许多XML查询语言都使用模式树形式来表达查询需求,通过将其与XML文档树相匹配来获取所需的数据,因此模式树的规模直接影响着查询匹配的效率。对模式树最小化处理是在相对较小的模式集上进行的,不仅优化速度较快,而且优化效果显著,有效的提高了模式树查询效率。XML模式树查询最小化研究自提出以来,引起了研究者的普遍关注,虽然取得了丰硕的研究成果,但还存在很多需要解决的问题。
本文对XML模式树查询最小化进行了深入的研究和探讨,针对现有的无约束最小化方法不能有效优化线性查询路径的缺点,设计了一种基于结构摘要的模式树查询最小化算法。该算法根据模式树匹配原理,结合XML结构摘要,对模式树进行最小化优化,不仅有效的删除了模式树中的冗余结点或分支,而且对线性查询路径也进行了很好的优化。在此基础上,本文还对约束条件下的模式树最小化方法进行了研究,将XML结构完整性约束应用到最小化方法中,对所设计的算法进行了扩展,有效的支持了存在约束条件下的模式树查询最小化处理。给出了基于结构摘要的模式树查询最小化算法的实现框架及步骤。具体来说,最小化过程主要包括使用子路径删除冗余分支、模式树一致性判断和线性路径表达式最小化三个阶段,针对每个阶段给出了具体的实现算法。为了验证算法的有效性,文中安排了大量的对比实验,从时间性能和优化性能两方面进行实验设计和分析。实验结果表明,该算法的优化效果较好,有效的提高XML查询的效率。