基于结构索引的高效XML查询处理方法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:wangpin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML已经成为网络上数据表示和交换的通用标准。随着XML的应用越来越广泛,对XML查询效率的要求也越来越高。模式树匹配是XML查询的核心操作,在高效处理模式树匹配的各种方法中,结构化连接算法最为流行。[BKS02]中提出的结构化连接算法TwigStack可以对模式树进行整枝连接,避免了二元连接中无用的中间结果。由于TwigStack算法的高效稳定易兼容等特点,很多研究工作在它的基础上进行了优化。TwigStack算法的I/O和cpu开销与输入XML元素的数量密切相关,所以提高算法效率的一个可行方法是在算法开始之前筛掉尽量多的无用结点。一些工作使用了结构索引1-index来避免读入不满足路径条件的XML元素。这种方法可以大大提高模式树匹配的效率,但是它不够灵活,一种固定划分规则的结构索引并不能适合各种不同的XML文档和不同的查询。 本文中提出了一种新的结构索引 JoinGuide,它没有采用其它索引的结构摘要的形式,而是一个以路径表达式为结点的树。索引结点之间的边代表着路径表达式之间的包含关系。根据路径表达式的不同选择,JoinGuide索引的粒度在标签划分和F&B-index索引之间。它具有很好的灵活性,可以为XML中每种标签单独的选择划分的粒度,并且在划分时充分考虑了XML文档的静态特征和动态特征,以取得总性能的最优。 本文中还针对传统的模式树元组匹配结果中XML元素重复的问题进行了改进,提出了一种消除冗余的紧凑模式树结果表示方式LinkedResultTree,它对每个出现在结果中的XML元素只保存一次,并对每个二元结构关系只用一个值记录与该结点满足结构关系的元素集的位置,大大减少了保存结果所需要的空间。I司时本文还基于JoinGuide索引和LinkedResultTree提出了新的模式树匹配算法TwigStackCompact,它避免了TwigStack算法中最后耗时的归并连接步骤,提高了算法的速度。最后文章还针对扩展的模式树模型APT提出了对应的匹配算法TwigStackCompactAPT,避免了复杂的后处理工作,提高了匹配的效率。
其他文献
Ad Hoc 网络是没有任何中心节点的自组织网络,依靠节点间的相互协作,在无线环境中自行成网。它是不需要依赖现有固定通信网络基础设施的、能够迅速展开使用的网络体系,网络节点
随着互联网技术的快速发展和广泛应用,互联网给人们提供了大量的信息,如何使这些庞杂的信息转化为对人类有用的知识,基于Web的数据挖掘技术成为当前的研究热点。Web挖掘的重
教育信息系统挖掘是当前数据挖掘的热点之一。如何从大量的教育信息中挖掘出有一定有意义的关联规则,用于研究学生的素质特征,指导学校加强素质教育工作就显得尤为迫切。关联规
由于网络协议的安全缺陷,网络上存在多种攻击,其中DDoS攻击以其攻击操作简单、隐蔽性强、攻击危害大的特点成为最常用的攻击技术之一。DDoS攻击通过多个攻击跳板同时向目标主
随着Internet技术的发展,网络已经成为大家获得最新信息,相互交流学习的主要平台。传统的课堂教学模式面临着新的挑战,利用信息技术手段提高运行效率,扩大受教育人群范围,探
在地理信息系统(GIS)中,作为空间关系的重要组成部分,空间拓扑关系一方面是地理信息系统数据库建立、空间特征存储、提取、查询、更新等操作的保障,另一方面它又为空间分析、辅
随着地理信息系统应用的日益普及,它已渗透进入各个行业,人们对它的技术需求在不断的提高。以单机运行的三维地形可视化系统不再满足人们对其应用的要求,基于网络的三维地形
随着软件规模的不断增大和软件技术的逐渐成熟,人们对软件质量的要求也越来越高,软件测试是保证软件质量的有效方法。UML是面向对象的标准建模语言,包括一系列视图和模型,能够系
数据业务量的飞速增长以及光纤传输能力的大幅度提高,对光网络中的交换结构和交换技术提出了更高的要求,多粒度光交换技术因此应运而生。无论从技术的角度看,还是从运营者的角度
近年来,集成了传感器技术、微电子技术和无线通信技术的无线传感器网络已引起各国政府、研究机构和企业的高度关注,它在军事、环境科学、医疗健康和其他商业领域都有着广阔的