基于结构摘要思想的时态XML索引方案

来源 :山东大学 | 被引量 : 0次 | 上传用户:linux_secway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的发展,XML(Extensible Markup Language)已逐步成为互联网上数据表示和数据交换的一种新的标准。可以预见,将来XML会成为Web信息交换的统一标准。通常,随着时间推移,我们会对XML文档进行一些修改。之后,我们希望快速对文档历史信息进行查询。在这样的应用背景下,如何在XML文档中表达时间相关的数据,跟踪历史信息,和恢复文档在以前任意时刻的状态的研究中受到越来越多的关注。对XML(包括时态XML和非时态XML)数据建立有效的索引,是左右XML数据处理性能的重要因素。在非时态XML索引研究领域,研究成果较多,索引总体上可以分为节点记录类索引和结构摘要类索引。而时态XML索引的研究才刚刚开始。虽然一些文献提出模型和索引算法,但大多基于对版本信息的维护,尤其对于版本间数据查询处理效率较低。同时,由于时态XML文档中包含时间信息,文档更新较为复杂,这就对索引更新提出了更高的要求。重新建立索引结构,重新对节点编码将严重影响索引的效率。本文针对时态XML文档特点,提出一种新的时态XML索引方案,TF&B索引。从索引结构、查询算法和更新维护算法三个方面对该索引进行介绍。本文的主要工作在于:1.论文对TF&B索引的结构进行详细介绍,给出了构建算法。2.论文根据时态XML查询表达式的特点,将其分为四大类进行算法研究,最后给出查询比较的实验数据。通过分析比较,证明了该索引具有较好的性能。3.论文从时态XML文档片段增加、删除和更新方面,对TF&B索引的更新算法进行讨论。本文工作的意义是给出了有效索引时态XML文档的一套完整方案,具体体现在以下方面:在时态XML文档模型设计上,本文采用的模型只保存不同时刻节点之间的关联关系,而不是保存某些时刻的快照,从而解决了分散在不同版本间的数据查询问题。在节点编码设计上,本文采用预留编码空间的方法,使得文档更新时,不需进行重新编码。在查询算法设计上,通过等价类划分和聚簇存储,减少了树遍历和磁盘读取次数。在维护算法设计上,使用增量更新的方式,避免了文档更新时索引的重建。
其他文献
随着Internet和Web技术的广泛应用,越来越多的企业迫切需要高效地构建自己的Web应用系统。近年来,Sun公司的J2EE平台凭借Java语言的诸多特性和企业软件开发中的种种经验,成为企
本文对数字海洋中各种数据格式转换及多源SST的融合进行研究。当今数字海洋的研究不断深入的情况下,各种记录海洋信息的数据格式层出不穷。各种不同的数据格式,不同的开发工具
无线mesh网络(WMN)基于其先进的数据传输理念,在业界得到了广泛的关注和研究。基于多跳、高容量、易组织等特点,需要收发数据的通信双方能够随时随地建立相互连接。不足的是,
随着各类公共突发事件的不断发生,国内外越来越关注突发事件的防范和应急处置,突发事件应急管理的研究就是应运而生的一个新的研究领域。信息资源管理是突发事件应急管理的一个
随着软硬件费用的下降,DBA费用的上升,以及数据库管理系统复杂性的增强,数据库管理和维护成本,已成为其整体拥有成本的主体,这就使得数据库自管理、自调优技术的发展成为必然
用户界面开发效率问题是软件过程中的关键问题,在传统的开发过程中,界面的开发以手动为主,缺少高效开发工具的支持和对所开发界面的系统分析与评价,不能有效应对需求变更的现
随着信息技术的发展和因特网的日益普及,网络上的信息量急速倍增,广大计算机用户深受信息过载和信息污染的严重困扰。网络信息过滤的出现与发展为人们快速、准确、全面地获取
随着Web2.0时代的到来,诸如Twitter,腾讯微博等微博系统受到了越来越多的用户的青睐。不同于传统的社交网络,在微博社区中,用户通过关注或被关注关系,形成网络社会关系。作为
高动态范围图像(High Dynamic Range,HDR)的概念自1990s被提出以来,受到了相关领域的广泛关注。HDR图像具有丰富的细节、较高的明暗对比度、鲜明的色彩等特点,它的动态范围十分大,
在电子商务环境下,如何针对不同的用户为其提供个性化的、灵活的服务模式,是系统是否具有吸引力、能否成功应用的关键因素之一,对Web用户及页面的聚类是实现个性化服务的基础