基于结构摘要的XML模式树查询最小化研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:qncy1239o
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息网络的迅速发展,越来越多的Web数据通过XML形式进行表达,XML的数据量呈指数级增长,由最初的MB发展到GB,以至TB。面对如此庞大的数据,信息的在线获取和查询变得越来越困难,因此,如何有效的存储XML数据,并高效的检索用户所需的信息变得尤为重要。由此XML查询优化引起了企业和学术界的广泛关注,成为XML数据管理研究中的一个重要课题。目前许多XML查询语言都使用模式树形式来表达查询需求,通过将其与XML文档树相匹配来获取所需的数据,因此模式树的规模直接影响着查询匹配的效率。对模式树最小化处理是在相对较小的模式集上进行的,不仅优化速度较快,而且优化效果显著,有效的提高了模式树查询效率。XML模式树查询最小化研究自提出以来,引起了研究者的普遍关注,虽然取得了丰硕的研究成果,但还存在很多需要解决的问题。   本文对XML模式树查询最小化进行了深入的研究和探讨,针对现有的无约束最小化方法不能有效优化线性查询路径的缺点,设计了一种基于结构摘要的模式树查询最小化算法。该算法根据模式树匹配原理,结合XML结构摘要,对模式树进行最小化优化,不仅有效的删除了模式树中的冗余结点或分支,而且对线性查询路径也进行了很好的优化。在此基础上,本文还对约束条件下的模式树最小化方法进行了研究,将XML结构完整性约束应用到最小化方法中,对所设计的算法进行了扩展,有效的支持了存在约束条件下的模式树查询最小化处理。给出了基于结构摘要的模式树查询最小化算法的实现框架及步骤。具体来说,最小化过程主要包括使用子路径删除冗余分支、模式树一致性判断和线性路径表达式最小化三个阶段,针对每个阶段给出了具体的实现算法。为了验证算法的有效性,文中安排了大量的对比实验,从时间性能和优化性能两方面进行实验设计和分析。实验结果表明,该算法的优化效果较好,有效的提高XML查询的效率。
其他文献
文本特征提取是从文本信息中抽取能够代表此类或某文本的信息。特征提取方法研究的目的是过滤数据噪音特征、选择最优的特征子集来优化文本的表示,实现文本数据降维并提高降
传统的分类问题中,一个实例只和一个类标号相关联,但是多类标号分类问题中,一个实例可以和多个类标号相关联,所以,与单类标号分类问题的任务不同,多类标号分类的任务是为一个
随着网络和多媒体技术的迅速普及和发展,越来越多的用户使用多媒体设备和网络获得并查询图像。因此图像检索已经成为一个研究的热点。现有的图像检索技术主要是基于文本查询
网络信息含量的爆炸和过载给人们带来了Web时代的新挑战,网页分类是组织和利用海量互联网信息的一种有效途径。在已出现的多种网页自动分类算法中,支持向量机(SVM)学习能力出
社会发展带来物资与人员的流动。作为经济流动与发展的基础之一,物流行业在近年来得到了巨大的发展与进步,同时物流的成本也受到越来越多的重视。在运输环节,解决车辆路由问
古琴,是中华民族传统文化的瑰宝,更是世界人类文明的重要文化遗产。当前,随着信息科学与技术应用领域的不断深入,各学科领域的信息化、数字化工作正以前所未有之势开展,计算
人体运动捕捉是计算机视觉领域倍受关注的一个研究热点,在智能视频监控、视频分析、动画、游戏、医学诊断和人机交互等领域均有广阔的应用前景。它包括人体的标定与跟踪和人
检测技术及设备在工业、农业等领域应用非常广泛。面对高性能、便捷性等市场需求,系统架构是检测设备成败的关键因素。传统的检测平台或终端多采用以单片机或简易嵌入式微处理
随着生物数据的增长,利用计算机处理,分析和存储浩如烟海的生物数据已经成为一种趋势,从原始的序列分析逐渐发展到包含基因组学,基因表达研究学、和结构生物学的科学。MADS-box基
论文针对我国竹类种质资源基础数据不全面、不完整、信息分析处理和利用程度低,以及竹亚科属种分类存在争议的问题,开展竹类种质资源数据抽取与分类方法研究。研究以构建竹类