基于XML结构索引的若干技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:aidam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensibleMarkupLanguage)具有强大的数据表达能力以及简单、开放、可扩展等优点,因而逐渐成为互联网上信息发布和数据交换的事实标准。XML研究中的一个关键问题就是如何对XML数据进行有效地查询。XML查询通常是基于路径表达式进行的,在以往的研究中,对XML文档中的路径建立结构索引是一种加速XML查询的常用方法。 随着XML应用需求的不断增长,需要处理的查询也越来越复杂,也带来了更多的问题。例如:如何处理带分支路径的查询,如何处理SCQ(StructureandContentQuery)查询以及如何根据查询负载动态调整索引结构等。本文针对上述问题进行了分析并提出相应的解决方案,主要贡献如下: 1)提出了一种新型的XML结构索引:D(k,l).索引。该索引充分利用了XML数据节点在向上和向下路径上的局部相似性,能有效地处理路径表达式的查询,特别是分支路径表达式的查询。并提出了一种有效的调整算法,从而保证D(k,l).索引可根据查询情况动态地调整其索引结构。 2)研究了在批量文档上进行SCQ查询。通过为批量文档构建了SI(SummaryIndex)结构索引,并结合结构索引技术和结构连接技术,有效地解决了结构索引在支持子孙后代关系处理上的不足,提高了查询性能。 3)在利用查询中的结构信息过滤文档时,为了快速获得满足条件的文档ID号,有效地利用了B+树结构对范围查询的支持。在处理SCQ查询时,为了加快对文本信息的处理,文中使用了BloomFilter技术来快速判定文本的包含关系。 实验证明,本文的方法在支持带分支的路径查询,索引的动态调整及SCQ查询等方面提供了新的解决方法,这些方法是有效的。
其他文献
命名实体的识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,但是从评测的结果
基于Linux和J2ME的智能手机已成为嵌入式系统应用研究中的热点问题。同时,图形用户界面(GUI)在智能手机等嵌入式系统中的地位也越来越重要,它将承载越来越多的增值业务和数据服务
随着经济的发展和信息科技的进步,电子商务逐渐成为当今业务贸易的趋势。快递行业作为近来新兴的行业,更是得到了飞速发展,其对信息处理的要求也越来越高。然而,快递行业的处
由于数据挖掘是从大量真实数据中提取有价值的知识,在数据挖掘的过程中很可能会引发敏感信息的泄露,这就带来了隐私保护方面的诸多问题。因此,如何在保护隐私的同时得到满意的挖
移动计算环境的移动性、灵活性等特点使其具有广泛的应用前景,但是它的带宽窄、无线通讯易受干扰等特性也会导致系统出现故障,所以在移动计算环境中引入容错技术是目前研究的
随着现代科技的发展和3C的融合,一场围绕“显示为中心”的无线大革命拉开了序幕。这场无线大革命已经从90年代的数据网络向21世纪的视觉网络迈进,同时数字家庭也从第一代向第二
近年国外HIS(Hospital Information System,医院信息管理系统)领域十分重视中间件技术的研究与应用,国内也进行了大量研究。软件厂商使用中间件技术,主要是为了解决HIS的维护
语料库是研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。语料库在自然语言处理的许多方面都有重要的应用价值,语料库的建立为语言学的研
本文运用爆破理论、放矿理论、松散介质力学、最小耗能原理和数值计算等相关理论,采用实验室研究与理论分析相结合的方法,设计了实验室模型,对崩落体的形成过程与形态进行了物理
面向方面编程(AOP)强调将软件系统中的横切关注点从核心业务中分离,单独以模块化的方式进行实现。这种思想很快被广大程序开发者所接受,相关技术及运用也得到了迅速发展。在