XML非完全结构查询技术的研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zxzwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML非完全结构查询是指满足用户在缺乏完整的XML文档结构信息情况下的查询需求,其主要面向缺少完整的结构信息说明以及异构环境下的查询需求。XML数据查询算法按照查询模式描述的不同分为两类,即XML结构查询和XML关键字查询。前者多采用了正则表达式的描述方法,偏向于传统的结构化的查询方式,能够清楚的表述用户的查询意图;后者融入了信息检索领域常用的查询思想和方法,允许用户仅仅输入关键字就能够进行查询。XML关键字查询与XML结构化查询比较起来更灵活,它只需要用户提供简单的关键字信息,而无需懂得任何查询语言或文档结构就可方便使用,因此该模式被广泛采用,有着重要的研究价值。XML关键字查询方式中最关键的问题是如何求解包含所有关键字的最小片段,即SLCA(Smallest Lowest Common Ancestors)问题。论文的主要研究内容如下:首先介绍了XML关键字查询方面的知识,包括XML树型结构、XML编码方案、包含关键字的最小片断理论以及XML关键字查询的思路。在三种XML编码方案中,因为Dewey编码包含更多的节点信息,所以选择它作为实验的编码方案。其次研究已存在的关于XML关键字查询的经典算法,并对各算法进行比较,分析它们的优点和不足,重点研究了LISA算法。LISA不仅需要频繁扫描节点,而且需要引入集合交操作,耗费了大量CPU周期。LISA Ⅱ虽然在避免不必要扫描方面改进了LISA算法,但却使用了自己独有的编码,不仅引入了编码映射,而且也使得该算法的通用性大大削弱。这两种算法即便作为一种仅在内存中执行的算法,以上缺点也影响了查询速度。为此,本文提出一种轻量级的、使用XML关键字查询通用的Dewey编码的新算法,LRIA (Level Retrieval Inquiry Algorithm)。该算法不仅消除了集合交操作,而且仅仅扫描所有节点至多一遍。通过实验证明LRIA算法是一种可行的XML关键字查询算法,并且与LISAⅡ算法进行对比实验,在查询相同大小的XML文档时所用的时间。LRIA算法表现出了较好的性能,是一种可行的求解最小片段的算法。作为一种新的XML关键字查询算法,LRIA具有查询简便快捷、普通用户使用门槛较低、用户友好等的特点,但是也会存在查准率相对于XML结构查询算法较低的XML关键字查询的先天缺陷。
其他文献
枣树是原产我国的特有果树,在中国历史上,枣与桃、杏、李、栗一起并称为“五果”。目前,全国枣树栽培面积已达150万公顷,枣果年产量300万吨以上,占世界的99%以上。随着枣树栽培面
随着Intenret的飞速发展与普及,网络信息资源正呈指数速度增长,不同的用户由于背景知识、兴趣爱好不同,信息需求也不同。如何在信息海洋里快速、准确地获取到所需信息,成为了信息
伴随经济和网络的迅猛发展,以及宽带上网方式的迅速发展、上网费用的降低,传统的网络接入方式已经不能满足人们的需求,虚拟专用网VPN能够高效率、低成本的解决企业网络互连互
目前实现光流计算的主流方法有很多,变分方法就是其中之一。本文首先介绍了在光流计算方面国内外研究现状以及其应用范围。然后又建立了小位移光流计算的通用变分模型,并且运
随着交通的快速发展,车辆数量持续增长,由车辆带来的交通管理、交通安全和社会治安等问题日显突出。在交通道路、小区大院、停车场、交通枢纽等安装的交通视频监控系统每天能产
目前3D视频的制作方法主要有三种:双机或多机拍摄、CGI和2D/3D转换。由于3D视频实时拍摄技术复杂、成本昂贵,CGI题材受限,而2D视频大量存在,所以2D/3D技术可以有效解决3D片源
气象卫星对于现代社会是不可或缺的遥感工具,大多位于距地表3.6万公里的地球同步轨道。高质量气象产品的制作需要气象卫星图具有较高的几何精度。然而,同步气象卫星由于卫星测
在电信行业的不断发展的今天,如何挽留老客户并吸引新客户,是运营商面临的重要问题,营销案业务则属于运营商的稳定客户的主要手段之一,通过营销案的赠费吸引新老客户参与,通过营销
大数分解问题既是数学界重要的科学问题,也是RSA类型密码系统的基本问题。目前解决大数分解问题主要从改进大数分解算法和提高计算机的计算能力两方面进行研究。大数分解算法
我国的公安机关在多年的工作中,一方面不断推进信息化的建设,另一方面,其在公安工作的专门数据和社会信息方面都有了相当大规模的数据积累,使用数据挖掘技术来分析犯罪的各种