XML簇聚存储及路径选择性代价估计研究

来源 :中南大学 | 被引量 : 0次 | 上传用户：wuxi_xizi

【摘要】

：

随着互连网的快速发展,出现了大量的Web数据,这些Web数据多以XML文档形式出现,如何有效存储XML文档和从大量XML文档中检索有用信息,已成为数据库研究领域的一个重要研究课题

【作者】

：

李建军

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2008年期

【关键词】

：

XML数据库 XML簇聚代价估计直方图稳定性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互连网的快速发展,出现了大量的Web数据,这些Web数据多以XML文档形式出现,如何有效存储XML文档和从大量XML文档中检索有用信息,已成为数据库研究领域的一个重要研究课题。本文的研究工作主要围绕XML数据存储和查询优化展开,重点研究XML簇聚存储模型和路径选择性代价估计。首先对XML技术做了综述,分析了XML的研究现状和技术上的突破,然后重点从XML簇聚存储和查询优化两个方面做了深入的研究工作。在XML簇聚存储方面,针对DOM(文档对象模型)不能有效减少XML查询的磁盘I/O问题,提出了X-cluster簇聚存储模型,此模型根据结点划分思想将XML文档中结点结构与结点值最为“相似”的一组结点簇聚在一起,并为不同的结点值类型引入了不同的存储模型和压缩方法,解决了以往簇聚模型中人为地割裂结点结构与结点值之间的关系,簇聚误差过大的问题;在XML查询优化方面,深入研究了XML路径选择性代价估计,详细分析了基于直方图的路径选择性代价估计(HPM)方法,针对HPM方法计算效率低,选择性估计精度不高的缺点,将X-cluster簇聚大纲统计信息模型引入路径选择性代价估计中,提出了CHPM方法。该方法通过计算选择率为百分之百的结点或路径跳过不必参与直方图运算的结点或路径,减少了代价树的规模,从而提高路径选择性代价估计的效率;同时为了避免中间结果直方图某些格中的高频数据对后续直方图运算精度的影响,给出了直方图的压缩策略,通过压缩使直方图中的数据近似满足均匀分布,从而降低路径选择性估计的误差。实验表明,X-cluster簇聚大纲及基于此大纲和压缩直方图技术的XML含值谓词路径选择性代价估计方法无论是针对单谓词简单路径选择性代价估计还是多谓词复杂路径选择性代价估计,代价估计的相对误差都较低,是一种可行而有效的方法。

其他文献

晋东南地区麦田水分供需特征及节水灌溉研究

本文在分析晋东南地区降水的季节分布、土壤水分动态和冬小麦需水动态的基础上,通过田间灌溉试验结果,提出减少灌溉定额和灌溉次数,只在关键期进行补充灌溉,冬小麦生育期间的

期刊

节水灌溉冬小麦产量晋东南地区补充灌溉水分状况灌溉定额冬小麦需水量土壤水分动态生育期间田间灌溉

我国近海有毒藻和藻毒素的研究现状与展望

海洋中的部分微藻能够产生藻毒素,导致鱼、贝类等养殖动物染毒或死亡,甚至危及人类健康和海洋生态安全。近20年来,随着对有害藻华(harmful algal bloom,HAB)问题关注程度的不

期刊

有毒藻藻毒素有害藻华麻痹性贝毒腹泻性贝毒

教会学生自主学习教会学生自主管理--实施课程改革促进学生自主发展之二

在实施课程改革实验研究过程中,为了实现学生自主发展,我们集中探索了两个问题:“教会学生自主学习”、“教会学生自主管理”.本文主要围绕这两个问题,具体阐述了“教会学生

期刊

课程改革自主发展自主学习自主管理

基于SIP协议的P2P多媒体通信的研究与开发

随着个人电脑性能的飞速提升和宽带网的逐步推广,大量的客户资源和网络带宽被闲置。在这样的背景下,基于SIP协议的P2P模型得到了人们的广泛关注,日益成为国内外的研究热点。

学位

SIP协议NAT穿越STUN协议SIP客户端服务器

高校教务管理系统双机容错的研究

学分制是高等教育发展到一定阶段的产物,是一种以学分为计量单位衡量学生学业完成状况的教学管理制度。学分制的推行是我国高校实施教学管理改革的一项重要措施。但我国实施

学位

教务管理系统双机容错HeartbeatOracle数据恢复

机采茶园的栽培管理技术

最近二年农业部组织了机采协作试验组进行机采试验、示范,贵州省都匀茶场、湄潭茶场、湖北省羊楼洞茶厂、湖南省茶叶科学研究所、浙江省杭州茶叶试验场、广东省普宁华侨农场

期刊

机采茶园杭州茶叶试验场茶树根采摘面树幅茶机定型修剪秋茶羊楼洞茶重修剪

基于Web数据的电子商务推荐系统应用研究

电子商务因其成本低廉、快捷、不受时空限制等优点在全球范围内得到普及和发展，它的规模也在进一步扩大。在电子商务为用户提供越来越多选择的同时，它的结构也变得越来越复杂，电

学位

电子商务个性化服务推荐系统Web数据挖掘

新疆沙雅县民族中小学体育双语教学存在的问题及对策研究

本文是在当前双语教学已成为新疆民族教育热点问题的情况下，通过教学观摩、文献资料、学生问卷调查及分析，以及多次教师、学生座谈等等调研活动，对新疆沙雅县民族中小学体育双语

期刊

沙雅县中小学体育双语教学

面向特征方法的研究及其在专家信息系统中的应用

面向特征方法是领域工程的一种常用方法,但由于在多层架构系统中,纵向特征在各层次的形态与用途互不相同,该方法常常从各层的角度以独立的形式对该类特征分别予以实现,因此不

学位

面向特征特征组装领域分析动态配置

基于环状结构应用层组播模型的设计与研究

近年来随着流媒体应用的快速发展，如何在大规模的因特网上高效提供媒体信息成为研究的热点。在众多的研究中，IP组播技术由于较高的网络资源使用效率，成为大规模的群组通信理想的

学位

应用层组播区间划分环状拓扑路由器

XML簇聚存储及路径选择性代价估计研究

其他学术论文