列存储数据仓库中的查询优化研究

来源 :东华大学 | 被引量 : 1次 | 上传用户:flash_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库查询一直是数据库领域的研究重点。近年的研究发现列存储体系仅从磁盘或内存中读取与查询相关的列,相对于行存储来说,更适合OLAP、数据仓库等查询密集型应用。作为一个较少更新的读优先系统,基于列存储的数据仓库系统能提高查询性能的思想已经占据了主导地位。论文研究了数据仓库技术、列存储技术、以及现有的查询优化技术。设计实现了列存储数据仓库查询模块,包括词法语法分析器、预处理器、查询优化器以及计划产生器。尤其是在查询优化方面,结合基于规则的优化方法(RBO)和基于代价的优化方法(CBO)设计了查询优化器,提出了列的连接策略优化方法。首先,论文分析了数据仓库查询特点以及现有的列存储查询优化技术,详细讨论了列存储系统PAX、InfoBright、C-Store以及MonetDB的存储方式和查询方式,并总结了列存储和行存储的查询特点差异。然后,论文对列存储的查询模块进行了深入探究,设计实现了查询编译器的各个功能模块。首先利用开源工具Flex和Bison,结合本系统语法树结构实现了词法语法分析器;根据SQL语句的标准和本系统查询树结构设计实现了预处理器,包括它的三大功能模块:语义分析、对象特征绑定以及部分逻辑计划的生成;在剖析现有的列存储连接策略的基础上,设计实现了一种新的列存储查询优化方法。该方法利用基于规则的优化方法为列存储数据查询制定优化规则,过滤掉不可能产生最优计划的候选计划。然后设计实现了基于代价的优化方法:根据动态Huffman树原理和左深连接树原理对查询执行顺序进行改进,进一步减少候选计划的规模;根据列存储数据的特点将候选计划中每个连接结点的执行策略归纳为串行连接和并行连接两类,并在此基础上提出代价估计模型,集中针对这两种连接策略进行代价估计和策略选择。实验证明该方法以较小的时空复杂度获得了优化的查询计划。最后,论文介绍了逻辑计划产生器和物理计划产生器的原则和方法,并对列存储数据仓库的查询优化进行了总结和展望。
其他文献
随着信息化的提高,数据量也越来越大,人们对存储资源的需求越来越大。本地文件系统已经不能满足人们的需求,为了解决人们对性能、容量以及伸缩性的需求,分布式文件系统应运而
双目立体视觉是通过对所获取的图像数据进行三维重建,以获取三维场景的过程。在这个过程中,需要对摄像机进行标定,同时需要对图像进行立体匹配。而立体匹配是双目立体视觉中最为
并行计算将成为计算机发展的一种趋势,因为传统的CPU串行计算已不能满足发展的要求。特别是在科学计算领域,许多计算都需要大量的计算。在以往的研究中,大部分的计算都需要在
随着计算机网络技术特别是Internet和Web技术的发展,网络已经成为信息交换的重要途径。基于B/S模式的Web应用已经逐渐取代C/S模式的应用。由于相应的业务需求不同,企业往往需
基于逆向工程的三维重建技术是人工智能、机器视觉和虚拟现实等前沿领域的热点和难点,也是人类在基础研究和应用研究中面临的重大挑战之一。三维重建技术是图像处理的一个重
无线传感器网络是一种由大量的节点组成的分布式无线自组织网络,其目的是协作地感知、采集和处理网络覆盖区中各种监测对象的信息,并发送给监测终端。与其他网络相比,无线传
传统的基于分布式以太网结构的汽车检测控制系统存在结构复杂、投资成本高、不易大规模推广等不足,采用以太网通信容易受病毒侵扰,其实时性和可靠性也难以得到保证。针对以上
传感器网络是一种无线网络,它们广泛应用于环境监控、目标跟踪、建筑物安全监测、农业精细化耕种、活火山监测、运输业监控、人类活动监控以及其他监控领域。传感器网络的数据
万维网产生之后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成了规模庞大的数据库。面对如此庞大的数据库,寻找真正想要的信息无异于大海捞针。如何发现大
随着软件系统需求的不断变化,软件系统也需要随之更新。对于静态体系结构的软件系统而言,软件扩展、更新和维护需要系统停止运行,这将为软件系统带来高额的代价。在运行时可以动