论文部分内容阅读
随着商业智能技术与决策支持技术的发展,数据仓库的应用越来越广,其数据量也越来越大,对计算资源的要求越来越高。数据立方体是数据仓库中的一种重要的物化视图,它有助于缩短应答查询的时间,但同时也由于其自身的庞大体积而带来了一系列的问题,包括较高的存储成本、较低的管理维护效率等。数据立方体压缩相关技术是近年来的一个热点研究领域。本文研究了现有的多种数据立方体压缩技术,主要有商覆盖立方体、封闭立方体、QC-table、冰山覆盖立方体等,改进了一些已有的生成算法和查询算法,并对已有研究成果较少涉及的存储、索引以及应答多种类型的查询等问题做了研究。主要工作如下:(1)在已有对数据立方体的压缩技术中,商覆盖立方体压缩效率较高,我们的研究针对商覆盖立方体做了较多的工作。为了为相关研究建立良好的理论基础,本文论证了商覆盖立方体的一些基本性质,提出了一些重要的基础概念;基于这些概念与性质,结合对基本表与立方体中的数据的特性的分析,给出了两种新的生成算法;给出了商覆盖立方体应答点查询、范围查询的算法,以及上卷/下掘的算法。提出了针对商覆盖立方体的商位索引技术,这种技术采用位图文件作为索引,索引文件很小,不仅能快速地定位相关上界格,而且依据索引文件本身和维表即可推算出维值,应答一个点查询时,只需读取体积很小的索引文件,以及在数据文件中读取一条记录即可,产生的磁盘I/O次数较少,应答时间较短。文章还研究了对位图索引进行有效压缩的方法,并改进了游程编码方法,进一步压缩值索引文件。文章还研究了对商覆盖立方体的存储策略,包括选择合适的硬件系统结构、合理的分配策略等。(2)本文还研究了其它一些数据立方体压缩技术,包括封闭立方体、冰山覆盖立方体和QC-table。对封闭立方体,我们提出了封闭掩码的概念,并据此将封闭立方体划分为多个子集,通过在应答查询时只遍历部分子集而减少磁盘I/O次数,缩短应答时间。对冰山覆盖立方体,我们重点研究了其应答查询的方法,提出了一些基本概念,论证了一些重要性质,并基于此给出了对某些类型的冰山覆盖立方体的查询算法,以及通用的冰山覆盖立方体查询算法。对QC-table,我们指出了对之进行研究的重要意义,研究了对其作进一步压缩的方法,并给出了相应的查询算法。(3)提出了一种新的对数据立方体进行压缩的技术,这种技术结合了浓缩数据立方体技术和商覆盖立方体技术,在商覆盖立方体中进一步省略了部分元组,从而进一步压缩了数据文件体积,节省了磁盘存储空间,并有效缩短了应答查询所需的时间。文章给出了相关的数据结构和查询算法。文章最后总结了全文的工作,并指出了进一步的研究方向。