论文部分内容阅读
随着数据库系统的发展和大规模综合决策分析的需求越来越迫切,数据仓库系统应运而生。数据仓库通常基于多维数据模型,各个维度的数据以及不同层次的汇总数据构成了数据立方体,数据仓库对联机分析处理的加速原理正是数据立方体的预计算,也即称为物化的过程。因此数据立方体预计算算法优劣直接影响到数据仓库的性能。
财务数据仓库是一种典型的高维数据仓库,而其本身的特性决定了在财务数据仓库中用户需要精确的信息。财务数据仓库的这些特点限制了财务数据仓库中数据立方体预计算算法的选择范围。
当前流行的数据立方体预计算算法主要有完全立方体、冰山立方体、立方体外壳和立方体外壳片段等。本文首先介绍了这些数据立方体预计算算法的特点,然后以北京大学现有的异构财务数据库为基础设计了财务数据仓库的事实星座形模型,并设计和实现了财务数据仓库的一个子集科研财务数据仓库。在科研财务数据仓库中,本文分别使用了各种数据立方体预计算算法进行物化操作,并根据财务数据仓库的特点提出了立方体外壳片段算法的一个改进版本,在这个改进版本中,使用不等长、可相交的外壳片段代替等长、不相交的外壳片段,以提高财务数据仓库在频繁查询集上的处理效率。同时本文还扩展了可处理的OLAP查询种类,使得财务数据仓库能够处理包含确定值、范围值和列表值的各种查询,从而可以涵盖用户的各种联机分析处理需求。
最后,本文通过对预计算时间、存储空间和低维OLAP查询处理效率、均匀的高维OLAP查询处理效率以及有偏的高维OLAP查询处理效率等方面的性能分析,证明了本文提出的立方体外壳片段算法的改进版本能够在各个方面取得较好的平衡,比较适合于财务数据仓库。