数据立方体压缩技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yayiyefly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着商业智能技术与决策支持技术的发展,数据仓库的应用越来越广,其数据量也越来越大,对计算资源的要求越来越高。数据立方体是数据仓库中的一种重要的物化视图,它有助于缩短应答查询的时间,但同时也由于其自身的庞大体积而带来了一系列的问题,包括较高的存储成本、较低的管理维护效率等。数据立方体压缩相关技术是近年来的一个热点研究领域。本文研究了现有的多种数据立方体压缩技术,主要有商覆盖立方体、封闭立方体、QC-table、冰山覆盖立方体等,改进了一些已有的生成算法和查询算法,并对已有研究成果较少涉及的存储、索引以及应答多种类型的查询等问题做了研究。主要工作如下:(1)在已有对数据立方体的压缩技术中,商覆盖立方体压缩效率较高,我们的研究针对商覆盖立方体做了较多的工作。为了为相关研究建立良好的理论基础,本文论证了商覆盖立方体的一些基本性质,提出了一些重要的基础概念;基于这些概念与性质,结合对基本表与立方体中的数据的特性的分析,给出了两种新的生成算法;给出了商覆盖立方体应答点查询、范围查询的算法,以及上卷/下掘的算法。提出了针对商覆盖立方体的商位索引技术,这种技术采用位图文件作为索引,索引文件很小,不仅能快速地定位相关上界格,而且依据索引文件本身和维表即可推算出维值,应答一个点查询时,只需读取体积很小的索引文件,以及在数据文件中读取一条记录即可,产生的磁盘I/O次数较少,应答时间较短。文章还研究了对位图索引进行有效压缩的方法,并改进了游程编码方法,进一步压缩值索引文件。文章还研究了对商覆盖立方体的存储策略,包括选择合适的硬件系统结构、合理的分配策略等。(2)本文还研究了其它一些数据立方体压缩技术,包括封闭立方体、冰山覆盖立方体和QC-table。对封闭立方体,我们提出了封闭掩码的概念,并据此将封闭立方体划分为多个子集,通过在应答查询时只遍历部分子集而减少磁盘I/O次数,缩短应答时间。对冰山覆盖立方体,我们重点研究了其应答查询的方法,提出了一些基本概念,论证了一些重要性质,并基于此给出了对某些类型的冰山覆盖立方体的查询算法,以及通用的冰山覆盖立方体查询算法。对QC-table,我们指出了对之进行研究的重要意义,研究了对其作进一步压缩的方法,并给出了相应的查询算法。(3)提出了一种新的对数据立方体进行压缩的技术,这种技术结合了浓缩数据立方体技术和商覆盖立方体技术,在商覆盖立方体中进一步省略了部分元组,从而进一步压缩了数据文件体积,节省了磁盘存储空间,并有效缩短了应答查询所需的时间。文章给出了相关的数据结构和查询算法。文章最后总结了全文的工作,并指出了进一步的研究方向。
其他文献
手语识别研究致力于通过计算机将手语翻译成文字或者语音,以方便聋人与健听人之间的交流和帮助聋人更好地融入社会。依手语数据获取方式的不同,手语识别研究通常分为基于数据
活体细胞内的基因通常按照一定的顺序进行基因表达,但在某些情况下,会因环境条件等因素的变化导致基因突变,并引起一定的表型异常变化,即所谓的差异基因表达。基因芯片数据差
文章探讨了《中国图书馆分类法》(简称《中图法》)(第五版)A大类在马克思、恩格斯,列宁,斯大林,毛泽东,邓小平各时期单行著作部分下位类目在时间、类号、类名设置上存在的一些问题,并
剥脱性皮炎型药疹为严重型药疹,亦称红皮病,是一种严重的全身性炎性反应性皮肤病。急性期起病急,皮损起初表现为麻疹样或猩红热样型损害,逐渐增重,最终全身皮肤呈现弥漫性(超过体表
待识对象的特征检测是各种智能系统(如机器人,医疗诊断仪器等)实现智能信息处理的基础。其应用的日益广泛性、任务的复杂性、工作环境的不确定性和特殊性、其自身资源的有限
《计算机专业英语》是计算机专业的基础课、工具课。然而,中职学校到底应否开设这门课?如何开设这门课程而使其能够被学生所接受?这些问题曾在中职教师中存在着争议。持否定态度
计算机图形学历经三十多年发展,其理论研究和应用实践都取得了巨大进步,在医疗医药、工业应用、国防建设、建筑规划、传媒娱乐、科研教育等领域应用广泛。近年来,计算机图形
并行语法分析是并行编译技术、并行系统程序设计等研究领域的关键技术。是目前计算机科学研究领域中倍受关注的热点之一。这一问题的研究涉及自动机理论、并行计算模型、并行