支持高效杳询的数据立方构建技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:kisswc69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字技术和计算机信息化的普及和发展,许多单位和部门都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”,如何有效地管理这些数据,从中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是目前学术界和工业界研究开发的热点问题之一。随着网络时代的到来,网络技术的飞速发展,已经而且正在继续改变着人们的生活及思维方式。每个人、每个企业可以在充分利用全世界信息资源的前提下做出自己的决策,人们不仅仅是在普通地查询和访问数据,更重要的是从数据中获取信息和知识,进而支持科学的决策。数据仓库及其之上的OLAP分析技术和数据挖掘技术提供了获取信息和知识的手段。   数据仓库和OLAP技术都是基于多维模型的。多维数据模型是面向分析应用而提出来的一种直观的概念模型,可以直接地表达分析目标。该模型将数据看作数据立方体形式。而建立数据仓库进行OLAP处理的最终目的都是服务于决策分析的,需要的是对用户查询的快速而准确的响应,这就要求针对数据立方的查询结果要准确、响应要快速,因此数据立方的构建问题就变得极其重要。因此本文研究数据立方的构建等相关技术,具体包括以下几个方面的内容。   (1)针对数据仓库的物化视图选择问题,提出了一种基于查询模式的动态物化视图选择算法。物化视图的选择和调整不但考虑了视图物化所需的空间限制,还参照了用户以往的查询模式来调整其计算参数,每个视图都被赋予了一个权重,视图被查询的次数越多,其权重越大,则该视图被物化的可能性就越大。与传统的物化视图选择算法相比,基于查询模式的动态物化视图选择算法的查询命中率大大提高。   (2)针对高维低基数的数据立方的计算和查询问题,提出了一种基于压缩位图的索引结构,以及两个相应的高维数据集上数据立方计算和查询的算法。压缩位图索引的位“与”运算速度非常快,引入“起始有效指针”和“结束有效指针”大大降低了位“与”运算的次数和内存消耗。与Frag-Cubing算法相比,压缩位图索引算法计算数据立方的时间开销节省了30%,存储空间节省了25%以上。   (3)针对消除前缀冗余和后缀冗余的语义压缩数据立方结构Dwarf的存储问题,提出了两个基于页面分区策略的加速查询的聚簇算法。递归聚簇算法考虑了点查询对Dwarf节点进行深度优先顺序查询的特点进行聚簇,层次聚簇算法考虑了范围查询对Dwarf节点进行广度优先顺序查询的特点进行聚簇。采用逻辑聚簇的机制来保证聚簇特性。与Dwarf原来的聚簇相比,递归聚簇算法更适合于点查询,层次聚簇算法适用于范围查询,查询时间和I/O时间的性能都有很大提高。   (4)针对数据立方中对度量值进行实时动态泛化统计分析的查询需求,提出了一种适合动态泛化统计分析的数据立方模型。数据泛化是通过将相对较低层次的值(如属性age的数值)用较高层次的概念(如青年、中年和老年)置换来得到汇总数据的过程。新模型通过对传统数据立方模型的维和事实表的定义进行扩展,解决了传统方法对动态泛化统计分析实现的不灵活性和无法对动态泛化统计分析下的数据立方进行预先物化而造成查询性能过低等缺点。针对动态泛化分析查询,新模型在查询时间、用户满意度和操作灵活性等方面都优于传统模型。   (5)最后根据对Dwarf上点查询和范围查询的特点的分析和对Windows磁盘管理子系统的分析,提出了一个加速数据立方查询的自定义缓冲机制,在基于自定义缓冲区的查询系统中,在聚簇Dwarf的基础上对维排序属性进行了重新选择,将一部分经常被查询到的Dwarf节点放在自定义的缓冲区中以减少I/O次数加快查询速度,自定义缓冲机制对查询性能的提升十分显著。   总之,本文研究了数据仓库中关于数据立方构建的相关问题,提出了基于物化视图策略、索引策略、语义压缩策略和缓冲策略的新的数据立方构建算法,设计了一种适合动态泛化统计分析的数据立方模型,有效地解决了一系列数据立方构建和查询的相关问题,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将对今后数据仓库中数据立方的构建和查询等研究工作打下良好的基础,同时也对基于数据仓库的决策支持系统的建设与开发具有一定的参考价值。
其他文献
随着Internet的迅猛发展,网络正在影响社会的政治、经济、文化、军事和生活。由于人们对网络的依赖程度不断提高,安全问题变得越来越严峻。入侵检测作为一种积极主动的信息安
1998年,Tim Berners-Lee提出了“语义Web”的概念,语义Web研究的主要目的就是扩展当前的WWW,使得网络中信息都是具有语义的,便于人和计算机之间的交互合作。语义Web的兴起促
软件测试是软件开发的关键过程之一,对于确保软件产品的质量也有着十分重要的作用。软件测试的自动化技术帮助软件的开发人员和测试人员在更短时间内开发出更高质量的产品,通
在现有的并发分布式系统中,信息的发送往往是非阻塞的,必须采用异步的通信方式。而实际的程序设计严格区分输入和输出动作,即非对称通信。本文研究一个新进程演算,即异步非对称Ch
消息中间件为分布式应用提供灵活高效和可靠的异步消息传递机制。Java消息服务(Java Message Service,JMS)是Sun公司提出的,为解决异构消息中间件之间互操作难问题提供可选方
人脸表情识别是一个新兴的研究课题,在众多领域有广阔的应用前景。人脸表情识别系统分为三个阶段:图像预处理、表情特征提取和表情分类识别。本文以人脸表情为研究对象,以表
字符识别一直都是模式识别领域中的一个热门研究课题,在数字化办公、文字信息化存储等方面都有着重要的应用价值和社会意义。虽然目前大多数字符识别技术已运用到我们的日常
由于宽带网络的迅猛发展,分布式计算有可能成为继C/S和B/S之后的一种新型主流计算模式。分布式计算的目标是实现多计算平台之间的作业协同和信息共享,这一目标需要以分布式计算
随着网络数字多媒体技术的发展,数字水印技术成了数字版权保护领域的研究热点。数字水印技术是将特定的信息嵌入到数字多媒体中,从而保护数字多媒体的安全,这种嵌入通常是不
高分辨率的、亮度的显示系统在科学计算的可视化、工业设计、虚拟制造、军事仿真等领域得到了越来越多的应用。现在的大屏幕显示系统使用大的屏幕墙或使用高性能的投影仪,成