数据仓库维护技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jizhidong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库技术完全是在需求的驱动下产生与发展起来的,比如在应用中需要进行海量信息检索查询和资源共享,实现信息或知识检索查询的快、准、全.为了保证数据的完整性、一致性和所分析数据的准确性,要有准确可行、快速高效的数据集成、加载和维护数据的方法.24(时)×7(天)的联机应用模式已经成为现实的工作方式,"维护时间的长短"与"维护的完备性"之间的矛盾必须认真考虑.所以在动态、高效地刷新维护数据仓库视图时,必须考虑中间结果集大小、表连接操作、后台维护运算所占用CPU资源的时间等因素.传统的数据库理论和技术难以建立通用、灵活、高效率的数据仓库系统,数据仓库维护技术已经明显跟不上实际应用的需求.数据仓库维护技术中数据刷新的方法、数据周期确定和数据的平衡性研究具有重要学术价值和广泛应用前景.解决这些问题的关键在于理论知识和技术的创新.该文研究并实现了多层(数据源_基库_数据仓库)数据仓库维护系统原型(TDWMS).原型系统包括数据过滤、转换、加载、增量数据维护和数据维护周期的确定,以及多版本在线维护等数据仓库维护技术.在文中概述了数据仓库维护体系结构、维护管理的主要内容、ETL技术中变化数据捕获(CDC)的方法、数据同步的方法设计和数据仓库中维表、事实表的加载、维护算法;详细介绍了该文提出的"基于多delta文件的选择增量维护算法"_MBMD多版本增量维护算法及其理论证明.通过大量的实验成果说明维护加载的方法、接口、数据分割的必要性、I/O冲突解决方法、数据准备区的加载测试、索引、约束的维护方法.论述了基库端集成器和抽取器的实现算法;增量文件的保存与传输算法、加载进程与维护进程、读进程和垃圾收集进程的多版本协调算法;根据子表(汇总表)的误差要求自动维护和加载策略的研究及实现方法;选择一致性数据的加载和周期性刷新的方法和时机.该文提出的增量维护算法实现了数据加载、增量维护的较小结果集、较小小的表连接次数,采用多层体系结构,用基库将操作型OLTP环境和DSS或OLAP环境桥接起来,在基库端和仓库端采用多版本控制思想,控制抽取动态结果集大小以及在数据仓库端对非聚集表、单(多)表聚集表用较小的增量获取集批量加载维护,并不影响数据仓库端的查询操作明显地减少了对OLAP和OLTP环境的影响.该算法和体系结构宜于实现,具有较强的工程参考价值.
其他文献
随着数字多媒体技术的飞速发展,视频采集与处理技术在众多领域有着越来越广泛的应用.当前市场上已出现多种视频采集卡,但都无法满足一些特殊的用户需求.该文所研制的数字视频
开放式与智能化是当今数控系统发展的两个方向.围绕这两种发展趋势,目前对开放式的研究进行比较多,智能化方面的研究还很少.模糊控制方法在工业控制领域已经得到广泛的应用,
通过高速网络连接起来的工作站群集系统为用户提供了累积的处理能力和巨大的数据存储空间,并且以其高性价比和良好的可扩展性越来越多的应用于高性能科学计算和事务处理中,但
随着Internet/Intranet技术的发展和普及,计算机化考试在许多方面将逐步取代传统的基于纸笔的考试。探讨和研究基于计算机网络的考试,以便能客观、准确地评估人的某种能力和水平
随着社会的信息化,传统的关系数据库已经不能满足人们的某些应用.在关系数据库上增加新的功能特性成为当前的主流的研究方向.例如全文检索就是数据库系统急待增加的一个功能.
我的研究方向为基于离散点的真实感图形绘制的研究,是庞云阶教授博士点基金项目的一个组成部分。本文对传统的真实感图形生成过程进行了深入的研究,分析了其中的缺点与不足,并在
建筑立面重复结构检测是建筑图像理解的重要任务。这一任务能够辅助众多计算机视觉问题,包括建筑物三维重建与建模、建筑图像编辑、城市场景理解等等。然而,这一问题具备以下三
IPv6协议已经成为下一代互联网网络层(即IP层)的标准协议,作为IPv4唯一取代者的地位已经得到业界的一致认可,也将成为下一代互联网络的核心技术.MPLS(Multi-Protocol Label S
长期以来,软件工程领域的专家们一直在不断努力改善软件开发过程.然而,软件开发却没有质的改观.今天的软件产业仍然保持着在其他行业看来瞠目结舌的项目失败率;新的技术诸如J
随着科技的进步,指纹鉴别技术已经开始走入了民用领域中.由于指纹具有唯一性和不变性,因此将指纹鉴别应用于门禁系统中,将大大地提高其安全性和可靠性.目前的指纹鉴别算法大