论文部分内容阅读
数据仓库技术完全是在需求的驱动下产生与发展起来的,比如在应用中需要进行海量信息检索查询和资源共享,实现信息或知识检索查询的快、准、全.为了保证数据的完整性、一致性和所分析数据的准确性,要有准确可行、快速高效的数据集成、加载和维护数据的方法.24(时)×7(天)的联机应用模式已经成为现实的工作方式,"维护时间的长短"与"维护的完备性"之间的矛盾必须认真考虑.所以在动态、高效地刷新维护数据仓库视图时,必须考虑中间结果集大小、表连接操作、后台维护运算所占用CPU资源的时间等因素.传统的数据库理论和技术难以建立通用、灵活、高效率的数据仓库系统,数据仓库维护技术已经明显跟不上实际应用的需求.数据仓库维护技术中数据刷新的方法、数据周期确定和数据的平衡性研究具有重要学术价值和广泛应用前景.解决这些问题的关键在于理论知识和技术的创新.该文研究并实现了多层(数据源_基库_数据仓库)数据仓库维护系统原型(TDWMS).原型系统包括数据过滤、转换、加载、增量数据维护和数据维护周期的确定,以及多版本在线维护等数据仓库维护技术.在文中概述了数据仓库维护体系结构、维护管理的主要内容、ETL技术中变化数据捕获(CDC)的方法、数据同步的方法设计和数据仓库中维表、事实表的加载、维护算法;详细介绍了该文提出的"基于多delta文件的选择增量维护算法"_MBMD多版本增量维护算法及其理论证明.通过大量的实验成果说明维护加载的方法、接口、数据分割的必要性、I/O冲突解决方法、数据准备区的加载测试、索引、约束的维护方法.论述了基库端集成器和抽取器的实现算法;增量文件的保存与传输算法、加载进程与维护进程、读进程和垃圾收集进程的多版本协调算法;根据子表(汇总表)的误差要求自动维护和加载策略的研究及实现方法;选择一致性数据的加载和周期性刷新的方法和时机.该文提出的增量维护算法实现了数据加载、增量维护的较小结果集、较小小的表连接次数,采用多层体系结构,用基库将操作型OLTP环境和DSS或OLAP环境桥接起来,在基库端和仓库端采用多版本控制思想,控制抽取动态结果集大小以及在数据仓库端对非聚集表、单(多)表聚集表用较小的增量获取集批量加载维护,并不影响数据仓库端的查询操作明显地减少了对OLAP和OLTP环境的影响.该算法和体系结构宜于实现,具有较强的工程参考价值.