论文部分内容阅读
随着企业规模的扩大,业务不断向多个地区扩展,许多企业的运作模式形成一种分布式管理结构。另外,由于历史、地理、经济等诸多原因,企业内部存在许多不兼容的、相互独立的事务处理系统,需要对分散在这些系统中的相关数据进行集成,以向分析决策人员提供统一的数据视图,分布式数据仓库应运而生。数据的抽取、转换和加载(ETL)是创建数据仓库系统的重要环节。ETL技术一直是分布式数据仓库中的研究热点。首先,介绍了数据仓库和ETL的基本概念,指出ETL在数据仓库创建过程中的重要性;对分布式数据仓库的体系结构、分类及开发策略进行了论述;重点对ETL和分布式ETL进行了对比,指出了分布式ETL中的主要问题,主要体现在数据一致性维护和数据转换效率两个方面。其次,在分布式数据仓库环境下,每个局部数据仓库都是一个独立的ETL节点。考虑到数据副本的存在,因而分布式数据仓库的ETL是针对多个目标源的,若此时还是采用传统集中式ETL的体系结构就会出现局部节点数据仓库数据不一致的问题。在分析了集中式ETL体系结构的基础上,提出了一种改进的分布式ETL体系结构—ETLM,较好的解决了分布式ETL中的数据一致性问题。第三,分布式数据仓库有多个局部ETL节点,处理的是海量数据,并且数据转换完后要加载到多个局部数据仓库之中,传统的数据抽取和转换技术在响应时间和转换效率等方面存在诸多不足。根据OLAP和DM的实际需求,提出了一种基于数据分割策略和负载均衡技术相结合的分布式ETL执行优化策略,把分布式的技术与ETL技术相结合,弥补了分布式ETL本身执行效率低的缺点,提高了分布式数据仓库的整体效率。最后,通过对分布式ETL中一致性维护问题的解决,论述了分布式ETL系统的设计方案,并对ETLM系统及其包含的主要功能模块进行了详细设计,模拟了分布式ETL一致性维护的实现过程,证明了ETLM方法的可行性。