分布式数据仓库中ETL技术的研究

被引量 : 9次 | 上传用户:hutuxiaoshenxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业规模的扩大,业务不断向多个地区扩展,许多企业的运作模式形成一种分布式管理结构。另外,由于历史、地理、经济等诸多原因,企业内部存在许多不兼容的、相互独立的事务处理系统,需要对分散在这些系统中的相关数据进行集成,以向分析决策人员提供统一的数据视图,分布式数据仓库应运而生。数据的抽取、转换和加载(ETL)是创建数据仓库系统的重要环节。ETL技术一直是分布式数据仓库中的研究热点。首先,介绍了数据仓库和ETL的基本概念,指出ETL在数据仓库创建过程中的重要性;对分布式数据仓库的体系结构、分类及开发策略进行了论述;重点对ETL和分布式ETL进行了对比,指出了分布式ETL中的主要问题,主要体现在数据一致性维护和数据转换效率两个方面。其次,在分布式数据仓库环境下,每个局部数据仓库都是一个独立的ETL节点。考虑到数据副本的存在,因而分布式数据仓库的ETL是针对多个目标源的,若此时还是采用传统集中式ETL的体系结构就会出现局部节点数据仓库数据不一致的问题。在分析了集中式ETL体系结构的基础上,提出了一种改进的分布式ETL体系结构—ETLM,较好的解决了分布式ETL中的数据一致性问题。第三,分布式数据仓库有多个局部ETL节点,处理的是海量数据,并且数据转换完后要加载到多个局部数据仓库之中,传统的数据抽取和转换技术在响应时间和转换效率等方面存在诸多不足。根据OLAP和DM的实际需求,提出了一种基于数据分割策略和负载均衡技术相结合的分布式ETL执行优化策略,把分布式的技术与ETL技术相结合,弥补了分布式ETL本身执行效率低的缺点,提高了分布式数据仓库的整体效率。最后,通过对分布式ETL中一致性维护问题的解决,论述了分布式ETL系统的设计方案,并对ETLM系统及其包含的主要功能模块进行了详细设计,模拟了分布式ETL一致性维护的实现过程,证明了ETLM方法的可行性。
其他文献
黑龙江省对俄贸易前景广阔,凭借地理位置的优势发展边境贸易,带动了黑龙江省经济的发展。黑龙江省在深化对俄贸易中仍存在很多问题,应从对俄贸易基础设施建设、构建贸易体系
随着移动通讯设备的普及,手机、小灵通等移动通讯设备成为了日常生活中必不可少的随身物品,并且朝着多功能的方向发展。同时,RFID的应用也日益大众化,小额支付、产品防伪、物
2012年8月1日起,我国实行营业税改增值税试点,试点行业主要有交通运输业和部分现代服务业。本文主要对所涉及的物流企业进行实证调查,探究"营改增"后对企业产生的影响,分析其
合理高效的数据管理系统是研究室重要组成部分。2014年我临床药理研究室结合我院开展治疗药物监测的实际情况和信息管理的要求,设计并创建“海南省人民医院治疗药物监测信息管
固定资产折旧是企业会计核算的一项十分重要的工作,本文分析了新会计制度下固定资产折旧的相关内容和方法,通过实例详细讲解固定资产折旧的核算。
针对云南人占石铜矿,通过对矿石性质、选矿试验的分析,确定了设计合理的选矿工艺流程,对流程结构的优化、设备选型以及设备及厂房配置特点等进行了综合论述。
农村换届选举的实践,有力地推进了农村基层民主和村民自治的进步,增强了村民和广大农村基层干部的民主法制意识,为我国社会主义民主政治建设奠定了坚实的基础。农村民主选举
独立董事制度始于20世纪30年代的美国,其初衷是为了解决在上市公司所有权与控制权分离的情况下产生的“内部人控制”问题。所有权和经营权分离之后,公司的所有者并不一定是公
互联网的迅速发展改变了传统的贸易方式,催生了电子商务。但是电子商务在带来贸易变革的同时,也产生了一些问题,交易纠纷的解决便是其中问题之一。尤其是B2C电子商务,因其交
改革开放30余年来中国经济年均增长率高达9.9%,中国经济以其长期持续的高速增长令全球瞩目,被誉为"中国的奇迹"。但与此同时,中国经济增长的质量却日益受到质疑,并由此引发了