论文部分内容阅读
近年来,随着信息技术的不断发展和数据库技术的成熟应用,企业业务数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理决策有益的潜在因素。如何有效地将这种隐藏的信息查找出来并应用于决策分析,成为人们研究的一个重点,在此背景下,数据仓库技术应运而生。
在数据仓库构建过程中,良好的数据质量是整个系统进行正确决策分析的基础,而有效的数据清洗及转换是数据仓库中高质量数据的保证。但是由于数据清洗具有很强的领域性,大部分传统的ETL工具中数据清洗和转换模块耦合比较严重,通用性差,系统在引入新功能时扩展性和维护性不好,使得系统很难在大范围内可持续使用。
“基于Web的数据转换及清洗通用框架的研究及应用”正是基于此而提出的一个课题。该框架采用基于B/S模式的组件技术,在保证良好对外接口的前提下,将绝大部分的业务逻辑处理部署在服务器上,提供通用的网络服务,实现了数据清洗及转换的通用操作。
该框架支持多种源数据类型,支持海量数据的批量处理,并根据数据自身特点提供速率优化,长事务进度指示及各种日志记录等功能,不但可以直接作用于小规模系统,并且可以作为通用的底层框架针对特定领域进行二次开发,通过扩展自定义接口完成某一具体领域专有的数据清洗及转换功能。整个处理流程可以在任何需要进行数据清洗及转换的数据源端进行,而不是局限于某个指定的ETL服务器上,这样在减轻了ETL服务器负担的同时,有效地利用了闲置资源。当业务需求发生变动时,只需要更新服务器既可,客户端不需任何改变,从而提供良好的可扩展性和普及性。目前,该框架最终实现已经应用于由东北大学软件所和国家海洋信息中心合作开发的海洋数据仓库系统的ETL模块。本文将重点讨论该通用框架的研究、设计和实现。
在本文的最后给出了该框架在海洋环境数据仓库ETL系统中具体的应用。实践表明该框架在出色地完成数据清洗及转换功能的同时,缩短了项目周期,并提供了良好的扩展性和可维护性。