论文部分内容阅读
随着信息社会的迅猛发展,各部门根据各自不同的业务需求和计算机软硬件结构等特点分别在不同时期保存了各种各样的历史数据,这些数据常存在大量重复、大小写不一致、前后矛盾等数据质量问题,同时跨部门数据很难达到数据的一致性,形成一个完整的数据结构。因此,需要对部门间的数据进行集成、比对与整合,以实现数据共享。ETL是Extraction-Transformation-Loading的缩写,分别叫抽取、转换和加载。ETL是实现部门间数据共享的基石,其价值在于将部门间的数据统一化、标准化、集中化、完整化。将分布的异构数据源中的数据抽取到临时库中并进行清洗、转换和集成整合,最后再加载到目标库中,是数据共享的基础。在ETL过程中,数据清洗和数据比对是两个十分重要的环节,数据清洗解决了数据质量问题,数据比对则保证了跨部门间的数据一致性。本文首先引入类似工作流的概念,将ETL中涉及到的操作抽象成相应的节点并给出了节点模型,通过将各节点连接在一起形成ETL流程,使整个ETL的处理过程流程化,这样可以保证ETL工具更具有通用性和灵活性。其次,本文结合元数据的思想进行了基于流程驱动的ETL工具的整体设计及模块实现。最后,本文描述了一个基于ETL工具的应用案例——社会信用联合征信系统。本文主要创新点是:1、本文开发的ETL工具将数据共享中涉及到的ETL过程与工作流结合起来,把对应的各种操作抽象成相应的节点,并根据具体的业务需求将这些节点按照一定顺序配置成ETL流程,通过执行整个流程完成ETL过程,在整个ETL流程的配置过程中,各节点可按任意顺序进行配置,大大提高了数据清洗和数据比对的灵活性和通用性。2、在ETL流程的执行过程中,ETL流程解析成SQL语句执行,非程序进行数据处理,提高了ETL的执行效率。