论文部分内容阅读
近年来随着数据管理,数据挖掘的需求日益增多,数据仓库的使用日渐频繁。数据仓库的核心要求是数据的正确性、完整性、准确性。数据从源数据库中抽取出来、经过清洗、加载到数据仓库中去。没有数据,数据仓库将无从挖掘,数据不准确,数据仓库挖掘的可信度也将受到质疑。因此,业界普遍认为ETL的实施占数据仓库的80%,是构建数据仓库的工作重点、难点。
本文针对金融系统数据的特点,基于ETL基本原理,结合工作流调度引擎,设计开发了具有结构化数据和半结构化数据处理能力的ETL处理平台。SETL(SMARTETL)智能化ETL处理平台。(以下简称SETL平台)
针对结构化数据,SETL平台通过工作流以可插拔的方式提供了调用第三方工具的接口,可以实现大数据量高速加载,如数据仓库事实表的加载;同时,SETL平台也提供了编程连接数据库实现数据加载的常规数据加载方式,这种方式适合小数据量、实时性的数据加载,如数据仓库维表的加载。两种方式的切换通过工作流调度可以方便的实现。
针对半结构化数据,SETL平台给出了基于XML的半结构化数据处理方案。金融系统内部各单位会不定期的在内部网络系统中发布一些本单位的信息,以供其他单位和部门参考。这些信息大多以网站的形式对外发布。SETL平台提供的基于XML的半结构化数据的处理方案,不但可以将这些信息有效的抽取出来,而且可以将这些数据加载到数据仓库中,通过数据挖掘从中发掘出整个行业的发展趋势,进而可以协助管理层制定出符合本单位的发展策略。
SETL平台结合工作流实现了ETL调度控制,整个ETL过程在元数据的指导下通过工作流调度实现数据流向的控制。数据分流就是基于数据的背景知识通过工作流调度实现不同结构的数据自动流向不同的数据处理模块。
SETL平台是虽然是针对金融系统的需求设计的,但是,为了使平台有更广泛的使用范围,SETL平台在设计过程中尽量使子模块内聚,整体框架由工作流调度,低耦合,更容易应对需求变化。