论文部分内容阅读
任何公司都有很多宝贵数据,它们需要在网络上从一个地方传送到其他地方,这就需要对软件的数据格式进行必要的处理,如从一个商务软件格式到另一种格式或数据仓库,然后进行分析。现在的问题是,各种数据处于异质系统——例如,由各种CRM(客户关系,Customer Relationship Management)系统产生的数据,可能用不同方式定义一个客户,但需要一个系统平台来统一确定其在后端会计系统是同一客户。为了解决这个问题,利用萃取、改造和装载(ETL,Exrtract、Transformand Load)软件,即阅读资料、统一格式、清洁源数据,并写入它的目标开发存储库。
从多个异构数据源获取业务数据,进行数据清洗和转换后,存储到数据仓库的过程,称为ETL过程。提取可以通过Java的数据库提取连接技术实现,也可以通过微软公司的开放数据库互连技术获取。经过提取、数据转换或修改、依靠所涉及的具体业务逻辑,以便它能够被送到目标存储库.有多种方式进行改造,涉及的作业各有不同。数据可能仅仅需要重新格式化,但大多数的ETL也涉及清洗作业,以消除备份和执行数据一致性。ETL软件的部分功能是用于检查个别数据域,并且运用规则不断转换源数据到目标存储库和应用程序所要求的格式。另外,ETL过程可以涉及的领域如下:标准化域名和地址域、核实电话号码或其他领域、扩展带有附加字段的记录,其中附加字段包括人口统计数据或来自其它系统的数据。
本文以项目踏蓝(TOS,Talend Open Studio)为支撑,主要研究ETL理论及其改进,并就踏蓝项目需求进行ETL系统构架设计,最后测试并达到预期。开源ETL系统解决方案对于企业决策过程整合,(TOS)踏蓝的解决方案是收集、处理和合并公司内部的各种各样不同系统内的数据,并且将他们传输至中央数据库(数据中心)。这样,数据能够很容易被访问;有效地被处理,以便更深层次的分析和报告;或者被再次输入其它运用处理程序。ETL——位于决策过程的中心——允许公司能够根据其需要,清除、标准化以及转化他们的数据。