基于流程驱动的ETL工具的设计、实现及应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户：sun3kai

【摘要】

：

随着信息社会的迅猛发展,各部门根据各自不同的业务需求和计算机软硬件结构等特点分别在不同时期保存了各种各样的历史数据,这些数据常存在大量重复、大小写不一致、前后矛盾

【作者】

：

张国权

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2013年期

【关键词】

：

数据共享 ETL 流程驱动数据清洗数据比对

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息社会的迅猛发展,各部门根据各自不同的业务需求和计算机软硬件结构等特点分别在不同时期保存了各种各样的历史数据,这些数据常存在大量重复、大小写不一致、前后矛盾等数据质量问题,同时跨部门数据很难达到数据的一致性,形成一个完整的数据结构。因此,需要对部门间的数据进行集成、比对与整合,以实现数据共享。ETL是Extraction-Transformation-Loading的缩写,分别叫抽取、转换和加载。ETL是实现部门间数据共享的基石,其价值在于将部门间的数据统一化、标准化、集中化、完整化。将分布的异构数据源中的数据抽取到临时库中并进行清洗、转换和集成整合,最后再加载到目标库中,是数据共享的基础。在ETL过程中,数据清洗和数据比对是两个十分重要的环节,数据清洗解决了数据质量问题,数据比对则保证了跨部门间的数据一致性。本文首先引入类似工作流的概念,将ETL中涉及到的操作抽象成相应的节点并给出了节点模型,通过将各节点连接在一起形成ETL流程,使整个ETL的处理过程流程化,这样可以保证ETL工具更具有通用性和灵活性。其次,本文结合元数据的思想进行了基于流程驱动的ETL工具的整体设计及模块实现。最后,本文描述了一个基于ETL工具的应用案例——社会信用联合征信系统。本文主要创新点是：1、本文开发的ETL工具将数据共享中涉及到的ETL过程与工作流结合起来,把对应的各种操作抽象成相应的节点,并根据具体的业务需求将这些节点按照一定顺序配置成ETL流程,通过执行整个流程完成ETL过程,在整个ETL流程的配置过程中,各节点可按任意顺序进行配置,大大提高了数据清洗和数据比对的灵活性和通用性。2、在ETL流程的执行过程中,ETL流程解析成SQL语句执行,非程序进行数据处理,提高了ETL的执行效率。

其他文献

基于B/S架构的高校师生交流平台设计与实现

教学是学生与老师之间的互动，是教与学的有机结合，也是双方之间的绝对统一。这就需要教学当事人——老师和学生的积极参与、互动和交流，这不仅仅是将老师的教学活动与学生的知识

学位

个人偏好主动推荐师生交流平台B/S架构

具有准确应用类型标签的网络流量数据集的研究

随着网络技术的不断进步、网络应用的不断增多，网络流量迅速爆发，对于服务质量、带宽计费以及入侵检测等网络管理而言，准确的流量分类变得更加重要。然而，在当前的网络环境下，由于

学位

Socket Hook设计NDIS中间层驱动网络流量采集数据集制作

FileNet工作流引擎在OIS系统中的应用与研究

随着企业的逐渐壮大和信息技术的飞速发展,办公信息系统(Office Information System, OIS)已经成为提高企业办公效率的主要策略。即通过办公自动化来实现企业日常事务的办理,

学位

办公信息系统FileNet工作流系统任务会签任务催办

基于粒计算的缩微智能车智能控制方法研究

智能车辆作为智能交通系统的重要研究内容之一，它是一个集环境感知、路径规划、决策控制等技术于一体的复杂系统。其中，决策控制技术占有重要地位，相当于人的大脑，现有的决策控制

学位

智能交通系统粒计算缩微智能车智能控制驾驶行为

运动图像中的文字识取研究

自然场景图像中通常包含大量的文字和图像信息,其中文字信息可以帮助人们更好的理解图像内容。利用计算机自动检测并识别自然场景图像中的文本信息,是模式识别和计算机视觉中

学位

自然场景文本定位文字提取边缘检测灰度检测

虚拟手术中的灼烧烟雾模拟

虚拟手术作为虚拟现实技术在医学方面的应用，它对医师培训、手术计划和手术医学教学等方面的改进起到很大的帮助。其目的是在计算机中创建与真实手术环境基本相同的虚拟手术环

学位

虚拟手术灼烧烟雾粒子系统透明度扰动虚拟现实

基于纠错输出编码的蛋白质亚细胞定位预测

蛋白质亚细胞定位预测就是利用原始氨基酸序列来判断其具体的亚细胞归属，预测依据为生物学常用的观点，序列决定结构，结构决定功能，而亚细胞定位与蛋白质的功能有密切联系，所以我们

学位

亚细胞定位预测纠错输出编码特征提取人工神经网络

时滞神经网络的稳定性与分岔研究及伪随机数生成器的周期分布分析

作为动力系统的一个分支，神经网络具有丰富的动力学行为。它在诸如模式识别、信号处理和优化计算等方面均有广泛的应用，这吸引了很多学者对其动力学行为展开研究。本文主要研究

学位

神经网络复数神经网络混合时滞时间标度全局指数稳定性稳定性线性矩阵不等式伪随机生成器周期分布线性反馈位移寄存器

通信网云计算平台资源调度策略与算法研究

由于电信运营商面对的计算任务日益趋向于复杂多样,需要充分利用已有的强大硬件平台建设统一的云计算平台,以满足其各种计算需求。云计算是近几年来计算机领域的一个研究热点

学位

云计算Hadoop双JT备份模型公平调度算法多因子抢占模型

Ad Hoc网络信任模型的优化及密钥管理研究

Ad Hoc网络是目前移动通信领域的研究热点,能够满足未来个人通信用户对网络无所不在的需求。当前对Ad Hoc网络研究主要集中在路由协议、基本组网技术和安全性机制等方面,尤其

学位

移动自主网基于身份的分簇模型动态主观信任密钥管理

基于流程驱动的ETL工具的设计、实现及应用

其他学术论文