智能导库工具研究与实现

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:wyingying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着数据管理,数据挖掘的需求日益增多,数据仓库的使用日渐频繁。数据仓库的核心要求是数据的正确性、完整性、准确性。数据从源数据库中抽取出来、经过清洗、加载到数据仓库中去。没有数据,数据仓库将无从挖掘,数据不准确,数据仓库挖掘的可信度也将受到质疑。因此,业界普遍认为ETL的实施占数据仓库的80%,是构建数据仓库的工作重点、难点。 本文针对金融系统数据的特点,基于ETL基本原理,结合工作流调度引擎,设计开发了具有结构化数据和半结构化数据处理能力的ETL处理平台。SETL(SMARTETL)智能化ETL处理平台。(以下简称SETL平台) 针对结构化数据,SETL平台通过工作流以可插拔的方式提供了调用第三方工具的接口,可以实现大数据量高速加载,如数据仓库事实表的加载;同时,SETL平台也提供了编程连接数据库实现数据加载的常规数据加载方式,这种方式适合小数据量、实时性的数据加载,如数据仓库维表的加载。两种方式的切换通过工作流调度可以方便的实现。 针对半结构化数据,SETL平台给出了基于XML的半结构化数据处理方案。金融系统内部各单位会不定期的在内部网络系统中发布一些本单位的信息,以供其他单位和部门参考。这些信息大多以网站的形式对外发布。SETL平台提供的基于XML的半结构化数据的处理方案,不但可以将这些信息有效的抽取出来,而且可以将这些数据加载到数据仓库中,通过数据挖掘从中发掘出整个行业的发展趋势,进而可以协助管理层制定出符合本单位的发展策略。 SETL平台结合工作流实现了ETL调度控制,整个ETL过程在元数据的指导下通过工作流调度实现数据流向的控制。数据分流就是基于数据的背景知识通过工作流调度实现不同结构的数据自动流向不同的数据处理模块。 SETL平台是虽然是针对金融系统的需求设计的,但是,为了使平台有更广泛的使用范围,SETL平台在设计过程中尽量使子模块内聚,整体框架由工作流调度,低耦合,更容易应对需求变化。
其他文献
软件复用是解决软件危机的一条切实可行的途径。为此,不仅要有可复用软件资源库(以下简称复用库),还要使复用者能高效地找到合适的可复用软件资源。目前存在许多复用库按不同的
虚拟服装建模在服装工业、影视及游戏、电子商务等诸多领域都有着广泛应用,一直是计算机图形学领域的研究热点和难点,直到现在快速、逼真的布料模拟的实现仍然是一个挑战。本文
随着信息技术、多媒体技术和互联网技术的快速发展,人们可以更加方便地获取一幅数字图像。然而,人们在享受数字图像带来快乐的同时,也被一些无法识别的伪造图像的肆意传播所困扰
随着图像等多媒体资源的日益丰富,基于关键字和描述文本的传统检索方式已不能再满足检索需求,有效地管理海量数据资源的需求变得日益迫切。基于内容的图像检索技术于是应运而生
博客(Blog)作为一股正在迅速崛起的新的网络变革力量,它的出现丰富和改变了网络的内涵,影响了人们的信息传递方式,在最近几年的时间里迅猛发展,对人们的影响也越来越大。而随
当前,Web已经成为人们获取信息的主要渠道之一。然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器如何显示所定义的信息,却不包含任何语
随着计算机技术和网络应用的迅猛发展,人们的日常生活与工作越来越趋于数字化和网络化。大量数据在网络上的传播、网络交易的日益风行,使传统的版权保护手段和数据安全技术面
随着媒体数字化技术和网络技术的发展,人们在日常生活中所接触到的数字视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此,基于内容的视频处理和检索已成
逆向工程指的是从可运行的程序系统出发,生成对应源程序的系统结构以及相关的设计逻辑等等。它具有重大现实意义和经济价值,可以将大量的遗产系统转化为易于演化的系统,从而充分
随着计算机和网络技术在世界范围内的飞速发展,由过去的人适应机器逐渐向机器适应人发展。在计算机功能越来越强大的同时,计算机使用界面越来越简单、越来越易用。人机界面的