基于工作流的ETL研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:lan737898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国科学院资源规划项目(ARP)是一项目管理创新的举措,其最终目标是要形成一个适应信息时代要求的现代科研管理平台,而这一平台的基础是能够实时、准确反映科学院发展态势和科研活动状况的信息资源库。本文将在分析ARP系统的信息资源中心(IRC)所采用的技术架构的基础上,针对其中的核心部分ETL(Extract、Transformation、Loading,抽取、转换和加载)处理过程进行较为深入的研究,并提出一种基于工作流系统的ETL模型,以实现对IRC的优化。   工作流技术起源于生产组织和办公自动化领域,是以业务过程集成为目标的、基于模型的业务过程自动化技术。它是针对日常工作中具有较为固定的程序和逻辑关系的活动而提出的一个概念,目的是通过将工作任务分解成定义良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控。   分析表明,中国科学院ARP系统的IRC中集成了反映116个单位的人力资源、财务、资产和科研项目等方面的大量业务数据,对其进行有效的利用,可以为高层领导的决策提供科学的依据,而ETL是IRC数据处理过程中必不可少的、最重要的环节。实践中发现目前ARP项目IRC数据仓库的形成和处理过程还存在一些待优化的问题,而本文提出的基于工作流系统的ETL思想和基于工作流系统的ETL模型在IRC中的实现,将对IRC数据仓库构建过程的进行优化。   论文首先分析国内外数据仓库和工作流技术的发展现状;剖析构建中国科学院ARP系统IRC数据仓库的现有实现技术和方法;研究数据仓库ETL的实现过程;引入先进的工作流管理思想,并对工作流的定义及分类,WFMC的工作流参考模型以及相关视图的模型、工作流建模方法等进行了较详尽的描述。在理论研究的基础上,提出了基于工作流的IRC数据仓库核心-ETL模型,阐述了该模型的框架、软件体系构架,给出了基于工作流的IRC实现技术。论文最后展望了基于工作流的IRC数据仓库核心-ETL模型的未来,以及对中科院IRC数据仓库构建的重要作用和深远影响。
其他文献
在现实世界和工程实践中,可以产生大量的数据流,它不同于传统的静态数据。如何快速、高效地挖掘数据流中的频繁模式是数据流挖掘的重要问题。本文将研究重点放在数据流中基于
本文在分析当前城市应用中与事件相关的信息处置所遇到的主要问题的基础上,提出了一个面向事件的分层信息服务模型。该模型描述了资源、服务、领域知识、业务经验等要素在事件
软件缺陷数量是软件质量中的重要指标,也是软件工程领域研究一直关注的对象。如何减少软件产品的缺陷、提高软件质量始终困扰着软件开发组织。软件测试是减少软件缺陷的常用
随着全球经济一体化和分工专业化程度越来越高,供应链管理系统越来越复杂,如何对日趋复杂的供应链进行建模与分析,达到深入认识供应链并改造供应链的目的,成为当今国内外企业、软
数字信息的安全存储与传输是信息安全研究的核心内容,是保护信息机密性、完整性与可用性的关键技术。作为信息组织、存储与访问的核心,文件系统的安全性问题一直被人们所重视,尤
计算机技术的发展推动了社会各行业信息系统的广泛应用,保证信息系统的安全成为应用中的关键问题。要保障信息系统的安全,首要解决的就在于信息系统本身所基于的操作系统的安全
并联机构以其自身的多项优点,近年来倍受国内外关注。将6-DOF并联机构与结构光视觉技术相结合,构筑了一个具有特殊意义和应用前景的基于并联机构的三维视觉重构系统。本文以
随着计算机网络通信技术的迅速发展,企业之间和企业内部的关系变得越来越复杂,工作流技术成为解决日益复杂的企业管理过程的一个较好选择。同时面对多媒体技术和Internet的大
随着Internet技术的发展,应用软件系统网络化趋势越来越显著。在开放、动态和个性化的网络基础平台上,网络软件系统不论是开发还是运行都比较容易受到网络环境的影响。因此,能够
学位