论文部分内容阅读
中国科学院资源规划项目(ARP)是一项目管理创新的举措,其最终目标是要形成一个适应信息时代要求的现代科研管理平台,而这一平台的基础是能够实时、准确反映科学院发展态势和科研活动状况的信息资源库。本文将在分析ARP系统的信息资源中心(IRC)所采用的技术架构的基础上,针对其中的核心部分ETL(Extract、Transformation、Loading,抽取、转换和加载)处理过程进行较为深入的研究,并提出一种基于工作流系统的ETL模型,以实现对IRC的优化。
工作流技术起源于生产组织和办公自动化领域,是以业务过程集成为目标的、基于模型的业务过程自动化技术。它是针对日常工作中具有较为固定的程序和逻辑关系的活动而提出的一个概念,目的是通过将工作任务分解成定义良好的任务、角色,按照一定的规则和过程来执行这些任务并对它们进行监控。
分析表明,中国科学院ARP系统的IRC中集成了反映116个单位的人力资源、财务、资产和科研项目等方面的大量业务数据,对其进行有效的利用,可以为高层领导的决策提供科学的依据,而ETL是IRC数据处理过程中必不可少的、最重要的环节。实践中发现目前ARP项目IRC数据仓库的形成和处理过程还存在一些待优化的问题,而本文提出的基于工作流系统的ETL思想和基于工作流系统的ETL模型在IRC中的实现,将对IRC数据仓库构建过程的进行优化。
论文首先分析国内外数据仓库和工作流技术的发展现状;剖析构建中国科学院ARP系统IRC数据仓库的现有实现技术和方法;研究数据仓库ETL的实现过程;引入先进的工作流管理思想,并对工作流的定义及分类,WFMC的工作流参考模型以及相关视图的模型、工作流建模方法等进行了较详尽的描述。在理论研究的基础上,提出了基于工作流的IRC数据仓库核心-ETL模型,阐述了该模型的框架、软件体系构架,给出了基于工作流的IRC实现技术。论文最后展望了基于工作流的IRC数据仓库核心-ETL模型的未来,以及对中科院IRC数据仓库构建的重要作用和深远影响。