论文部分内容阅读
科学研究活动中会产生大量的观测和实验数据,将这些数据进行收集处理后保存到数据库中供应用系统使用,或者在协同科研环境中共享,这是科研信息化(e-Science)的重要基础工作。数据装载的过程包括数据抽取(E)、数据转换(T)、数据载入(L)三个阶段,现有支持ETL机制的数据装载工具一般是面向同一类数据集成而设计的。本文研究工作的目标是结合协同工作环境套件Duckling的特点与需求,以DAIF插件方式实现一种能够处理多学科数据的数据装载工具。
本文在研究和归纳不同学科数据特点的基础上,提出了基于Duckling应用集成框架(DAIF)的数据装载工具的总体设计,其主要特点包括:基于可配置的规则实现对多种格式数据的抽取;在一个站点(数据源)中可以配置多条规则来处理多种数据;支持多种方式的数据采集器。已结合科研项目的实际需求实现了天文和分子生物学两类数据抽取规则,实现了电子邮件和FTP两种数据采集器。
本文的工作将集成在Duckling中进一步完善和推广,基于现有系统架构可以方便地扩展出支持新的学科领域的数据抽取规则以及新的数据采集器。