论文部分内容阅读
地震研究涉及地震学、地质学、地球物理学等多种学科,而且具有区域性和全球性特点。因此,实现地震信息共享将大大推进地震科学的研究进展。近年来,我们将Oracle数据库技术、应用服务器和门户网站技术应用于地震信息共享研究中,初步构建了中国地震局地质研究所的地震信息共享服务平台,取得了较好的成效。但是,随着地震信息共享工作的进一步深入,这种解决方案还有待于改进。我们体会到目前流行的数据仓库技术可以在更深层次上实现地震信息共享。 多年来,我国的地震台网积累了大量的测震和前兆数据,对这些数据的存储、处理和共享已经成为了我们要解决的一个重要问题。另一方面,上世纪九十年代以来数据仓库技术在海量数据的存储与处理方面得到了广泛的应用并产生了良好的社会效益和经济效益,目前,数据仓库技术已经是一项成熟的技术。考虑到地震数据共享的现状和数据仓库的效能,本文从地震信息共享面临的问题和相应的解决方案、数据仓库技术本身、数据仓库产品的选择、利用oracle数据仓库技术构建地下流体数据仓库的过程以及数据仓库性能优化等几个方面对以oracle数据仓库技术为基础的地震信息共享技术做了深入的探讨和研究。 首先,本文讨论了地震信息共享面临的问题和相应的解决方案。地震信息共享主要面临如下三个问题:(1)数据源多样复杂且数据一致性差;(2)地震信息业务系统数据量庞大,给数据的查询和应用带来了困难;(3)地震信息数据分析需求多样化,涉及部门多。而数据仓库技术恰恰对这些问题提供了合理的解决方案:(1)制订合理的数据整合策略,在集成过程中应用数据仓库的ETL(抽取、转换、装载)工具,可有效的解决第一个问题;(2)采用数据分区和合理的索引策略,提高数据管理的效率,将庞大数据中的有用信息简化、抽取、加载到数据仓库中,可有效的减少数据量并提高查询响应效率,第二个问题得到了解决;(3)在数据仓库中建立完整的数据视图,在此基础上根据不同的需求建立不同的数据集市,问题三也迎刃而解。 第一章讨论了地震信息共享数据仓库的定义、体系结构和关键技术等问题。数据仓库的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据摘要并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。 第二章讨论了构建地震信息共享数据仓库的产品的选取问题。通过对目前市场上主流数据仓库产品(Business Obieets、Oraele、IBM、Sybase、,nformix、NCR、Mierosoft、SAS、CA)进行分析与总结,并根据各公司提供的数据仓库工具的功能,给出了选择oraCle数据仓库产品的原因。 第三章是本文的重点,它以地下流体数据仓库的构建过程为例,对利用Oracle Warehouse Builde:建立数据仓库的方法和过程进行了详细的探讨和研究。总结起来,利用Oraele认/a rehouse Builder构建数据仓库应包括如下步骤(l)数据仓库和数据集市的设计,主要是进行元数据的定义;(2)在OWB中构建元数据,包括表、维和立方等;(3)在OWB中定义ETL映射和工作流;(4)完成部署并运行映射和工作流;(5)维护数据仓库的运行,用部署管理器进行生命周期的维护。本章对每一步的具体实现过程都作了详细的探讨。分 第四章主要讨论了数据仓库的性能优化。通过地下流体数据仓库的实例说明了在数据仓库中进行性能优化的方法,主要描述了分区和索引这两种手段。在讨论性能优化的过程中,采用了实际的客户端程序,对不同条件下测得的实际数据进行了比较。总结起来可以说,分区很好的提升了加载的性能,索引能有效提高小结果集查询的效率,而构建合理的HPQs结构的数据集市才是提高查询效率的最有效的手段。 最后是结论。通过对地震信息数据现状和地下流体数据仓库构建过程的详细研究,我们认为基于数据仓库技术构建地震信息共享平台有着深远的意义和良好的应用前景。关键词:地震流体信息共享OWB(Oraele认,arehouse builder)分区数据仓库 索引ETL数据集市夕