论文部分内容阅读
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。然而由于各种原因,如人工操作的误输入、网络传输错误等,各个业务系统内部的数据本身存在着一些问题,如数据丢失、数据不一致等。另一方面,对这些业务系统数据进行整合以构建数据仓库时,由于各个系统间数据结构、模式的差异,又会产生新的数据质量问题。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,质量差的数据对企业的决策是毫无意义的。因此在构建数据仓库之前如何进行有效的数据质量分析以尽快发现潜在的问题并加以解决已成为构建数据仓库成败的关键。
目前数据质量分析在理论研究上取得了很多成果,也涌现出了很多优秀的数据质量分析工具。在实际应用中,数据质量分析通常依赖于特定的业务规则,如何有效的表述这些规则以辅助数据分析是当前的数据质量分析工具研究中需要解决的一个问题;可扩展性也是当前多数的数据质量分析工具所缺乏的一个重要特性。针对这些问题,本文对数据质量分析的应用做了一定的研究,主要工作和创新点如下:
1、研究了数据质量的相关理论,分析总结了数据质量分析方法论。
2、将Jess规则引擎引入到数据质量分析中,能够有效地对业务规则进行结构化表示,并自动完成数据质量分析。
3、针对现有数据质量分析工具不易扩展的问题,本文提出了一个新的基于规则库的可扩展的数据质量分析框架。用户可设计各种数据质量分析方法,并加入到框架中;一些通用的数据质量分析方法、业务规则可以得到很好的复用,从而达到知识积累的目的。结合该框架,本文对基本的数据质量分析流程进行了扩展完善。
4、设计并实现了一个基于该框架的系统原型。整个系统基于Eclipse RCP进行构建,用户可充分利用Eclipse插件技术来定制特定的数据质量分析方法,并有机地融入到系统中,实现系统的可扩展性。系统实现了数据汇总分析和基于Jess规则的数据质量分析两个主要功能。