基于规则库的可扩展的数据质量分析框架研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:china_huohou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。然而由于各种原因,如人工操作的误输入、网络传输错误等,各个业务系统内部的数据本身存在着一些问题,如数据丢失、数据不一致等。另一方面,对这些业务系统数据进行整合以构建数据仓库时,由于各个系统间数据结构、模式的差异,又会产生新的数据质量问题。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,质量差的数据对企业的决策是毫无意义的。因此在构建数据仓库之前如何进行有效的数据质量分析以尽快发现潜在的问题并加以解决已成为构建数据仓库成败的关键。   目前数据质量分析在理论研究上取得了很多成果,也涌现出了很多优秀的数据质量分析工具。在实际应用中,数据质量分析通常依赖于特定的业务规则,如何有效的表述这些规则以辅助数据分析是当前的数据质量分析工具研究中需要解决的一个问题;可扩展性也是当前多数的数据质量分析工具所缺乏的一个重要特性。针对这些问题,本文对数据质量分析的应用做了一定的研究,主要工作和创新点如下:   1、研究了数据质量的相关理论,分析总结了数据质量分析方法论。   2、将Jess规则引擎引入到数据质量分析中,能够有效地对业务规则进行结构化表示,并自动完成数据质量分析。   3、针对现有数据质量分析工具不易扩展的问题,本文提出了一个新的基于规则库的可扩展的数据质量分析框架。用户可设计各种数据质量分析方法,并加入到框架中;一些通用的数据质量分析方法、业务规则可以得到很好的复用,从而达到知识积累的目的。结合该框架,本文对基本的数据质量分析流程进行了扩展完善。   4、设计并实现了一个基于该框架的系统原型。整个系统基于Eclipse RCP进行构建,用户可充分利用Eclipse插件技术来定制特定的数据质量分析方法,并有机地融入到系统中,实现系统的可扩展性。系统实现了数据汇总分析和基于Jess规则的数据质量分析两个主要功能。
其他文献
互联网正朝着高速的方向发展,大规模E-Science科学工程中产生的海量数据传输等应用对网络传输性能提出了很高的需求,而传统TCP协议机制不能适应高速长距离网络(Fast Long Dista
学位
随着应用环境越来越复杂,对成本和性能的要求越来越高,包括一个或多个处理器系统(处理器及其外设)、多级互连总线、存储器和高速接口等模块的SoC设计已经成为IC设计的趋势。随
随着无线传感器网络相关技术的深入研究和快速发展,无线传感器网络的应用逐渐深入到人类生活的各个领域。考虑无线传感器网络的软件开发将面临的软件危机问题,把构件化的软件开
行业应用软件的开发大部分是一些定制化的工作,这种编程上手不难,因为它的本质是一种集成性的工作,但由于集成的对象和涉及的内容非常多,决定了它不只是一个技术性的问题,而且涉及
搜索引擎是网络用户最常用的网络服务之一。用户通过向搜索引擎提交查询(Query)的方式获取与该查询相关的信息。由于用户的背景各不相同,即使他们输入完全相同的查询语句,其需
秘密分享技术是现代密码学领域中的一个重要分支,同时也是信息安全方向研究的一个重要课题。秘密分享最初是为解决密钥管理问题而产生的加密技术,随着信息技术的不断发展以及更
实物用户界面是一种新的3D界面,为其研究和开发高可用的交互技术是这一领域的研究重点之一。目前,很多科研机构和高校已经在实物界面领域展开了广泛的研究,但是,通过总结已有的研
代码复用攻击(Code-Reuse Attacks)是当前存储错误漏洞利用的最新技术。这类攻击在不注入恶意代码的情况下,通过复用应用中合法代码片段挟持应用控制流。因此,这类攻击可以绕过
绘制技术是计算机图形学的关键领域,有真实感与非真实感两大分支。真实感绘制生成高度逼真的画面。非真实感绘制产生抽象和艺术两种效果,其中抽象化图像能够提高人们的视觉沟通
本文针对物理链路可靠性低、容错性要求高、实体异构程度高的基础设施网格化需求,在系统分析当前主流的网格体系结构的基础上,研究了移动代理(PVM)系统的特性,根据移动代理的特