论文部分内容阅读
本文先后讨论了数据质量的产生原因及其影响要素、数据质量问题的分类、数据质量分析方法以及数据质量分析系统的概要模型。主要工作和创新点如下:
1.将数据质量分析方法归结为基于规则分级别分析的方法;应用动态聚类算法来进行相似重复记录检测,采用编辑距离算法度量记录之间的距离;
2.在总结当前数据质量分析方法的基础上,设计数据质量分析系统的概要模型,将数据质量分析系统的主要功能分为域分析和过滤器分析;
3.设计和实现了一个应用XML,WEB SERVICE等技术的数据质量分析系统,实现了域分析与过滤器分析等主要功能模块,为用户提供了一个分布式、跨平台、扩展性强、支持多用户、界面友好的数据质量分析平台;
对数据质量分析方法进行了总结,并设计了数据质量分析系统的概要模型,具有一定的理论意义;在此基础上,设计的数据质量分析系统,对该模型进行了实现,给用户提供了一个容易使用,界面友好的分析流程,增加了系统的实用性,这些都是对数据质量技术的应用很有意义的研究。