论文部分内容阅读
随着信息化社会的迅速发展,信息数据急剧增长,在这些海量的数据中,如何更快、更准的挖掘用户感兴趣的信息,这一点变得越来越重要。而数据清洗作为数据挖掘的一个重要环节,在海量数据的清洗上也面临着很大的压力。数据清洗的主要任务包括三个:不完整数据的清洗、错误数据的清洗和重复数据的清洗。对于不完整数据及重复数据的清洗,现已经有很多成熟的方案达到预期的目标。而错误数据的清洗,由于其错误数据的定义不同,会出现不同的错误数据清洗方案,在通用性方面存在较大的劣势,特别是对海量数据的处理上,现在对应的解决方案也相对少。本论文以基于节能监管平台的能耗数据作为基本研究、实验对象。对于节能监管平台,其网络底层是由大量的下位机传感器构成的,如温湿度传感器、各种计量表、二氧化碳感应器。节能监管平台的能耗数据就是通过各种相应的网络协议从这些传感器获取的,其数据的主要特点是类别多、数据量大。但是在数据采集的过程中,由于设备原因、网络原因,不可避免的会产生一些错误的数据,如某一时刻的数据发生突增、骤减等现象。这类数据,在节能监管平台的数据库中将对节能策略会产生一定的影响。故为了减少其负面影响,本论文主要针对这类的错误数据(也称为异常数据或孤立点数据),提出一种相应的清洗算法,并针对海量数据这一特点,提出了Hadoop分布式数据清洗方案,使用Hadoop技术对孤立点数据进行挖掘清洗,实现分布式数据清洗,以达到对海量数据快速、准确的清洗效果,以最终保证数据挖掘及相应决策的正确性。本文首先简单介绍了该论题的国内外研究现状,并对Hadoop平台及数据清洗、孤立点挖掘算法进行了简述,然后通过对典型的数据清洗方案进行阐述,通过对比,提出一种Hadoop分布式数据清洗方案,详细描述了该方案的相关设计,并在该方案的基础上进而提出了一种基于Hadoop的分布式孤立点挖掘算法,使用区域划分的思想,减少计算复杂度,并使用Map/Reduce分布式技术实现该算法,最终通过该算法来实现对数据清洗过程中对孤立点数据的挖掘及清洗,实现最终的分布式数据清洗方案,最后将该算法方案与其他常见的孤立点挖掘算法的数据清洗效果进行实验对比,实验结果表明本文提出的分布式数据清洗方案能够提高数据清洗的准确度、灵活性及快速性。