Hadoop分布式数据清洗方案

被引量 : 0次 | 上传用户:xm10282008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的迅速发展,信息数据急剧增长,在这些海量的数据中,如何更快、更准的挖掘用户感兴趣的信息,这一点变得越来越重要。而数据清洗作为数据挖掘的一个重要环节,在海量数据的清洗上也面临着很大的压力。数据清洗的主要任务包括三个:不完整数据的清洗、错误数据的清洗和重复数据的清洗。对于不完整数据及重复数据的清洗,现已经有很多成熟的方案达到预期的目标。而错误数据的清洗,由于其错误数据的定义不同,会出现不同的错误数据清洗方案,在通用性方面存在较大的劣势,特别是对海量数据的处理上,现在对应的解决方案也相对少。本论文以基于节能监管平台的能耗数据作为基本研究、实验对象。对于节能监管平台,其网络底层是由大量的下位机传感器构成的,如温湿度传感器、各种计量表、二氧化碳感应器。节能监管平台的能耗数据就是通过各种相应的网络协议从这些传感器获取的,其数据的主要特点是类别多、数据量大。但是在数据采集的过程中,由于设备原因、网络原因,不可避免的会产生一些错误的数据,如某一时刻的数据发生突增、骤减等现象。这类数据,在节能监管平台的数据库中将对节能策略会产生一定的影响。故为了减少其负面影响,本论文主要针对这类的错误数据(也称为异常数据或孤立点数据),提出一种相应的清洗算法,并针对海量数据这一特点,提出了Hadoop分布式数据清洗方案,使用Hadoop技术对孤立点数据进行挖掘清洗,实现分布式数据清洗,以达到对海量数据快速、准确的清洗效果,以最终保证数据挖掘及相应决策的正确性。本文首先简单介绍了该论题的国内外研究现状,并对Hadoop平台及数据清洗、孤立点挖掘算法进行了简述,然后通过对典型的数据清洗方案进行阐述,通过对比,提出一种Hadoop分布式数据清洗方案,详细描述了该方案的相关设计,并在该方案的基础上进而提出了一种基于Hadoop的分布式孤立点挖掘算法,使用区域划分的思想,减少计算复杂度,并使用Map/Reduce分布式技术实现该算法,最终通过该算法来实现对数据清洗过程中对孤立点数据的挖掘及清洗,实现最终的分布式数据清洗方案,最后将该算法方案与其他常见的孤立点挖掘算法的数据清洗效果进行实验对比,实验结果表明本文提出的分布式数据清洗方案能够提高数据清洗的准确度、灵活性及快速性。
其他文献
<正> 例1:男,25岁,以慢性肾炎、尿毒症、肾性高血压、心力衰竭、高血钾、上消化道出血、眼底出血,于1979年6月2日入院。神志清、血压170/120mmHg、脉搏96次/min、呼吸32次/mi
目的:通过对解脲支原体血清型1(Uu1)及过量乳酸杆菌DM8909在小鼠生殖道的定植率及致病率的对比研究,探讨过量乳酸杆菌在小鼠生殖道是否同样具有致病性。方法:将156只雌激素预处
一个先进的现代化文明社会需要发达的社会组织。基金会是非政府组织的重要组成部分,自1981年我国第一家民间公益基金会——中国儿童少年基金会成立以来,中国的基金会历经了30
民主与共和自古以来便充斥在政治学的价值观目录中,而文艺复兴以来,对人的独立思想的捍卫更是影响到政治学界。欧洲启蒙运动持续升温又对政治学有了根本性的重述。这种思想潮
岩溶在我国分布非常广泛,很多建筑物不可避免的建设在岩溶发育区,而岩溶塌陷具有严重的灾害特性,因此有必要对建筑物地基岩溶塌陷进行研究。本文是以澧水特大桥塔基基础岩溶
<正>今年是门捷列夫发现元素周期表150周年,是联合国的国际元素周期表年(IYPT2019),又是中华人民共和国70周年国庆、澳门回归祖国20周年、培正中学建校130周年。在这些喜庆的
首诊负责制的内涵,是指医师在接诊任一患者时,均应本着对患者健康和生命安全高度负责的精神,认真做好病史采集、体格检查,必要的化验、放射、功能检查,病历书写,诊断治疗、抢救,以及
问题促进学生思考,思考带给学生幸福。课堂教学的效果在很大程度上取决于教师问题设计及提问的技巧。教师问题设计时不能或不善提出有质量的问题,若再忽视提问的技巧,必然导
健全我国公司治理结构,董事的素质具有核心意义。做为公司受托人的董事对公司的忠实义务是其基本义务,主要体现在三个方面:董事有避免与公司发生利益冲突的交易之忠实义务;董
以农村居民点斑块为研究单元,在分析海棠镇农村居民点斑块综合影响力的基础上,基于不同地貌,制定差异化的空间布局优化策略,并应用加权Voronoi图指导居民点斑块的迁移方向。