基于Hadoop的重复数据删除技术的研究与应用

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:fionazj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着晶体管电路越来越接近物理上的性能极限,摩尔定律已经变得失效了,尽管如此,也不能把对大规模数据的处理的希望都寄托在越来越大型的服务器上。假如我们将现有的很多中低端的/商用的机器进行组合起来,构成一个具有专一功能的分布式系统,对大型数据的处理问题就迎刃而解了。   分布式计算近年来的发展飞速,Hadoop平台的成熟与稳定成为了使用最为广泛的平台。本文主要从如何提高数据质量,保证高质量记录这个角度出发,并以此为目的,在Hadoop分布式框架基础上设计并实现了一个对重复数据进行删除的平台。本文采用的Hadoop分布式计算框架是开源的,此外,它的稳定性和运算效率都比较高、运行成本低廉、兼容性好,扩充力高,并且采用的Map/Reduce编程模型非常适用于本文所做的研究。   如今是信息高速发展的年代,不管是个人还是企事业单位都会随着时间的递增产生越来越多是数据,而产生的这些数据实际上是我们不需要的信息,这时就会出现虽然数据多,但是有用信息少的窘迫局面,也就是常说的“数据爆炸,知识贫乏”的局面。数据质量的高低反映了数据的价值的高低,对于低质量的数据往往是无效不可用的,此时,数据删除这一解决数据质量的技术成为了研究的重点。本文主要专注于重复数据删除。   本论文首先介绍了数据删除中重复数据删除的研究背景及其意义,还有相关课题在国内外的研究现状。并针对目前备受瞩目的开源分布式架构Hadoop进行了相关研究,对Hadoop架构的两个核心技术——HDFS分布式文件系统与MapReduce编程模型进行了详尽的研究与分析。此后,阐述了重复记录删除的相关知识和基本原理及其相应的处理过程。   其次,根据Hadoop框架处理数据的特点,搭建并配置了基于Hadoop平台的实验环境,重点对完全重复记录和相似重复记录检测所用到算法作了比较深入的研究。以此为基础,将数据根据关键字段进行排序,经过一次聚类处理后,再用单机模式对第一次聚类的数据再进行一次聚类,实现了对完全重复数据以及相似重复数据的有效删除。经实验和实践验证,采用的相应的算法取得了很好的效果,并且,本文所提出的数据删除框架模型也有很好的实用价值   最后,针对本文所做的工作提出了几点不足,并提出了可以对其进行改进和研究的方向。
其他文献
无线传感器网络将大量传感器部署在需要进行观测的区域中,传感器节点之间通过无线方式进行互联。部署方式可以是随机分布,也可以是定点安置。由于在获取信息和处理信息上具有
随着信息技术的发展,人们的社交关系也已经被逐步搬到互联网上,正是基于社交关系的信息传播机制扩大了有效信息的传播范围。与传统的搜索引擎相比,社交关系背后隐藏的口碑效
微博作为一种新型的社交网络平台,已经成为用户发布和获取信息的重要途径。对微博进行主题建模能使用户从海量信息中找到感兴趣的信息和用户。但是由于微博消息长度短,更新速
股票的趋势研究一直是股民关心的问题,研究的方法有很多。本文使用了数据挖掘的一个重要分支,关联规则方法来挖掘股票间的联动关系,统计3只股票带时序上涨的情况在过去的某个
随着计算机系统日新月异的发展,软件攻击变得更为自动化和复杂。软件固有的自身缺陷及传统的安全防保方式的被动性已经不足以应付日益增加的计算机系统安全威胁。单单依靠软
移动Ad Hoc网(MANETs)是由一组移动节点组成的多跳、临时、无中心网络。网络中,每个移动节点带有无线通信收发装置,可以自由移动、地位相等,不需要现有基础网络设施的支持,可
在当今世界,国民经济的基础产业制造业显得尤为重要,机械制造业所能提供装备的技术性能、质量和可靠性,将直接影响国国民经济各部门的经济效益和生产技术水平[1]。因此。它常常被用作为衡量一个国家的国民经济综合实力以及一个国家工业化的水平。基于此情况,产品在生产过程中就必须严格的对其质量进行监管和把控。那么有效实施一个好的质量管理方案对产品生产过程的各个环节正确的把控,实时的监控就显得尤为的重要。故而,本
随着网络的发展,网络资源为客户提供服务的同时,其安全问题也越来越受重视。身份认证作为重要的网络安全保障手段,其应用也越来越广泛,但是多数身份认证系统并没有很好的解决
随着模拟对讲机用户数量日益增多以及频谱资源的逐渐紧张,模拟对讲机通信拥堵以及相互干扰等问题日益严重。与模拟对讲机相比,数字对讲机具有抗干扰能力强、频谱利用率高、通
为了让人们在上网时能更加快速准确的找到想要浏览的信息,本文在语义web的基础上,结合动态本体及agent的自我意识理论,提出了网眼agent的概念以及基于自我意识的语义web的基