数据挖掘中的重复记录检测算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:kkyilian2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况,这些统称为“脏数据”。人们需要从数据集中获取真实可靠的数据就必须进行数据清洗。而重复记录检测是数据清洗领域中的研究热点。本文首先介绍了数据仓库、数据清洗以及重复记录检测的相关知识,包括数据清洗的原理、方法、基本流程和工具以及重复记录检测匹配算法和重复记录检测清除算法。在此基础上,本文提出了三个改进算法。分别是基于传递闭包的重复记录检测算法,基于属性分析的重复记录检测算法和基于完全子图的重复记录检测算法。基于传递闭包的重复记录检测算法在SNM算法的基础上提出了三个方面的改进,分别是在排序步骤进行多趟排序,引入判断机制和引入特定权值和有效权值。基于属性分析的重复记录检测算法是在基于传递闭包的重复记录检测算法的基础上,提出两个方面的改进,通过属性分析,并引入过滤机制。在保证正确率的同时,有效的提高了算法的效率,减少算法的运行时间。基于完全子图的重复记录检测算法是针对前两个算法中因为应用传递闭包而产生误识别的问题而提出的改进算法。算法的解决方法是将相似记录集视为一个完全子图,将合并相似重复记录的问题转换为在连通图中寻找完全子图。最后,论文通过实验验证,表明改进的算法取得了良好的效果。
其他文献
槽填充(Slot Filling)任务是TAC(Text Analysis Conference)会议于2009年提出的KBP(Knowledge Base Population)评测任务的主要组成部分。作为问答系统和信息抽取中关系抽取
伴随着人们日益增长的多媒体需求,多媒体技术有了突飞猛进的发展。而多媒体技术最核心的部分—视频编解码技术同样也得到了快速的发展。AVS是我国自主研发的音视频编解码标准
与国内典型的报名系统不同,跨境招生报名系统具有用户类型多、用户交流所用语言不统一、系统性能受国际出口带宽限制、系统支撑平台复杂等诸多特点,在此诸多特点下,跨境招生
高血压是严重影响我国居民身心健康的疾病,但是目前我国的医疗卫生条件并不能跟上高血压患者的就医需求,存在“看病难、看病贵”等诸多问题,因此国家大力地推进医疗信息化建
聚类是数据挖掘的主要技术之一,也是学术界研究的热点问题,并在各个领域的数据分析中起到重要作用。聚类边界的识别有助于提高聚类结果的准确性和揭示聚类所具有的特性,对它
信息技术的发展使数据得到了爆炸性的增长,这些来自互联网及生活中的数据往往存在着紧密的关联性,图作为一种广泛应用的数据结构,非常适合用来描述这些具有紧密关联性的数据,这些
随着计算机技术的不断发展,计算机软硬件系统已经深入渗透到实际生活中的各个领域,若这些系统一旦出错,将给人类带来不可承受的损失,所以,安全问题已经逐渐成为人们的重点关
近年来,中国奶牛养殖业快速发展,黑龙江省的奶牛养殖业已经具有很大的规模,且呈逐年上升趋势。多数奶牛场尚缺乏有效的监测管理机制,当奶牛在养殖场饲养过程中,出现生理异常或走失
车辆图像检索是智能交通系统的重要组成部分,车辆检索在高速公路服务区、停车场等场所以及在停车场智能管理、高速公路自动收费、道路监控、超时停车检测等方面有着非常好的应
  随着互联网的普及应用,互联网已经成为影响人们工作和生活的一种新媒介。越来越多的人们更愿意通过互联网提供的各种平台表达个人情感、表达自己对国际形势、政府政策以及