面向重复记录检测的数据清洗算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jiushizhegehao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现今社会的信息发展过程中,各种来源的数据不断累积,但是原始累积的数据往往含有脏数据,例如错误的、相似重复的和缺失的数据等,对于脏数据进行清洗的一个关键点在于去除数据集中的重复数据。本文主要对相似重复记录检测的相关算法进行了研究与创新。相似重复记录检测是指准确地检测出源数据集中的重复数据,以达到清洗数据的目的。在真实情景中,数据规模庞大,数据来源多样,这都增加了重复数据检测的难度。虽然存在一些解决这类问题的优秀算法,例如近邻排序算法和多趟近邻排序算法等,但是已有的算法在解决实际应用中的重复记录检测问题时,仍存在不足之处。本文首先研究了传统的多趟近邻排序算法,并对该算法的缺点进行改进,提出了优化的多趟近邻排序算法(OMPN),以适用于实际问题;然后,通过研究基于遗传神经网络求解重复检测问题的算法,将OMPN算法与神经网络相结合,得到准确度更高的A-OMPN算法和BP-OMPN算法;最后,将本文提出的OMPN算法应用于“航天情报信息管理系统”的数据清洗模块,该算法在实际应用中得到了较好的效果。本文的主要内容如下:1.优化的多趟近邻排序算法(OMPN)。传统的多趟近邻排序算法首先对数据集中的记录依据预先选取的排序关键字进行排序,使得相似重复记录排序后位置相近,然后使用固定大小的滑动窗口对排序后的数据进行判等。但是,该过程不仅需要依赖专家经验知识进行关键字的选取,而且需要人工选择判等字段,也没有考虑真实数据可能存在数据缺失的问题,同时,固定大小的滑动窗口不仅会导致对重复数据的检测不全面的问题,而且会导致对非重复数据的冗余检测。本文在多趟近邻排序算法的基础上,提出基于字段区分度的关键字选取方法,根据数据的统计特点进行关键字的选取,同时,在判等过程中,同样根据字段区分度为字段赋予不同权值,避免了人为干扰;然后,采用自适应大小的滑动窗口对排序后的记录进行检测,减少了漏检记录数量和冗余操作;最后,对源数据中存在缺失值的记录进行标记和单独检测。通过实验验证,本文所提出的改进的多趟近邻排序算法具有较高的查全率,且更适用于真实问题场景。2.基于神经网络的多趟近邻排序算法(A-OMPN和BP-OMPN)。基于遗传神经网络进行相似重复记录检测的算法效果较好,但是该算法时间复杂度较大,耗时严重。本文将多趟近邻排序算法与遗传神经网络相结合,提出了基于遗传神经网络的增强的多趟近邻排序算法,记作A-OMPN,使得神经网络可以仅对同一个滑动窗口内的记录进行判等,避免了传统的遗传神经网络对数据全集上的任意两个不同的记录进行判等,极大地提高了算法的运行效率。同时,考虑到遗传神经网络训练速度慢的缺点,本文尝试使用单一的神经网络执行判等操作,得到了基于单一神经网络的多趟近邻排序算法,记作BP-OMPN。作为OMPN算法和传统遗传神经网络算法的结合,实验结果表明,A-OMPN算法和BP-OMPN算法能得到比OMPN算法更高的查准率,并且比传统的遗传神经网络算法的运行效率更高。3.本文所提出的OMPN算法在“航天情报信息管理系统”中的应用。本文主要完成了该系统的数据清洗模块和移动端模块的开发。在真实业务场景中,航天情报管理系统的数据清洗模块需要实现对源数据的去重和清洗,因为该系统所使用的数据是真实的不带标签的数据,且数据规模相对较小,所以综合分析OMPN算法、A-OMPN算法与BP-OMPN算法的优势与适用场景,最终采用OMPN算法实现该系统的数据清洗模块。
其他文献
目的:为探讨手机应用程式联合中医辨证体质对2型糖尿病的影响,本研究设计和开发一款基于安卓系统的手机应用程序并进行可用性测试,构建以糖尿病应用程序为干预工具的中医饮食调护方案,评价方案可行性与临床效果。方法:本研究由两大部分内容组成:1.糖尿病患者健康管理应用程式的研发。采用以用户体验为主的方法进行界面设计,结合问卷调查、文献资料等方法进行用户研究和需求分析,在此基础上形成应用程序的低保真原型,使用
在20世纪90年代中期,英国历史走到了一个艰难的十字路口,英国宪制遇到了前所未有的危机。首先,外部环境悄然改变,欧洲经济和政治的一体化对英国的主权观念和人权观念造成巨大
随着我国“一带一路”战略的深入部署,藏语等资源稀缺型语言的智能处理需求日益迫切。藏语句法的理论研究和实用分析技术的水平,直接影响藏汉机器翻译系统性能,有重要研究价
烧结过程是钢铁冶金生产的一项基础环节,也是非常复杂的非线性动态时变的一个过程。烧结终点(BTP)是指烧结混合料完全烧透的位置,可用烧结机的风箱表示。烧结终点作为烧结状态的一个重要参数,可以直接展现出烧结过程的状态,并对烧结矿的质量、产量有重要影响。烧结终点具有多变量、非线性、强耦合、大滞后等特点,利用系统的机理建模和传统控制方法难以对其准确预测和控制。针对烧结终点难以预测和控制的问题,本文开展了烧
利用计算机来追踪和识别手部姿态是一种自然的人机交换方式。目前在基于视觉的手势识别方面的研究取得不小的进步,然而离实际的应用还有一段距离。很多基于彩色图像的手势识
移动通信网络从第一代的模拟蜂窝系统发展到了现今的第四代通信系统,在这个过程中移动通信网络容量在不断地增长。需要通过增强现有移动宽带网络的方法来满足未来网络服务的
图像特征提取技术是目前计算机视觉领域的研究热点,已广泛应用于生物识别、目标检测、图像检索以及车牌识别等领域。在实际应用中,由于受光照、视角、遮挡或其他因素的影响,
图像哈希(Hash)作为一种反应图像内容的简短序列,有着广阔的发展前景和实际研究价值。鲁棒性和唯一性是评价哈希方法的关键指标。图像数据在海量增长的同时也面临着安全隐患
当今时代,随着中国社会经济的快速发展,建筑工程领域尤其是招投标领域日趋扩大,招投标行业市场面临着愈发激烈的竞争,中标施工项目带来的巨大经济利益诱惑相关人员走上违法串通投标的道路。在此背景之下,出现了各种问题。本文利用北大法宝网搜集到关于串通投标罪的裁判文书,运用大数据分析的方法,对串通投标罪案件的审理现状进行总结,发现串通投标罪主体获利性明显,同时,犯此罪的人员,也较多触犯其他经济犯罪,法院对犯此
基于位置服务(LBS)呈现出快速增长的趋势,受到各个领域的广泛关注,有了很大的市场需求和应用价值。在享受LBS的前提下,人们在出行时越来越享受定位带给的便捷与舒适。随着无