大数据环境下一种高效的重复记录检测方法

来源 :洛阳师范学院学报 | 被引量 : 0次 | 上传用户:letter0110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于同级属性的重复记录检测方法。首先给出了同级属性的判断方式,然后通过查找数据集中的同级属性,来缩减数据集中需要计算的属性个数,提升相似重复记录检测的效率。实验结果表明,受同级属性在数据集中所占比例的影响,该方法能够不同程度的提高相似重复记录检测的效率。
其他文献
本文构建2016~2019年山东省各地级市PPP投资规模、财政收入等相关经济指标面板数据,在进行F检验、LM检验和稳健的豪斯曼检验后,选用固定效应模型计算分析PPP项目投资规模对地
对水稻种植来说,培育壮苗前期准备是十分重要的一个环节,它直接影响着水稻的产量和质量,也是水稻种植的基础。本文对寒地水稻的培育壮苗前期准备加以分析和探讨。
随着经济全球化及信息一体化进程的加速,我国社会的文化环境呈现出多元文化并存的格局。成长于这一社会环境中的当代大学生,时刻感受着各种文化的影响,其价值观日益显示出多
本文采用2015年中国综合社会调查数据(CGSS2015),基于家庭资本和阶级认同两个方面,详细分析其对个体创业的影响.实证研究发现:个体所在家庭总收入与家庭房产数量与创业呈显著
政府数据开放程度是推动数字经济发展和驱动传统产业转型升级的关键。本文通过分析河南省政府由信息共享走向数据开放的紧迫性,调研当前河南省政府数据开放存在的问题,提出加
春秋时期,周王室的衰微、诸侯争霸、大夫执政乃至"陪臣执国命"等因素,共同造成了中国古代社会典型的"失范"状态。周王室的衰微是其根源,私家的兴起只是加速器,而时人对周礼背后之
广西农业在广西生产总值中占有较高位置,但广西农业生产的抗灾性较差,生产机械化不足,农民收益较低。为此,广西保险业从农业保险的险种、保险政策、保险补贴以及“保险+期货
学术不端现象已经涉及到了学术的各个方面,干扰了学术自由,制约了学术的创新发展。社会环境的改善和制度的完备从社会层面上固然可以有效减少这种现象的发生,但从个体层面上,