基于SNM改进算法的相似重复记录消除

来源 :重庆理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:litho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。
其他文献
我国是以煤资源为主要能源和化工原料的国家。为了克服煤气化利用中的污染难题,洁净煤干煤粉气化技术得到了成功的应用,不仅显著提高了煤源利用率,而且降低了环境污染及生产成本
平均源边界点法(average source boundary node method,ASBNM)是一种新型无网格方法。采用该方法可避免边界元方法中的强弱奇异积分计算,克服了基本解法中的虚假边界问题。首次
当前,随着我国社会经济的快速发展,城镇化进程加快,产业拓展及人们的生活对于电能需求量日益增长.因此,为促进电力产业的稳定发展,需加快电力营销工作.文章就远程用电检查技