重复记录相关论文
建立合理的知识管理体系能为企业市场开发打造了创新竞争力。大中型企业实现市场知识管理不仅仅能解决以下问题:1)客户情况、工作......
数据质量是保证数据能够有效地发挥作用的关键。数据质量的保证贯穿于数据的整个生命周期,它是一个系统过程,是一个质量评估分析和各......
World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是......
随着经济的快速增长,数据量快速增加,越来越多的数据处理技术随之出现,例如数据收集、存储等。然而当企业决策人员希望使用这些海......
据报道,运动单位动作电位(MUAP)的波幅和时限受记录肌电图针电极类型的影响。有报道单极针电极记录的波幅较同轴针电极记录的大一......
掌声是被迫的跟从 男子陪女友去欣赏交响乐演出,感到枯燥乏味。他将目光从舞台上移开,向四周扫去,发现相当一部分像他这样陪着女友......
不少同学时常向我诉苦,说作文总是写不好,看了很多有关写作方法、技巧方面的书,还是没有提高,言语之间充满了困惑。 我会对这样的同学......
本文对数据清洗问题进行了研究.介绍数据清洗问题产生的背景,对数据清洗技术的原理、算法、度量标准进行了分析.重点对重复记录所......
洪水预报能帮助人类有效地防御洪水、减少洪灾损失,是一项重要的防洪减灾工作。而我国作为一个受洪涝灾害破坏严重的国家,因此,洪水预......
在检测数据库重复记录的研究中,基于BP神经网络的检测(Duplicate Record Detection based on BP Neural Network,简称DRDBPNN)算法......
随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化......
近年来,根据灾害损失统计表明,山洪灾害造成的危害愈来愈重,已成为当前防洪减灾中的一个突出问题。由于山洪灾害危害大,山洪的预报......
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理......
随着不确定数据成为研究的热点,不确定数据管理吸引了研究者的极大兴趣。目前业界已经使用概率数据库来存储和管理不确定数据。为合......
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记......
随着全球竞争的加剧,企业为了应对日趋严格的贸易环境,都在努力提升流程效率,以便降低成本和获得竞争优势。有鉴于此,从制造商到零售商......
程序员、Excel的使用者经常需要删除一些重复的行或记录。笔者通过实践中积累的经验,总结出在SQL2000与Excel中删除重复记录的方法......
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤.在数据挖掘过程中,重复冗余的数据会造成挖掘结果的偏差.本文使用AVL树作为......
在新型的铝电解网络监控系统中,需要对大量的监控数据构建数据仓库,为此,针对其重复记录的数据预处理问题进行了研究.在属性集的基......
数据清洗是提高数据质量的有效手段.分析了从Web上抽取的数据存在的质量问题或错误,针对错误类型,给出属性错误(包括不完整数据和异......
在利用Excel进行为客户建档工作中,有时候不可避免地会对某客户信息重复记录,但Excel有一小小的的缺陷。就是无法自动识别重复的记录......
针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算......
以往的数据清洗方法需要基于模式进行规则编码,费时、困难,而且后期难以修改规则。提出了一种新的相似重复记录的消除框架,可以使......
本文针对数据清洗中存在的记录之间语义相似性问题,提出了一种基于语义的相似性重复记录检测方法。该方法在检测重复记录时,不仅考虑......
美国矿业局的“废弃矿山土地计划”对利用地震活动监测技术监测地表沉降进行了研究和开发,以确定矿山空区的稳定性、空区破坏周期......
移动网络相似信息重复记录检测在专利分析系统中具有广泛的应用前景。针对当前方法存在检测耗时较长、查准率和查全率较低等问题,......
职场实际中,我们经常会遇到从多行多列数据中提取不重复记录的要求,这里介绍几种比较常见的操作方法:方法一:使用公式实现选择E2单元......
重复记录的清除是数据清洗领域的核心问题,但如何实施有效的清除一直是研究的难点。提出了一种通过建立聚类反馈模式规约来验证重......
给出了在使用Java开发数据库管理系统时,不使用数据源,而使用JDBC-ODBC桥直接连接数据库的类,并给出了在查询、插入、删除和更新时......
介绍一种使用Visual Basic宏处理Excel重复记录的方法,该方法灵活方便,值得推广,操作步骤如下。首先,打开一份带有重复记录的Excel文档......
解决了利用VFP开发管理信息系统中遇到的几个问题,如DBF表导出到Excel 2003时,只能导出有限的记录的问题,查询和删除DBF表中的重复......
介绍了数据清洗中的SNM算法和全文索引技术,通过引入全文索引技术对SNM算法进行了改进,以此提高了重复记录查找的速度和准确率,从......
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的......
<正>随着自动化技术和智能化电网的发展,作为电网调度自动化系统重要功能之一的遥控,显得愈来愈重要。调度员、远动维护人员必须要......
<正> 二、有重复记录时母牛遗传的评定奶牛产奶量在不同年度有重复记录时,用下列模型:这里hij=i个畜群中j个年-季的效应 gk=k个公......
随着信息化的深入,企业积累了大量数据。企业纷纷将分散的业务数据集成起来,建立数据仓库,为决策提供支持。然而,在数据仓库建设过程中......
<正>《大事记》是按时间顺序客观记载特定行政区域、政府部门或事业单位在一定时期内发生的自然、政治、经济、文化、社会等方面大......
在世界趋向信息化的时代,各行各业都充斥着大量的信息,而数据是信息的载体,从而导致越来越多的数据出现。人们总是埋怨“数据丰富,信息......
质量低劣的数据已经成为影响企业正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决......
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学......
数据查重是维护联合目录数据库质量的重要措施。本文分析了机读目录中数据查重的复杂性,介绍了几种有代表性的数据查重方法。......
在大数据时代来临的当前,数据量的增长速度飞快。获得干净的数据显得尤为重要。尤其随着数据收集的方式多种多样,其中必须要进行的......
数据清理在数据仓库与数据挖掘中有着广泛的应用,在许多软件开发过程中也起着重要的作用.本文在讨论常用清理方法的基础上,着重阐......