一种使用双阈值的数据仓库环境下重复记录消除算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wangyuan1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阚值来判断两条记录是否为重复记录。过大的阚值将导致返回率下降,过小的阚值将导致误检率上升。文章提出了一种双阚值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。
其他文献
应用地统计学原理和方法,分析了夏玉米田间90m×90m(L区),内套一个30m×30m(M区),再内套一个10m×10m(S区)3个尺度下土壤含水量和电导率的空间变异性.结果表明,
<正> 俄语,同其他语言一样,也有一些单复数同义的名词,这是现代俄语中的一种常见现象。如常用复数形式(油渣,油饼)代替具有同义的单数形式饿。这时的复数形式已经失去了数的
以《中国医学史》课程教学为实例,从立体的知识结构、敢于怀疑的精神、有理有据的分析等方面,简要探讨如何培养学生的批判性思维,指出发现问题、分析问题、解决问题的关键是
冰雪旅游行业的不断发展使整个旅游市场交易额不断增大。然而我国冰雪旅游还存在消费者信任度较低,各种渠道合作意识不够,电子商务中介机构运营成本过高,以及存在着安全保障系统
一、价值的哲学探讨哲学意义上的价值,指的是客体的属性与功能能够满足主体的需要,或者说是客体属性与功能满足主体需要的效应。价值是在主客体关系的基础上产生的,它的基础
植物新品种保护制度是保护育种者权利、促进农业发展、保护生物多样性及保障粮食安全的重要举措,是我国知识产权法律体系的重要组成部分。但是,审视我国现行的相关制度,仍然
为了解决现有高压无气喷涂机压力控制误差大、喷涂压力不稳定的问题,设计了一种用PID控制涂料压力的高压无气喷涂机液压控制系统,研究了喷嘴结构对涂料压力的影响,并用AMESim软
为了探明麻豌豆(Pisum sativum)种皮麻色(种皮具紫色斑点)的遗传特点,本研究以麻豌1号(种皮麻色、紫花、半无叶型)、中豌6号(种皮无麻点、白花、普通叶型)、90-PE-10(种皮无麻点、白花
在江门迎宾大桥病害治理过程中 ,采用“壁可法”灌缝、粘贴钢板、粘贴碳纤维布补强 3项治理桥梁病害的新材料、新工艺、新技术 ,获得了满意的加固效果 In Jiangmen Yingbin
英语写作体裁教学法是当今外语教学界比较流行的写作教学法.本文主要探讨了在写作课上如何利用因特网的优势,并结合体裁教学的原则,帮助学生提高写作水平.