Web信息整合中的数据去重方法

来源 :计算机应用 | 被引量 : 5次 | 上传用户:wmwanll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。
其他文献
本文就利多卡因注射液分别用0.1mol/LNaOH 及5%NaHCO_3溶液碱化后的外观变化进行了探讨。结果表明,在30℃时,2%利多卡因注射液用5%NaHCO_3调节pH 至7.0、7.21及7.41,其稳定时
一、学习"三个代表",必须深刻理解党的先进性"三个代表"重要思想的理论和实践意义集中到一点,就是对共产党人的先进性作了更加全面、系统、科学的定位和概括,进一步揭示了党
<中国共产党党内监督条例(试行)>是建党以来党内颁布的首部监督大法,是建立健全教育、制度、监督并重的惩治和预防腐败体系的一部最重要法规.
针对广义Hough变换(GHT)算法匹配发生旋转图像中的目标形状时发生误匹配的问题,提出一种基于U弦长曲率的具有抗旋转性的广义Hough变换算法。首先,对模板形状采用边缘点的U弦长曲率和偏移向量等特征构建具有旋转不变性的修改的R-表;其次,以图像中边缘点的曲率作为索引,查找构建的R-表得到偏移向量等信息;最后,根据查得的信息计算图像中目标形状的可能的参考点位置进行投票。根据投票结果即可提取出图像中
本文报告15例健康志愿受试者,其中甲组成人8例,乙组儿童7例,分别以医工院试制的氨苄青霉素钠锭剂口服,栓剂直肠给药,一次剂量均为250mg,1wk 后分别以苏州第三制药厂产品氨苄
特征提取是图像检索或图像配准的关键步骤,针对单一特征不能很好地表述图像的问题,根据医学图像的特点,提出了一种融合全局特征和局部特征的医学图像检索算法。首先在研究单一特征医学图像检索算法的基础上,提出了融合全局特征和相关反馈的检索算法;其次对尺度不变特征转换(SIFT)特征进行了优化,提出了改进的SIFT特征提取算法和匹配算法;最后,为了保证结果的准确性并改进检索效果,采用了融合局部特征的方法逐步求
本刊对来稿实行三审制,即初审、二审、三审。为了使作者及时了解自己文章的处理情况,本刊编辑部在网站上特别设置了“初审通告”栏目,及时公布稿件初审结果。具体查寻方法为:登录
口述台站档案是一种特殊的档案资源,对气象数据管理现代化建设和气象数据共享服务具有重要的参考和利用价值。本文分析了气象台站历史沿革信息记录存在的问题,研究认为口述档
目的:比较獐牙菜属及近缘植物中獐牙菜苦苷、龙胆苦苷、芒果苷、齐墩果酸的含量,为资源利用提供依据。方法:獐牙菜苦苷、龙胆苦苷、芒果苷色谱条件:ZORBAX SB—C18色谱柱(4.6mm&#21
现有的视觉背景提取方法(Vi Be)在背景建模时只利用了像素的空间信息,而忽略时间信息,降低了检测的准确性,且检测半径和背景更新的随机子采样因子都为固定常数,在动态背景干扰、相机抖动等情况下,检测效果不理想。针对这些问题,提出一种时空背景模型的自适应运动目标检测方法。首先,在Vi Be方法中加入时间信息建立时空背景模型;然后,在检测和更新过程中,提出背景模型中样本的标准差能反映背景的复杂度,通过计