基于迭代式SNM的实体解析方法及优化策略的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xiao678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析(Entity Resolution,也称为实体识别)是数据挖掘、信息融合等领域的难点问题,利用实体解析技术可以判断一个或多个数据源中的不同记录是否描述相同实体,对数据集成中产生的重复记录进行检测并整合,可有效地消除数据源内部以及数据源之间的数据不一致性。然而,随着互联网的日益兴起,网络数据呈爆炸式增长,如何使实体解析技术有效地应用于更加杂乱无章的大规模数据环境中,是目前国内外数据挖掘、信息融合等领域研究学者的研究热点,其研究目标或者在于获取较高的识别结果质量、或者在于获取较高的实体解析效率。相应地,基于迭代的实体解析方法和基于SNM(Sorted Neighborhood Method,简称SNM即近邻排序)的实体解析方法被分别提出:前者通过迭代式地进行实体匹配和整合来提高识别结果的质量,但该方法往往具有较高的时间复杂度;后者采用滑动窗口方法,每次只在窗口范围内进行实体匹配,优点是匹配效率较高,缺点是难以保证识别结果的质量。针对上述问题,本文提出了一种基于迭代式SNM的实体解析方法,该方法将基于迭代的实体解析方法和基于SNM的实体解析方法的优点相结合,能够在保证实体解析结果的质量的同时,有效地提高实体解析的效率。本文的主要工作及贡献点如下:(1)系统地介绍了实体解析问题的国内外研究现状,简要概括了代表性的相关工作,指出其优缺点,并分析现存研究的不足之处。(2)针对已有问题,提出了一种基于迭代式SNM的两阶段实体解析方法(Iterative SNM-based Two-stage Entity Resolution Method,简称SIER),该方法将实体解析过程分为两个阶段:第一阶段基于SNM进行初始实体匹配,能够快速地对实体进行划分,得到初始匹配结果;第二阶段通过对记录进行迭代式比较和合并,对第一阶段得到的初始匹配结果进行不断地修正,以提高结果的召回率,同时由于每次迭代的比较范围只在迭代窗口内进行,从而保证了实体解析的速率。(3)进一步改进了SIER实体解析算法,提出了两种优化策略:基于记录标记的优化策略ISIER和基于组标记的优化策略IISIER,能够有效减少不必要的记录匹配,进一步提高了SIER实体解析算法的效率。(4)通过实验验证了本文所采用的关键技术的可行性和有效性。同其它实体解析策略相比,本文提出的SIER方法能够使用较少的比较次数,而达到与其他方法相同的实体解析效果;另外,同SIER方法相比,本文提出的ISIER和IISIER两种优化策略能够显著提高实体解析的效率。
其他文献
随着计算机技术,特别是Internet技术的迅猛发展,在企业内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准,形成了现有的应用系统多是分散、异构、封闭的系统,相互之间
在软件测试过程中,测试用例的生成是软件测试的关键和难点。目前,测试用例的生成主要靠手工完成,而且要求软件测试人员具有一定的经验和较高的专业水平,导致测试效率低下,软件成本
随着信息技术的迅速发展及其在制造业中的广泛应用,企业信息化建设进入了一个蓬勃发展的时代,如何把工艺设计人员从繁重的重复劳动中解放出来;如何有效管理大量的工艺文件和
鉴于开放的异构Web生物信息源数据量庞大,Web 访问低效而易出错,检索接口不完善,难于查询和检索,Web页面结构化程度低等问题,本文研究了基于语义网格的生物信息集成技术,从信息的查
业务构件是企业核心单据的软件实现,对于这种大粒度的软构件,其开发过程存在着大量的重复劳动,且其庞大的代码影响着自身的快速重构。ICEMDA(Interoperable, Configurable an
作为一种近年来才出现的、新颖的聚类算法,双聚类算法侧重于对子空间内的相似模式进行聚类,这种算法在高维数据的聚类方面具有良好的应用前景。已经证明,双聚类问题是NP-Hard问
随着Web应用程序的广泛使用,传统的B/S模式已不能满足日趋复杂的应用需求。这时,RIA技术应运而生,它将桌面应用程序与Web应用程序的优点有机地结合起来,满足了网络应用程序不断提
随着计算机技术、网络技术和通信技术的发展,基于视频内容的应用已逐渐成为当前多媒体技术的研究重点和发展趋势。视频对象分割作为实现基于内容的存储、传输和检索等视频应
随着数据库规模的日益扩大,数据库的模式也愈加复杂,再加上文档资料的缺乏,用户需要投入大量的时间来理解和操作数据库。现有的数据库概化方法只是对数据库中的模式进行概化,
随着信息技术的不断发展,web应用已成为人们生活中不可或缺的一部分,然而海量信息的爆炸式增长导致信息迷航。个性化服务就是利用用户兴趣偏好和行为特征来获取用户个性化模