论文部分内容阅读
实体解析(Entity Resolution,也称为实体识别)是数据挖掘、信息融合等领域的难点问题,利用实体解析技术可以判断一个或多个数据源中的不同记录是否描述相同实体,对数据集成中产生的重复记录进行检测并整合,可有效地消除数据源内部以及数据源之间的数据不一致性。然而,随着互联网的日益兴起,网络数据呈爆炸式增长,如何使实体解析技术有效地应用于更加杂乱无章的大规模数据环境中,是目前国内外数据挖掘、信息融合等领域研究学者的研究热点,其研究目标或者在于获取较高的识别结果质量、或者在于获取较高的实体解析效率。相应地,基于迭代的实体解析方法和基于SNM(Sorted Neighborhood Method,简称SNM即近邻排序)的实体解析方法被分别提出:前者通过迭代式地进行实体匹配和整合来提高识别结果的质量,但该方法往往具有较高的时间复杂度;后者采用滑动窗口方法,每次只在窗口范围内进行实体匹配,优点是匹配效率较高,缺点是难以保证识别结果的质量。针对上述问题,本文提出了一种基于迭代式SNM的实体解析方法,该方法将基于迭代的实体解析方法和基于SNM的实体解析方法的优点相结合,能够在保证实体解析结果的质量的同时,有效地提高实体解析的效率。本文的主要工作及贡献点如下:(1)系统地介绍了实体解析问题的国内外研究现状,简要概括了代表性的相关工作,指出其优缺点,并分析现存研究的不足之处。(2)针对已有问题,提出了一种基于迭代式SNM的两阶段实体解析方法(Iterative SNM-based Two-stage Entity Resolution Method,简称SIER),该方法将实体解析过程分为两个阶段:第一阶段基于SNM进行初始实体匹配,能够快速地对实体进行划分,得到初始匹配结果;第二阶段通过对记录进行迭代式比较和合并,对第一阶段得到的初始匹配结果进行不断地修正,以提高结果的召回率,同时由于每次迭代的比较范围只在迭代窗口内进行,从而保证了实体解析的速率。(3)进一步改进了SIER实体解析算法,提出了两种优化策略:基于记录标记的优化策略ISIER和基于组标记的优化策略IISIER,能够有效减少不必要的记录匹配,进一步提高了SIER实体解析算法的效率。(4)通过实验验证了本文所采用的关键技术的可行性和有效性。同其它实体解析策略相比,本文提出的SIER方法能够使用较少的比较次数,而达到与其他方法相同的实体解析效果;另外,同SIER方法相比,本文提出的ISIER和IISIER两种优化策略能够显著提高实体解析的效率。