论文部分内容阅读
在现实世界中,同一个实体可能被多个数据源中的记录所描述。实体解析的任务就是确定哪些记录描述着现实世界中的同一个实体。实体解析是数据集成和数据清理中的一个关键步骤,它不仅能够提高数据的质量,还能够丰富单一数据的内容。然而,随着大数据时代的到来,各式各样的数据质量问题为实体解析带来了前所未有的挑战。面对纷杂的数据质量问题,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想。在数据存在噪声的情况下,实体解析算法经常会出现不一致的判断结果,传统的做法是在匹配结果之上进行一次传递性闭包分析,这种做法极易将错误放大和传递。相关性聚类是实体解析的一个标准方法,它以记录对的匹配程度为依据,产生最大程度支持这些依据的聚类结果。相关性聚类为NP-hard问题,很多启发式的算法被提出,但效果并不理想。本文在相关性聚类的基础上,提出一个快速有效、抗噪声能力比较强和可扩展的实体解析方法。主要研究工作如下:(1)提出一种新颖的两层相关性聚类框架。该框架上层采用预分块算法对节点进行可重叠的分块;下层则使用调整块算法去除上层算法的重叠部分。(2)首次在相关性聚类问题中引入公共邻居的概念,并基于邻居关系给出邻居相似度的计算方法。本文首先分析如何使用邻居来表示一个块,并由此提出一个启发式的上层预分块算法。(3)提出核的概念,并由此定义节点与块之间的关联程度。核的概念突出块内关联强度最大的部分,由核来决定节点与块之间的关联程度可以更加准确地判断节点的归属,进而提高实体解析的准确度。本文基于核的概念,提出一个启发式的下层调整块算法。(4)在上层预分块算法中引入众包的概念,通过众包来验证块形成时所依据的节点对。由于上层预分块算法采用顺序生成块的方式,为了减少众包验证的开销,本文提出一种并行化确认算法,并在此基础上给出它的优化算法。实验结果表明,本文提出的基于众包和两层相关性聚类的实体解析方法在解析质量、抗噪性和可扩展性方面均优于传统的算法。