论文部分内容阅读
在信息集成等应用领域,会产生同一实体的不同描述记录,这些记录往往会在属性值上存在描述性的差异。导致描述性差异的原因有很多,例如误输入、格式不统一、信息不完整、同一概念的不同描述方式等。这些原因引起的属性值上的差异最终使得同一实体的不同描述记录在属性值上是相似的,而且其相似度往往会很高。为了将指代同一实体的记录识别出来,人们提出了记录匹配的框架流程:分块、比较、决策。但以往对记录匹配过程的研究并未发现信息在匹配过程中所产生的影响。本文从Token的角度来研究信息在记录匹配过程中所产生的影响,并提出了分块属性、比较属性、分类属性等概念。通过对分块属性上熵信息特点的分析,研究了从熵信息出发来确定分块属性的方法,并在分块属性上给出了基于Token分块的高效算法。在记录比较的过程中,充分利用Token携带的信息量,提出了基于Token携带信息的属性值相似度度量算法,并在此基础上提出了记录对相似度向量的算法。在决策阶段,分析了分类属性在决策过程中的作用,并基于距离给出了高效地决策算法。最终通过实验验证了本文提出算法的可行性和高效性。