论文部分内容阅读
随着不确定数据成为研究的热点,不确定数据管理吸引了研究者的极大兴趣。目前业界已经使用概率数据库来存储和管理不确定数据。为合并多个自治概率数据库中的数据,需要对不确定数据进行集成。现有对数据集成的研究主要集中于对确定数据(关系型数据和半结构化数据)的研究,对不确定性数据的集成没有相关工作。重复记录检测是集成过程中必要和具有代表性的组成部分,文中讨论了重复检测的基础,研究了有依赖和无依赖的不确定数据重复检测,最后提出了两个不确定数据重复记录检测的模型。