论文部分内容阅读
随着因特网的飞速发展,数据获取途径日益多样化,数据质量问题越来越被重视,数据中的歧义问题就是一个备受关注的数据质量问题,在一个或者多个数据库中,同一个现实世界实体可能有多种描述方法,或者多个实体会有同一中描述方法。实体歧义问题存在于不同领域中,如学术网络、基于关键字的检索数据、电子邮件、电影数据库的人名歧义、关系数据库中的记录歧义等。LDA模型是为文本文档集合以及其他离散数据集合建模的一个生成模型,主要用于文本处理中的主题发现。本文对LDA模型进行扩展提出了LDA实体解析模型,即将实体解析问题转换为一个概率问题,在原有LDA三层模型的基础上增加一层,通过修改实体的属性获得实体的引用。在参考和改进前人对LDA模型的推导的研究基础上,使用Gibbs抽样实现了LDA实体解析模型的参数推导,并提出了一种简单的方法大概估计实体的个数,使用Blocking技术将实体引用分配到不同的分区,这不仅可以减少实体引用比较的计算量,而且可以大概估计实体的个数。为了验证基于LDA模型的实体解析方法的有效性,实现了被广泛使用的实体解析方法:基于实体引用聚类的方法和基于社会网络分析的方法,并在网页数据和文献合作数据上验证基于LDA模型的实体解析方法与其他两种已有实体解析方法,并且使用不同的评测方法进行比较。实验表明,相对于其他两种方法,基于LDA模型的实体解析方法准确性比较高,取得了较好的效果。