论文部分内容阅读
随着互联网技术与应用的快速发展,产生了越来越多的复杂数据。这些数据包含多类对象以及多种对象间的关系,异构信息网络应运而生。k近邻查询(k nearest neighbours query,kNN)是一种重要的数据分析方法,本文针对异构信息网络中的kNN查询问题开展相关研究工作。由于对象之间存在异质性,异构信息网络中的kNN查询根据查询对象与查询目标类型是否相同分成两种:单色kNN查询(Monochromatic k nearest neighbours query,MkNN)与双色kNN查询(Bichromatic k nearest neighbo urs query,BkNN)。MkNN查找与查询对象最相似的k个同类对象,而BkNN查找与查询对象相关性最大的k个指定异类对象。在现有的异构信息网络MkNN查询算法中,相似性度量只考虑对象间的结构相似性。类似的,现有的BkNN查询算法只利用结构相关性进行对象相关性度量。当对象间不存在连通路径时,对象间的相似性或相关性都为0,往往不能反映出用户的查询语义意图。本文提出了一类异构信息网络kNN查询算法,结合了对象间的结构信息和实体相似性,能更全面、灵活地表达kNN查询语义。首先,基于关联实体相似性提出了一种异构信息网络扩展算法,构建增广异构信息网络,可根据用户语义选择关联实体,增加关联实体相似边,使网络蕴含更丰富的语义。增广异构信息网络不仅包含对象间的结构信息,还包含关联实体的相似性信息。其次,基于增广异构信息网络,提出了一种同类对象间的相似性度量方法(Entity Similarity Extended PathSim,ES-PathSim),能区分所有对象间的相似性差异。由于当前异构信息网络中的相似性度量方法无法度量所有关联实体间的相似性,本文提出了一种关联实体相似性度量迭代算法,能够度量所有关联实体间的相似性。针对ES-PathSim方法下MkNN查询速度较慢的现象,提出了基于上界过滤的优化算法加速MkNN查询。实验结果验证了ES-PathSim方法的有效性,并验证了关联实体相似性度量迭代算法的有效性以及基于上界过滤的MkNN查询算法的优越性能。最后,基于增广异构信息网络,提出了异类对象间的相关性度量方法(Entity Similarity Extended AvgSim,ES-AvgSim),能区分所有对象间的相关性差异。针对ES-AvgSim方法下BkNN查询速度较慢的现象,提出了一种基于阈值的优化算法加速BkNN查询。实验结果验证了ES-AvgSim方法的有效性,并验证了基于阈值的BkNN算法的性能。