论文部分内容阅读
社会网络分析(SNA)是数据挖掘研究领域的一个热点,受到越来越多研究学者的关注,而社区挖掘是社会网络分析的一个主要研究方向。当前大部分的社区挖掘算法都假定网络中仅存在一种对象类型和关系类型,这种单一关系的网络结构并不能有效解决现实问题,因此异构信息网络应运而生。它是一种复杂的抽象网络结构,通常包含多种对象类型和关系类型,而且还可能带有多种属性信息。在这种类型的网络上进行社区挖掘能够充分利用网络中存在的多种关系,使挖掘结果更加满足用户的需求,对网络信息的获取和挖掘、信息的推荐以及网络模式的演化预测具有重要的研究价值。本文将主要从元路径的选择和融合方面进行异构信息网络社区挖掘算法的研究。具体研究内容包括以下方面:首先,提出了一种基于用户指导的元路径选择方法。该方法基于用户的指导信息,根据元路径划分社区的方式,利用元路径所表示的相似度向量之间的余弦相似性,在异构信息网络的网络模式上采用启发式搜索和剪枝策略选择出与用户指导信息所隐藏结果相一致的元路径。避免了基于长度限制的BFS(宽度优先搜索)遍历算法的元路径选择所带来的信息丢失和矛盾问题。其次,提出了基于关系抽取的元路径的多种加权融合策略。通过对同构信息网络中几个典型的社区挖掘算法的研究,根据其共同特点,将其建模为一个统一的框架。并根据这一框架结构,将同构信息网络中的社区挖掘算法进行扩展,对异构信息网络中所提取的多条元路径和利用关系抽取方法计算出的权重信息进行各个阶段的融合,提高了社区挖掘的准确性。最后,进行了实验的设计与实现,并在真实数据集上与传统的社区挖掘算法进行了比较,证明了基于元路径选择和融合的异构信息网络社区挖掘算法的有效性。