论文部分内容阅读
客观世界可以被抽象成不同的复杂网络,其中个体及个体之间的关联关系可以依据设定的规则抽象为图中的节点和节点间的边。社区结构是复杂网络的一个重要属性,社区内部节点连接稠密而社区间节点连接稀疏。通过寻找复杂网络中的社区结构可以发现网络蕴含的规律,并可以预测网络演化趋势,所以复杂网络社区发现一直是研究的热点之一。 近年来,社区发现研究已经取得了长足的进步,国内外学者们提出了各类不同的理论和方法。但是,这些算法一般需要先验知识或者时间复杂度过高。标签传播算法(LPA)作为近年来新兴的一种快速划分方法,不需要知道网络的整体信息或者先验社区结构,运行速度快,仅具有线性的时间复杂度,且准确率高。但是,传统标签传播算法在标签传播过程平等对待每一个标签,随机更新标签,所以该算法的稳定性有待进一步提高。 为抑制标签传播算法中标签传播的随意性,本文提出了一种基于随机游走的标签传播社区发现算法,研究工作主要包括以下三个方面: (1)随机游走算法改进。原始的随机游走算法中只有一个游走的种子,文中称之为walker,但是,由于随机游走算法本身存在的随机性,产生的结果有很大的不确定性。为提高结果的准确性和鲁棒性,本文提出可以连续不断释放多个walker的随机游走算法,即在给定的时间内,每间隔一个单位时间释放一个walker。通过walker运动路径在两点间可达的概率,得出两个节点间的相似度,进而求得网络中所有节点间的相似度矩阵。 (2)提出了基于随机游走相似度矩阵的标签传播社区发现算法。原始标签传播过程中,当邻居节点中标签出现频率存在多个最高时,将会随机选择一个最高标签,由于标签传播的随意性导致算法结果的不稳定。为此本文提出一个基于随机游走相似度矩阵的标签传播社区发现算法,即在标签传播过程中引入相似度矩阵,当遇有相同的最大邻居标签数时,不再随机选择标签,而是通过查找相似度矩阵,找到相似度最高的邻居节点,将自身更新为与该节点相同的标签,避免了标签在社区之间的任意传播。 (3)确定随机游走过程中步数t的取值。计算相似度矩阵过程中,选取不同的步数t所得到的节点间相似度也不同,进而影响网络社区划分结果。本文通过对两个指定网络的划分,得到t的合理取值范围。选择t=4作为实验中的合理参数。 (4)实验验证。采用真实网络和基准网络对本文提出的算法进行了测试,通过基于随机游走的标签传播算法与传统算法的划分结果对比,验证改进算法的准确性、适应性等方面性能。实验结果表明,基于随机游走的标签传播算法取得了更好的表现。