论文部分内容阅读
互联网技术的迅猛发展和快速普及,直接影响着人们生活的方方面面,人类的社会行为也在潜移默化中发生着变化。高度信息化的社会像一个巨大的网络将地球上的万物包罗其中,地球上的万物就是网络中的节点,它们各自在独立正常运转的同时又彼此之间产生着千丝万缕的联系。日常生活中的网络无处不在,生物学、社交、学术、信息技术等系统都以网络的形式存在。这些网络高度互联、密集重叠,是真实社会的抽象。社区发现识别并挖掘出网络中隐含的层次化社区结构,帮助人们发现网络中暗藏的规律,解释网络代表的社会现象和系统,预测真实社会的发展趋势。近年来,大批学者投入到针对社区发现算法的研究问题上,推动了算法的蓬勃发展。然而如今已有的社区发现算法在应用时仍然存在一些问题。首先,大多数算法针对非重叠社区,但是真实世界中的网络普遍存在重叠社区结构,例如Facebook、微博等。其次,传统的社区发现算法在处理问题时存在信息浪费的现象,对于不同的场景不具有普适性。最后,真实世界的网络结构非常复杂,虽然现有算法在模拟数据集上取得较好的效果,但是在处理真实网络时表现却不好。随着互联网和智能终端的广泛使用,网络规模越来越大,呈现指数级上升的趋势。传统的社区发现算法适用于中小型网络,不具有良好的可扩展性,已经不能应对飞速增长的网络规模带来的问题。本文首先论述了社区发现研究的发展历程,简要阐述了该领域的相关概念和经典算法,分析了各个算法存在的优点和不足之处,然后通过三组实验对比四个经典算法在相同数据集上取得的效果,阐述了当前社区发现面临的挑战。针对社区发现存在信息浪费问题,本文提出了一个结合属性信息和网络结构的社区发现方法。本方法结合了节点属性信息和网络结构,克服传统算法不能兼顾两种信息的缺点,通过对节点属性特征分类加权的方式,有效利用了节点信息,并设置调节参数,调节属性信息和网络结构这两部分在社区发现过程产生的贡献程度。利用矩阵加和,把属性信息与网络结构信息融合为权重,构造一个新的加权网络。除此之外又设定网络生成阈值,减小了不必要的计算开销,节省了社区发现的时间。实验表明利用本文提出的算法得到的权值矩阵更丰富和细节化,有效利用了节点的多重信息,改善了传统单一邻接矩阵存在的数据稀疏问题。对于大多数传统算法不能发现重叠社区和可扩展性差两个问题,本文提出了一种基于边特征学习的社区发现算法,本文将其简称为CD-ERL(Edge Representation Learning for Community Detection)。CD-ERL 算法借鉴 了自然语言处理领域对文档的处理技术,在特征提取部分使用神经网络算法自动学习边的向量表示,将网络中的边映射到隐藏的连续空间上,用聚类的方式实现边社区划分,最后把得到的边社区转变成节点社区。与传统硬聚类方式不同,CD-ERL利用软聚类方式实现了重叠社区发现。神经网络具有大规模并行处理、分布式信息存储的特点,提高了 CD-ERL算法处理大规模网络的能力和可扩展性。最后本文在九组人工生成的标准网络和两组真实世界网络上对CD-ERL算法进行仿真,通过实验将其与两个经典社区发现算法Louvain算法和LPA(Label Propagation Algorithm)算法进行对比,表明了 CD-ERL 算法在 NMI(Normalized Mutual Information)和V-measure两种评价指标下均优于传统经典算法。