大规模信息网络下社区发现算法的研究与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:ch21st
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅猛发展和快速普及,直接影响着人们生活的方方面面,人类的社会行为也在潜移默化中发生着变化。高度信息化的社会像一个巨大的网络将地球上的万物包罗其中,地球上的万物就是网络中的节点,它们各自在独立正常运转的同时又彼此之间产生着千丝万缕的联系。日常生活中的网络无处不在,生物学、社交、学术、信息技术等系统都以网络的形式存在。这些网络高度互联、密集重叠,是真实社会的抽象。社区发现识别并挖掘出网络中隐含的层次化社区结构,帮助人们发现网络中暗藏的规律,解释网络代表的社会现象和系统,预测真实社会的发展趋势。近年来,大批学者投入到针对社区发现算法的研究问题上,推动了算法的蓬勃发展。然而如今已有的社区发现算法在应用时仍然存在一些问题。首先,大多数算法针对非重叠社区,但是真实世界中的网络普遍存在重叠社区结构,例如Facebook、微博等。其次,传统的社区发现算法在处理问题时存在信息浪费的现象,对于不同的场景不具有普适性。最后,真实世界的网络结构非常复杂,虽然现有算法在模拟数据集上取得较好的效果,但是在处理真实网络时表现却不好。随着互联网和智能终端的广泛使用,网络规模越来越大,呈现指数级上升的趋势。传统的社区发现算法适用于中小型网络,不具有良好的可扩展性,已经不能应对飞速增长的网络规模带来的问题。本文首先论述了社区发现研究的发展历程,简要阐述了该领域的相关概念和经典算法,分析了各个算法存在的优点和不足之处,然后通过三组实验对比四个经典算法在相同数据集上取得的效果,阐述了当前社区发现面临的挑战。针对社区发现存在信息浪费问题,本文提出了一个结合属性信息和网络结构的社区发现方法。本方法结合了节点属性信息和网络结构,克服传统算法不能兼顾两种信息的缺点,通过对节点属性特征分类加权的方式,有效利用了节点信息,并设置调节参数,调节属性信息和网络结构这两部分在社区发现过程产生的贡献程度。利用矩阵加和,把属性信息与网络结构信息融合为权重,构造一个新的加权网络。除此之外又设定网络生成阈值,减小了不必要的计算开销,节省了社区发现的时间。实验表明利用本文提出的算法得到的权值矩阵更丰富和细节化,有效利用了节点的多重信息,改善了传统单一邻接矩阵存在的数据稀疏问题。对于大多数传统算法不能发现重叠社区和可扩展性差两个问题,本文提出了一种基于边特征学习的社区发现算法,本文将其简称为CD-ERL(Edge Representation Learning for Community Detection)。CD-ERL 算法借鉴 了自然语言处理领域对文档的处理技术,在特征提取部分使用神经网络算法自动学习边的向量表示,将网络中的边映射到隐藏的连续空间上,用聚类的方式实现边社区划分,最后把得到的边社区转变成节点社区。与传统硬聚类方式不同,CD-ERL利用软聚类方式实现了重叠社区发现。神经网络具有大规模并行处理、分布式信息存储的特点,提高了 CD-ERL算法处理大规模网络的能力和可扩展性。最后本文在九组人工生成的标准网络和两组真实世界网络上对CD-ERL算法进行仿真,通过实验将其与两个经典社区发现算法Louvain算法和LPA(Label Propagation Algorithm)算法进行对比,表明了 CD-ERL 算法在 NMI(Normalized Mutual Information)和V-measure两种评价指标下均优于传统经典算法。
其他文献
信息物理融合系统(Cyber-Physical System,CPS)是计算过程、控制过程和通信过程相结合的系统。CPS通过对信息资源和物理资源的深度融合,改变信息世界和物理世界的交互方式。
长江中下游是中国主要的棉花产区之一。近年来,由于全球气温的不断升高,高温胁迫对农作物造成的经济损失也更加严重。因此,筛选耐高温棉花的种质资源,阐明不同农艺性状、生理特性与耐高温的关系,建立耐高温筛选指标,培育耐高温品种,具有重要的现实意义,降低高温胁迫对棉花品种稳定性和适应性的影响。本研究以30个棉花种质资源作为实验材料,在棉花的幼苗期和花期进行高温胁迫处理,研究高温对于棉花的生长特性、生理生化特
随着信息技术产业的高速发展,数字系统和集成电路已经在不知不觉中成为我们生活的一部分。第三方来源的IP核在集成电路中的广泛使用,使得信息系统内部及各种系统之间在数据交
1931年九一八事变后中国进入抗日战争时期,知识界以“文化抗战”的方式参与抗日救亡运动,这其中突出表现之一即是中学本国史教科书重视对中华传统文化的书写。近代以来,中西文化之争不绝于耳,不同版本历史教科书之文化观莫衷一是。三十年代,随着日本侵略的加剧,国民政府发起旨在以儒家文化进行价值重构的文化复兴运动,该运动除了有构建其统治合法性和树立政治权威等考量外,亦有恢复传统文化、振奋民族精神以凝聚人心共同
花粉算法(Flower pollination algorithm,FPA)是由YANG X.S.在2012年研发的,灵感来源于花朵的授粉过程,一经提出就获得了很多学者的青睐。目前,该算法已经在数学以及工程学等
近年来,随着多载波调制技术的发展,由于其具有良好的抗多径能力及频谱利用率,受到了广泛的研究与关注。目前多载波调制技术按子载波重叠方式分为两大类,一种是以正交频分复用
编码机会路由(NCOR)结合了机会路由(OR)与网络编码(NC)的优势,可利用多径传输与网络编码缓解无线链路丢包率高的问题,是提高无线Mesh网络吞吐率和可靠性的传输方案。本文在基
随着节能环保理念在各个国家大力提倡,燃油型汽车逐渐被淘汰,发展以清洁能源为动力的电动汽车成为各国新的研究方向。电动汽车性能的好坏关键取决于电池的性能,锂电池由于具有高电压、高能量密度、高安全性、低自放电率等优点,目前是电动汽车领域中使用率最高的动力电池之一。为了达到电动汽车输出电压的指标要求,一般是将多个锂电池单体串联成包,多个包再串联成组。串联电池组在多次循环充放电之后,即使是同厂家、同批次、同
动态场景图像置换技术,是将视频中每一帧图像中的一个或多个目标事物,根据用户需求用其他感兴趣的图像事物置换掉或将其置于新的背景下得到一组新的图像序列,从而得到一个新
受环境污染和能源危机的影响,电动汽车成为了汽车制造业未来发展的主要趋势,在电动汽车中,驱动电机控制系统的优劣决定着电动汽车驾驶的舒适性与稳定性,永磁同步电机以其高效率、高功率密度以及优良的控制性能成为了电动汽车驱动电机的首选。本文针对电动汽车电机驱动系统,对电动汽车用永磁同步电机控制算法以及无速度传感器技术进行研究与改进,主要包括以下内容:首先,研究了基于SVPWM的直接转矩控制策略,SVPWM可