论文部分内容阅读
微博是基于用户关系消息共享、传播和获取的一种媒介。与其他的网络应用平台相比较,微博具备更出色的时效性、便捷性和原创性,用户可以随时随地分享讯息,并且还可以和好友随时随地进行沟通互动,还可以通过Web客户端组建个人社区,用户们获得了前所未有的个人表达力度和自由发挥空间。因此,微博受到越来越多用户的青睐。对于蕴含丰富数据的微博平台,发现有价值的信息是一个值得深入研究的问题。 社区发现是复杂网络领域的一个研究热点。微博可以被视作为一种现实存在的复杂网络,它会自然地分成一些节点组,使同在一个节点组内的两个节点之间比不同节点组的两个节点之间更倾向于有边连接,组成一种带有拓扑特性的社区结构,一组具有相同兴趣的微博用户聚集形成了一个微博社区。挖掘微博中的社区结构对信息推荐、网络舆情监测等具有重要的意义。 针对微博网络的特性,本文提出了一种基于边聚系数的标签传播社区发现算法,并通过实验对提出的算法进行了验证,研究工作主要包括以下两个方面: (1)提出了一种基于边聚系数的标签传播社区发现算法。首先,分析了现有社区发现算法,着重分析了基于标签传播的社区发现算法存在的不足;其次,针对标签传播算法在标签传播过程中随意性问题,提出一种基于边聚系数的标签传播社区发现算法,即在标签传播过程中,当某节点邻居中存在多个最大概率标签时,不是任意选取一个具有最大标签概率的领导标签,而是在具有最大标签概率的邻居中选择最大边聚集系数的邻居的标签作为自己的新标签;最后,采用不同规模的测试网络,将基于边聚集系数的标签传播算法与几种传统算法的实验划分结果相比较,充分验证了该算法的准确性、适应性、稳定性等各方面性能。 (2)实验验证。为了验证本文提出的算法对真实微博网络的划分效果,本文选择了一个公开的新浪微博数据语料库,通过预处理后得到一个真实微博网络,采用传统的标签传播算法和本文提出的基于边聚集系数的标签传播算法对该真实微博网络进行社区划分。实验证明,基本边聚集系数的标签传播算法取得了较好的效果。