微博社区发现方法研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户:wxws008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是基于用户关系消息共享、传播和获取的一种媒介。与其他的网络应用平台相比较,微博具备更出色的时效性、便捷性和原创性,用户可以随时随地分享讯息,并且还可以和好友随时随地进行沟通互动,还可以通过Web客户端组建个人社区,用户们获得了前所未有的个人表达力度和自由发挥空间。因此,微博受到越来越多用户的青睐。对于蕴含丰富数据的微博平台,发现有价值的信息是一个值得深入研究的问题。  社区发现是复杂网络领域的一个研究热点。微博可以被视作为一种现实存在的复杂网络,它会自然地分成一些节点组,使同在一个节点组内的两个节点之间比不同节点组的两个节点之间更倾向于有边连接,组成一种带有拓扑特性的社区结构,一组具有相同兴趣的微博用户聚集形成了一个微博社区。挖掘微博中的社区结构对信息推荐、网络舆情监测等具有重要的意义。  针对微博网络的特性,本文提出了一种基于边聚系数的标签传播社区发现算法,并通过实验对提出的算法进行了验证,研究工作主要包括以下两个方面:  (1)提出了一种基于边聚系数的标签传播社区发现算法。首先,分析了现有社区发现算法,着重分析了基于标签传播的社区发现算法存在的不足;其次,针对标签传播算法在标签传播过程中随意性问题,提出一种基于边聚系数的标签传播社区发现算法,即在标签传播过程中,当某节点邻居中存在多个最大概率标签时,不是任意选取一个具有最大标签概率的领导标签,而是在具有最大标签概率的邻居中选择最大边聚集系数的邻居的标签作为自己的新标签;最后,采用不同规模的测试网络,将基于边聚集系数的标签传播算法与几种传统算法的实验划分结果相比较,充分验证了该算法的准确性、适应性、稳定性等各方面性能。  (2)实验验证。为了验证本文提出的算法对真实微博网络的划分效果,本文选择了一个公开的新浪微博数据语料库,通过预处理后得到一个真实微博网络,采用传统的标签传播算法和本文提出的基于边聚集系数的标签传播算法对该真实微博网络进行社区划分。实验证明,基本边聚集系数的标签传播算法取得了较好的效果。
其他文献
本文针对传统的并发控制协议不能为嵌入式实时数据库系统提供高可靠性的问题,借助实时事务功能替代模型和事务价值等基本原理,探讨了一种新的面向嵌入式实时数据库系统的并发
随着互联网的高速发展,互联网承载业务多样化,网络流量日渐增多,利用互联网流量进行网络攻击的事件层出不穷,而分布式拒绝服务(Distributed Denial of Service,DDoS)攻击是当
目前,国家提出“和谐社会”、“平安城市”等建设方针,这使得网络视频监控在国家安全以及人们生活中扮演着越来越重要的角色,随着互联网技术的成熟和多媒体技术的发展,视频编
随着计算机网络规模不断扩大、复杂性不断增加以及异构性越来越普遍使得网络管理越来越困难,将主动网络技术应用于网络管理是当前网络管理研究的热点之一。针对目前网络中不
水表、电表、燃气表(三表)数据抄送主要经历了手工抄表、IC卡预付费表、有线抄表以及基于蓝牙技术的无线抄表等阶段,这些抄表方式有各自的优点,但同时也有其局限性,因此现有抄表
随着计算机和网络技术的飞速发展,网上数字视频大量涌现,数字图书馆、视频点播、远程教学等大量多媒体技术已经日益普及。视频信息检索的复杂性远远高于简单的文本信息检索,
有向传感器网络作为无线传感网络的一种高级形式,在诸多特殊场景中得到了广泛利用。由于其节点多为无线工作方式且能量无法得到补充,因此必须通过合理的节点调度来提高节点利
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法。在解决许多复杂的组合优化问题方面,展现了优异的性能,但在解决实际问题中仍然不够成熟,还有很大的发
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类分析作为其重要的组成部分,当前,在模式识别,数据处理,图
近年来,随着云计算规模的不断增长,高能耗已经成为云计算领域突出的问题,严重制约着云计算的发展。合理的资源分配和任务调度可以有效降低云计算系统的空闲能耗和执行能耗,从