基于Hadoop的微博用户兴趣与社区发现算法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:mfpen123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web2.0的兴起,微博得到极速发展。目前有关社交网络的研究主要从兴趣发现和社区发现两方面展开。但现有兴趣发现算法大都基于用户数据或行为单方面,大部分的理论模型主要用于解决信息噪音问题。尤其是近年逐渐兴起的微博,现有算法较少考虑其社会化标签特征以及用户交互行为。对于社区发现算法来说,微博社交网络其复杂的拓扑结构以及节点内容属性区别于以往单一性质的网络结构,如果单纯考虑其中的任何一方面,都不能达到理想的社区发现效果。此外,现有的社区发现算法大多是基于点社区的,不能很好的识别网络中重叠社区。鉴于以上问题,本文主要工作有以下两个方面:(1)针对现有社交领域兴趣发现算法大都基于用户数据或行为单方面以及忽略社会化标签特征的问题,本文利用微博标签与用户内容、用户行为之间的关系,提出了基于语义向量和Page Rank的微博标签提取算法。该算法首先解决了标签冷启动问题;其次扩展标签语义,建立用户语义模型,设计标签多样化推荐函数;最后考虑用户交互行为对用户兴趣发现的影响,基于Page Rank算法设计一种计算标签权重的目标函数。(2)针对目前社区发现算法大多只关注网络结构或节点内容,本文提出了基于网络拓扑和节点内容的微博社区发现算法。该算法首先建立基于用户社交关系的有向无权微博网络,然后完成加权网络重构任务。划分微博社区时,为了克服点社区发现方法中节点重叠性的矛盾,采用链接社区完成层次聚类,并引入划分密度作为社区评价标准。最后,对提出的算法进行实验验证。首先为了确定算法中相关参数大小,进行多组对比实验,以期获得算法的最大性能参数值。然后将本文的标签提取算法与协同过滤算法和基于关键字提取的TFIDF算法在相同数据集中进行对比实验,结果表明本文所提算法在准确率,查全率以及F值上均有明显提升。其次为了验证本文的微博社区发现算法优越性,分析了社区划分过程,并选取不同规模网络,进行社区发现对比实验,结果显示无论网络规模如何变化,本文算法的社区发现准确率都是最高的。最后在Hadoop环境下进行算法实验,结果显示Hadoop环境下算法在效率以及可扩展性上均有显著提高。关键字:微博,兴趣发现,标签,社区发现,Hadoop
其他文献
IP组播技术通过其复制分组到多端口的特殊转发机制,有效的降低了点对多点、多点对多点等网络传输的带宽需求,因此它被广泛的应用于网络视频会议、网络电视、网络广播、多媒体远
近几年来,随着信息技术的迅速发展和广泛应用,医疗行业大力发展信息化建设。医院数字医疗设备和信息系统越来越多,导致医院数据库累积了大量的历史数据。面对越来越多分散的
随着信息技术的飞速发展,人们在享受着计算机带来的便捷的同时,自身的信息安全正面临着前所未有的危险。传统的安全防范机制,主要包括杀毒软件以及系统自身的防火墙、入侵检
在经典逻辑中,只有真、假二值,但在客观世界中有大量的模糊现象存在于真假之间。多年来,为了数学的分析、处理模糊现象,不同学科的许多科学家进行了不懈的努力并作出了积极的贡献
随着P2P技术的流行,出现了各种P2P系统,如用来交换音乐文件的Napster、用于普通文件交换的Gnutella。近年来P2P网络中资源越来越多,P2P搜索技术成为研究热点。目前的P2P搜索大部
未来几年,无论是全球市场还是国内市场,VolP(VoiceoverIP)都将持续高速发展。在常用的VoIP协议中,SIP(SessionInitiationProtocol,会话初始协议)是一个轻型的,多用途的工具,可以用
信息系统是在数据库管理系统支持下的一个交互式应用软件,而主动信息系统设计思想是:在信息系统中依照特定的业务环境定义相应的事件与规则集,当规则所需要的事件发生时,信息系统
本文设计了一种基于结构特征的自由手写数字识别算法,形成了一个完整的手写数字识别处理过程。该过程采用了AT&T贝尔实验室的MNIST手写数字识别评测数据库。MNIST包含60000个训
随着网络应用的不断发展,各种新的网络应用对网络带宽和网络服务提出了更高的要求。光传输技术使得网络提供更高的网络带宽成为可能,特别是波分复用(WDM)技术的提出为更好的