论文部分内容阅读
近年来,随着Web2.0的兴起,微博得到极速发展。目前有关社交网络的研究主要从兴趣发现和社区发现两方面展开。但现有兴趣发现算法大都基于用户数据或行为单方面,大部分的理论模型主要用于解决信息噪音问题。尤其是近年逐渐兴起的微博,现有算法较少考虑其社会化标签特征以及用户交互行为。对于社区发现算法来说,微博社交网络其复杂的拓扑结构以及节点内容属性区别于以往单一性质的网络结构,如果单纯考虑其中的任何一方面,都不能达到理想的社区发现效果。此外,现有的社区发现算法大多是基于点社区的,不能很好的识别网络中重叠社区。鉴于以上问题,本文主要工作有以下两个方面:(1)针对现有社交领域兴趣发现算法大都基于用户数据或行为单方面以及忽略社会化标签特征的问题,本文利用微博标签与用户内容、用户行为之间的关系,提出了基于语义向量和Page Rank的微博标签提取算法。该算法首先解决了标签冷启动问题;其次扩展标签语义,建立用户语义模型,设计标签多样化推荐函数;最后考虑用户交互行为对用户兴趣发现的影响,基于Page Rank算法设计一种计算标签权重的目标函数。(2)针对目前社区发现算法大多只关注网络结构或节点内容,本文提出了基于网络拓扑和节点内容的微博社区发现算法。该算法首先建立基于用户社交关系的有向无权微博网络,然后完成加权网络重构任务。划分微博社区时,为了克服点社区发现方法中节点重叠性的矛盾,采用链接社区完成层次聚类,并引入划分密度作为社区评价标准。最后,对提出的算法进行实验验证。首先为了确定算法中相关参数大小,进行多组对比实验,以期获得算法的最大性能参数值。然后将本文的标签提取算法与协同过滤算法和基于关键字提取的TFIDF算法在相同数据集中进行对比实验,结果表明本文所提算法在准确率,查全率以及F值上均有明显提升。其次为了验证本文的微博社区发现算法优越性,分析了社区划分过程,并选取不同规模网络,进行社区发现对比实验,结果显示无论网络规模如何变化,本文算法的社区发现准确率都是最高的。最后在Hadoop环境下进行算法实验,结果显示Hadoop环境下算法在效率以及可扩展性上均有显著提高。关键字:微博,兴趣发现,标签,社区发现,Hadoop