基于主题模型的社区发现方法及其应用

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:hujie789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展,科学技术的不断涌现,人类的社交范围也越来越大,不在受到时间、空间、地域的限制。微博、微信等社交平台逐渐成为人们生活中不可缺少的一部分。社交网络中的每个用户时时刻刻都在产生大量数据,其中包含着大量的行为信息和内容信息:行为信息隐含着用户与用户之间社交网络结构关系;而内容信息则包含着用户的基本信息,例如发布的博文,这些都隐含用户的兴趣爱好。对于用户来说,面对海量的用户,如何才能从中找到与自己兴趣一致的群体,仅仅通过相关的搜索,显然是很苍白的;另一方对于商家来说,如何从中找出兴趣相似的用户群,并为其推荐相关的商品。因此微博中的社区发现就显得尤为重要,同时也为相关的广告推荐、舆情监控提供相应的理论支持。本文首先着重介绍了当前社区发现的研究方法以及相关的社区发现的经典算法。其次在微博用户兴趣度量方面,分析了微博中用户博文文本的特性,即文本内容稀疏、存在大量口语化、网络用语、表情符等、通常小于140字,使得直接使用LDA主题模型来提取用户兴趣,提取效果效果往往不尽人意。因此本文从博文噪声方向出来,通过拓展博文、去除文本中相关噪声,提高博文的质量;通过文档相关合并操作,解决单个博文的短文本特性问题。在此基础上,通过TF-IDF关键词提取与LDA主题模型相结合,提出了用户-兴趣-关键词模型,用以获取微博中用户的兴趣分布;该模型通过吉布斯采样算法,求解出用户兴趣概率分布和兴趣关键词概率分布;实验证明在微博平台中,该模型的效果较优于LDA主题模型。进一步,本文在分析常用社区发现算法的优缺点时,指出了标签传播算法(LPA)具有时间复杂度低、不需要预先设置社区个数、计算过程简单,在处理大型复杂网络时,具有较高的效率的特点。但该算法在标签传播的过程中,未考虑到相邻节点在网络结构中的相似性,以及节点间的内容相似性。因此本文从节点相似度角度出发,提出了多特征融合的标签传播算法。该算法利用SimRank算法计算网络中节点的结构相似度,同时融合节点内容相似度,即用户兴趣分布的相似度,来区别对待不同相邻节点传播过来的标签,即为相邻节点的标签赋予不同的权重,节点越相似,标签的权重越大。实验比较,该算法较优于传统的标签传播算法。最后基于上述方法,本文设计并实现了一个社区发现系统。该系统具有数据采集功能、文本预处理功能、用户兴趣功能、社区发现功能以及可视化呈现功能。
其他文献
小儿病毒性心肌炎是儿科的常见病与多发病,近年来发病率有上升趋势。近20年来对病毒性心肌炎治疗研究较多,但未有突破性进展,仍以大剂量维生素C、能量合剂、辅酶Q10、黄芪为主,虽
类风湿关节炎(RA)是一种累及周围关节为主的多系统性炎症性自身免疫病,病因尚不清楚,亦无特效药物。其特征性症状为对称性、多个周围关节的慢性炎症病变,临床表现为受累关节疼痛、
胎头吸引术是根据负压吸引的原理,通过牵引协助胎儿娩出的一种助产手术,具有操作简单、易于掌握、能迅速缩短第二产程等优点。但在具体操作过程中,由于多方面因素造成手术失败,会