基于主题模型的社区发现方法及其应用

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:hujie789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展,科学技术的不断涌现,人类的社交范围也越来越大,不在受到时间、空间、地域的限制。微博、微信等社交平台逐渐成为人们生活中不可缺少的一部分。社交网络中的每个用户时时刻刻都在产生大量数据,其中包含着大量的行为信息和内容信息:行为信息隐含着用户与用户之间社交网络结构关系;而内容信息则包含着用户的基本信息,例如发布的博文,这些都隐含用户的兴趣爱好。对于用户来说,面对海量的用户,如何才能从中找到与自己兴趣一致的群体,仅仅通过相关的搜索,显然是很苍白的;另一方对于商家来说,如何从中找出兴趣相似的用户群,并为其推荐相关的商品。因此微博中的社区发现就显得尤为重要,同时也为相关的广告推荐、舆情监控提供相应的理论支持。本文首先着重介绍了当前社区发现的研究方法以及相关的社区发现的经典算法。其次在微博用户兴趣度量方面,分析了微博中用户博文文本的特性,即文本内容稀疏、存在大量口语化、网络用语、表情符等、通常小于140字,使得直接使用LDA主题模型来提取用户兴趣,提取效果效果往往不尽人意。因此本文从博文噪声方向出来,通过拓展博文、去除文本中相关噪声,提高博文的质量;通过文档相关合并操作,解决单个博文的短文本特性问题。在此基础上,通过TF-IDF关键词提取与LDA主题模型相结合,提出了用户-兴趣-关键词模型,用以获取微博中用户的兴趣分布;该模型通过吉布斯采样算法,求解出用户兴趣概率分布和兴趣关键词概率分布;实验证明在微博平台中,该模型的效果较优于LDA主题模型。进一步,本文在分析常用社区发现算法的优缺点时,指出了标签传播算法(LPA)具有时间复杂度低、不需要预先设置社区个数、计算过程简单,在处理大型复杂网络时,具有较高的效率的特点。但该算法在标签传播的过程中,未考虑到相邻节点在网络结构中的相似性,以及节点间的内容相似性。因此本文从节点相似度角度出发,提出了多特征融合的标签传播算法。该算法利用SimRank算法计算网络中节点的结构相似度,同时融合节点内容相似度,即用户兴趣分布的相似度,来区别对待不同相邻节点传播过来的标签,即为相邻节点的标签赋予不同的权重,节点越相似,标签的权重越大。实验比较,该算法较优于传统的标签传播算法。最后基于上述方法,本文设计并实现了一个社区发现系统。该系统具有数据采集功能、文本预处理功能、用户兴趣功能、社区发现功能以及可视化呈现功能。
其他文献
目的通过对荷瘤裸小鼠进行异种MMP-2 DNA疫苗治疗结肠腺癌,观察其治疗效果,并初步探讨其作用机制。方法制备纯化异种MMP-2 DNA疫苗,裸鼠腋下注入大鼠CT26结肠腺癌细胞株1×1
本文从临床应用出发,首先确定糖尿病与消渴的关系。进而指出糖尿病临床辨证、治疗当注意辨病与辨证相结合。辨病当遵各项室指标为依据;辨证当抓气阴两伤,血瘀等症状之各有偏重以
国内医学期刊文献由于数量庞大,增长与老化迅猛,目前已能从多种著名医学全文数据库中便捷地查到近30余年内的文献,因而对大量纸质版期刊的保存年限建议定为10年。其意义有:①节约
小儿病毒性心肌炎是儿科的常见病与多发病,近年来发病率有上升趋势。近20年来对病毒性心肌炎治疗研究较多,但未有突破性进展,仍以大剂量维生素C、能量合剂、辅酶Q10、黄芪为主,虽
<正> 煤炭部赴英内审考察组一行6人,由审计局领导同志带队,于1987年11月上旬访问了英国煤炭总公司审计局,考察了英国煤炭工业内部审计工作。英国煤炭总公司由理事会领导,理事
类风湿关节炎(RA)是一种累及周围关节为主的多系统性炎症性自身免疫病,病因尚不清楚,亦无特效药物。其特征性症状为对称性、多个周围关节的慢性炎症病变,临床表现为受累关节疼痛、
胎头吸引术是根据负压吸引的原理,通过牵引协助胎儿娩出的一种助产手术,具有操作简单、易于掌握、能迅速缩短第二产程等优点。但在具体操作过程中,由于多方面因素造成手术失败,会
<正> 统配煤矿投入产出总承包的实践表明,为保证企业的社会主义经营方向,保护企业的合法权益和促使经营目标的实现,必须切实加强科学管理,克服企业内部“以包代管”的状况。
目的探讨血清半胱氨酸蛋白酶抑制荆C(胱抑素C,CysC)的检测在老年人群肾功能评估中的意义。方法用免疫比浊法测定血清CysC,同时用酶法测定血清肌酐浓度。结果血清CysC异常结果检出
癌症对患者造成的心理压力远比生理压力大,而心理因素也和癌症患者治疗效果、病程长短、转归等密切相关,因此对癌症患者进行心理干预很有必要。现将我院收治且跟踪随访的51例