基于主题模型的社区发现方法及其应用

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户：hujie789

【摘要】

：

互联网技术的蓬勃发展,科学技术的不断涌现,人类的社交范围也越来越大,不在受到时间、空间、地域的限制。微博、微信等社交平台逐渐成为人们生活中不可缺少的一部分。社交网

【作者】

：

秦强

【出处】

：

江苏科技大学

【发表日期】

：

2018年01期

【关键词】

：

LDA LPA TF-IDF SimRank 社区划分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术的蓬勃发展,科学技术的不断涌现,人类的社交范围也越来越大,不在受到时间、空间、地域的限制。微博、微信等社交平台逐渐成为人们生活中不可缺少的一部分。社交网络中的每个用户时时刻刻都在产生大量数据,其中包含着大量的行为信息和内容信息:行为信息隐含着用户与用户之间社交网络结构关系;而内容信息则包含着用户的基本信息,例如发布的博文,这些都隐含用户的兴趣爱好。对于用户来说,面对海量的用户,如何才能从中找到与自己兴趣一致的群体,仅仅通过相关的搜索,显然是很苍白的;另一方对于商家来说,如何从中找出兴趣相似的用户群,并为其推荐相关的商品。因此微博中的社区发现就显得尤为重要,同时也为相关的广告推荐、舆情监控提供相应的理论支持。本文首先着重介绍了当前社区发现的研究方法以及相关的社区发现的经典算法。其次在微博用户兴趣度量方面,分析了微博中用户博文文本的特性,即文本内容稀疏、存在大量口语化、网络用语、表情符等、通常小于140字,使得直接使用LDA主题模型来提取用户兴趣,提取效果效果往往不尽人意。因此本文从博文噪声方向出来,通过拓展博文、去除文本中相关噪声,提高博文的质量;通过文档相关合并操作,解决单个博文的短文本特性问题。在此基础上,通过TF-IDF关键词提取与LDA主题模型相结合,提出了用户-兴趣-关键词模型,用以获取微博中用户的兴趣分布;该模型通过吉布斯采样算法,求解出用户兴趣概率分布和兴趣关键词概率分布;实验证明在微博平台中,该模型的效果较优于LDA主题模型。进一步,本文在分析常用社区发现算法的优缺点时,指出了标签传播算法(LPA)具有时间复杂度低、不需要预先设置社区个数、计算过程简单,在处理大型复杂网络时,具有较高的效率的特点。但该算法在标签传播的过程中,未考虑到相邻节点在网络结构中的相似性,以及节点间的内容相似性。因此本文从节点相似度角度出发,提出了多特征融合的标签传播算法。该算法利用SimRank算法计算网络中节点的结构相似度,同时融合节点内容相似度,即用户兴趣分布的相似度,来区别对待不同相邻节点传播过来的标签,即为相邻节点的标签赋予不同的权重,节点越相似,标签的权重越大。实验比较,该算法较优于传统的标签传播算法。最后基于上述方法,本文设计并实现了一个社区发现系统。该系统具有数据采集功能、文本预处理功能、用户兴趣功能、社区发现功能以及可视化呈现功能。

其他文献

异种MMP-2 DNA疫苗对小鼠结肠腺癌细胞CT26生长及转移的实验研究

目的通过对荷瘤裸小鼠进行异种MMP-2 DNA疫苗治疗结肠腺癌，观察其治疗效果，并初步探讨其作用机制。方法制备纯化异种MMP-2 DNA疫苗，裸鼠腋下注入大鼠CT26结肠腺癌细胞株1×1

期刊

异种MMP-2DNA疫苗结肠腺癌转移凋亡c-MMP-2 Colon adencarcinoma Metastasis Apoptosis

糖尿病中医辨治临证思路

本文从临床应用出发，首先确定糖尿病与消渴的关系。进而指出糖尿病临床辨证、治疗当注意辨病与辨证相结合。辨病当遵各项室指标为依据；辨证当抓气阴两伤，血瘀等症状之各有偏重以

期刊

糖尿病中医药疗法辨证论治

纸质版期刊保存年限的探讨

国内医学期刊文献由于数量庞大，增长与老化迅猛，目前已能从多种著名医学全文数据库中便捷地查到近30余年内的文献，因而对大量纸质版期刊的保存年限建议定为10年。其意义有：①节约

期刊

纸质版期刊保存年限法规Paper-based version of periodicals Preservation of life Regulation

锌硒宝辅助治疗小儿病毒性心肌炎疗效观察

小儿病毒性心肌炎是儿科的常见病与多发病，近年来发病率有上升趋势。近20年来对病毒性心肌炎治疗研究较多，但未有突破性进展，仍以大剂量维生素C、能量合剂、辅酶Q10、黄芪为主，虽

期刊

小儿病毒性心肌炎辅助治疗锌硒宝疗效观察大剂量维生素C辅酶Q10能量合剂基础治疗

对英国煤矿内部审计工作的考察

<正> 煤炭部赴英内审考察组一行6人,由审计局领导同志带队,于1987年11月上旬访问了英国煤炭总公司审计局,考察了英国煤炭工业内部审计工作。英国煤炭总公司由理事会领导,理事

期刊

内部审计审计委员会审计机构内部控制理事会领导审计人员内审工作审计部门财务报表审计煤炭销售

中医综合疗法治疗重型类风湿关节炎1例报告

类风湿关节炎（RA）是一种累及周围关节为主的多系统性炎症性自身免疫病，病因尚不清楚，亦无特效药物。其特征性症状为对称性、多个周围关节的慢性炎症病变，临床表现为受累关节疼痛、

期刊

类风湿关节炎中医综合疗法重型治疗自身免疫病特征性症状慢性炎症关节疼痛

胎头吸引术助产失败的影响因素及预防措施

胎头吸引术是根据负压吸引的原理，通过牵引协助胎儿娩出的一种助产手术，具有操作简单、易于掌握、能迅速缩短第二产程等优点。但在具体操作过程中，由于多方面因素造成手术失败，会

期刊

胎头吸引术影响因素助产手术预防缩短第二产程胎儿娩出操作过程负压吸引

加强科学管理克服‘以包代管’

<正> 统配煤矿投入产出总承包的实践表明,为保证企业的社会主义经营方向,保护企业的合法权益和促使经营目标的实现,必须切实加强科学管理,克服企业内部“以包代管”的状况。

期刊

企业内部承包承包企业经营方向经营目标承包单位监督网络考核指标考核标准考核重点奖惩制度

胱抑素C在老年人群肾功能评估中的应用

目的探讨血清半胱氨酸蛋白酶抑制荆C（胱抑素C，CysC）的检测在老年人群肾功能评估中的意义。方法用免疫比浊法测定血清CysC，同时用酶法测定血清肌酐浓度。结果血清CysC异常结果检出

期刊

半胱氨酸蛋白酶抑制剂C肾功能老年人Cystatin C Renal function The olds

乳腺癌患者心理干预效果分析

癌症对患者造成的心理压力远比生理压力大,而心理因素也和癌症患者治疗效果、病程长短、转归等密切相关,因此对癌症患者进行心理干预很有必要。现将我院收治且跟踪随访的51例

期刊

乳腺癌患者心理干预心理反应癌症患者存活期患者心理治疗效果治疗过程配合治疗治疗后

基于主题模型的社区发现方法及其应用

其他学术论文