基于社交媒体的热点主题挖掘及主题演化分析

来源 :西南大学 | 被引量 : 0次 | 上传用户:vecent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网与web2.0技术的飞速发展促使社交媒体(如微博,论坛等)逐渐成为人们进行信息交互的重要平台,并且已有逐渐取代传统媒体的趋势。另外,随着移动社交媒体平台的开发和广泛应用,人们越来越倾向于在社交媒体平台上创建及分享各类信息。据统计,社交网络上每日产生的数据量已达到TB级,其中不乏大量有价值的内容。通过挖掘和分析这些信息可以很好地了解公众的需求和关注热点,进行舆情监测,同时对公众舆论进行正确引导也具有重要的意义。80%以上的社交媒体信息都为文本数据类型,因此文本挖掘成为近年来针对社交媒体内容挖掘的研究热点,而主题模型已经被证明是文本挖掘的一种非常有效的方式。主题分析的宗旨主要是借助于适当的主题模型来挖掘出“文档-主题”,以及“主题-词汇”的关系。合适的主题模型不仅可以成功挖掘出有意义的主题信息,而且还可以进一步应用于文档分类、热点主题挖掘以及信息组织等领域。传统的主题模型如PLSA(概率潜在语义分析)、LDA(潜在狄利克雷分布)虽然在常规类型的文本挖掘方面已经取得了一定的成功,但是对于社交媒体文本这种具有长度短、文本稀疏、用语不规范等特征的特殊文本类型而言已经变得不再适用。这就给面向社交媒体的文本挖掘带来了一定的困难和挑战。针对传统主题模型存在的不足以及结合社交媒体文本的特殊性,近年来已经有众多学者对传统主题模型尝试了不同的改进方法。其中,大多数研究以微博为数据分析基础,并以LDA为基础进行改进。本文同样以微博为分析案例,并尝试利用微博消息中的一些属性信息(如标签,时间等属性信息)来改进和扩展LDA模型,并重点进行了针对社交媒体主题建模的两个应用研究:(1)基于社交媒体的热点主题挖掘;(2)基于社交媒体的主题演化分析。在热点主题挖掘研究方面,本文提出了一个新的主题模型MA-LDA(Multi-Attribute Latent Dirichlet Allocation)。该模型先后利用微博的转发/评论数、时间和标签属性来分别进行非热点话题的消息过滤、热点与普通话题的区分以及主题表达性的提高,以此来提高热点话题识别的准确率。最终,实验结果证明了该模型在提高热点话题识别的准确率方面以及提高主题表达性方面均具有一定有效性。针对主题演化的分析,本文在进行时间建模的同时也考虑了提高主题表达性的问题。标签信息作为能联系上下文信息的关键词,毫无疑问也被合并进LDA中。但是,与MA-LDA不同,在主题演化分析的建模中,标签词汇与微博正文的普通词汇被区别对待。因此主题演化模型不仅可以分析出“主题-词汇”的分布关系,还可以分析出“主题-标签”的分布。另外根据标签信息的使用方法不同,本文提出了两种主题演化模型,即hg-TOT(hashtag-generated Topic Over Time)模型和hs-TOT(hashtag-supervised Topic Over Time)模型。在hg-TOT模型中,标签被看作一篇文档的组成部分,而在hs-TOT模型中,标签则被看作文档在主题抽样过程中的弱监督化信息。最终实验结果表明,相较于已有工作TOT模型而言,本文提出的两个主题演化模型在主题表达性以及主题演化分析方面都具有一定的优势。
其他文献
国际标准是指国际标准化组织(ISO)、国际电工委员会(IEC)和国际电信联盟(ITU)以及ISO确认并公布的其他国际组织制定的标准。中医药国际标准的概念可有狭义和广义之分,狭义的中医药国
建设开放型实验室,对提高学生获取和处理信息的能力,提高创新能力和动手能力有十分重要的意义。本文就实验室开放的紧迫性、开放实验的内容和现状进行分析,提出了多样化的实
<正>由于其极高的药用价值,近年来,铁皮石斛越来越受到人们的关注。它含有多种成分,其中多糖是主要成分,也是目前公认的药效成分[1]。据多个文献报道,铁皮石斛多糖具有降血糖
高校政治辅导员是高校教师队伍的重要组成部分,是大学生思想教育,日常管理工作的具体实施者,他们对大学生起着教育引导、精神导向、榜样示范的作用,加强高政治辅导员的师德建
落叶松-杨栅锈菌是担子菌门冬孢菌纲锈菌目真菌,具有转主寄生性,可侵染青杨派、黑杨派的许多种类及其派内的杂交品种,造成杨树叶锈病的发生。该菌广泛分布于各地杨树栽培区,对杨