论文部分内容阅读
随着移动互联网的快速发展,在线社交平台被更多用户使用并且在信息传播方面发挥着越来越重要的作用,许多话题经过社交软件的传播变成了热点,引起广泛的关注和讨论。因此,针对国内主流社交平台新浪微博的热点话题挖掘和追踪溯源工作对于了解和把握社会舆论走向,打击非法言论,维护和谐有序的互联网环境具有重要意义。本文对新浪微博的研究主要包括两个部分,微博热点话题的挖掘工作和微博热点话题的追踪溯源工作,其中后半部分的工作是基于前半部分的研究结果。本论文的主要工作及取得成果如下:1)对于微博热点话题的挖掘,针对LDA模型处理微博短文本存在的向量稀疏问题,论文采用先将具有相似标签语义的微博文本合并以增加待建模文本的长度,然后再使用LDA模型建模,并进一步采用K-Means聚类算法对建模后的文本聚类的方法,从而得到热点话题。通过采集新浪微博的真实话题数据进行实验,证明了该方法能够有效降低LDA模型的困惑度,并且提高了话题挖掘的准确性。2)对于微博热点话题的追踪溯源,本文通过构建微博传播路径并使用Page Rank算法计算传播路径中影响力最大的用户,将该用户作为话题的源头。传播路径分为显式转发和隐式转发两种,当一条微博是通过新浪微博平台自带的转发功能转发的,则认为该微博是显式转发并确定显式转发路径。对于不是显式转发的微博,本文通过文本相似度和发布时间相关性计算隐式转发的概率,当隐式转发概率大于设定的阈值时认为微博是通过隐式转发的方式传播。针对可能存在某条微博与多条微博之间的隐式转发概率均大于阈值的情况,本文将来自兴趣相似度最大的用户发布的微博确定为被隐式转发的微博。在构建了传播路径后,本文采用Page Rank算法计算传播路径中影响力最大的用户,从而实现对微博热点话题的追踪溯源。