基于传播路径的微博热点话题溯源

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wlq8201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速发展,在线社交平台被更多用户使用并且在信息传播方面发挥着越来越重要的作用,许多话题经过社交软件的传播变成了热点,引起广泛的关注和讨论。因此,针对国内主流社交平台新浪微博的热点话题挖掘和追踪溯源工作对于了解和把握社会舆论走向,打击非法言论,维护和谐有序的互联网环境具有重要意义。本文对新浪微博的研究主要包括两个部分,微博热点话题的挖掘工作和微博热点话题的追踪溯源工作,其中后半部分的工作是基于前半部分的研究结果。本论文的主要工作及取得成果如下:1)对于微博热点话题的挖掘,针对LDA模型处理微博短文本存在的向量稀疏问题,论文采用先将具有相似标签语义的微博文本合并以增加待建模文本的长度,然后再使用LDA模型建模,并进一步采用K-Means聚类算法对建模后的文本聚类的方法,从而得到热点话题。通过采集新浪微博的真实话题数据进行实验,证明了该方法能够有效降低LDA模型的困惑度,并且提高了话题挖掘的准确性。2)对于微博热点话题的追踪溯源,本文通过构建微博传播路径并使用Page Rank算法计算传播路径中影响力最大的用户,将该用户作为话题的源头。传播路径分为显式转发和隐式转发两种,当一条微博是通过新浪微博平台自带的转发功能转发的,则认为该微博是显式转发并确定显式转发路径。对于不是显式转发的微博,本文通过文本相似度和发布时间相关性计算隐式转发的概率,当隐式转发概率大于设定的阈值时认为微博是通过隐式转发的方式传播。针对可能存在某条微博与多条微博之间的隐式转发概率均大于阈值的情况,本文将来自兴趣相似度最大的用户发布的微博确定为被隐式转发的微博。在构建了传播路径后,本文采用Page Rank算法计算传播路径中影响力最大的用户,从而实现对微博热点话题的追踪溯源。
其他文献
图书美誉度是通过读者对图书的综合评价来赋予图书不同的美誉程度。作为新的馆藏宣传渠道,图书关誉度能揭示藏书使用率、挖掘潜在价值;对流通、采访、优化馆藏等工作起到直接推
目前,在农业研究领域有一个关键的课题就是如何控制好田间杂草。化学除草仍是国内田间杂草主要的控制手段,虽然这种方法是及时、高效和经济的,适应现代的农业生产作物,但其广泛使用对生态环境的长远发展有着诸多弊端,某种程度上与当前所提倡的绿色环境保护、可持续发展、精准农作等理念不相符。而精准农业的目的是提高作物产量和质量,降低生产成本,减少污染,改善环境质量。因此,为了能够合理有效地使用化学除草剂,并且避免
“苍梧”为岭南地区历史悠久的文化符号,先秦时期即有“苍梧族”与“苍梧古国”等见于文献记载。汉代苍梧郡为汉武帝所置岭南九郡之一,位于岭南中部,地理位置独特,岭南地区的水上交通动脉离水与郁水相交于此,因此苍梧郡自古以来就是岭南重要的交通枢纽,特别是秦代开凿灵渠沟通长江水系和珠江水系以后,形成了以越城岭道与萌诸岭道两条水上通道为主的南北交通线,且郁水干流又通过北流江、南流江联通汉代海上丝绸之路的始发港口
在线信息素质教育(OILI)已经成为当今国际上大众化教育的一种发展趋势。采用文献调查和内容分析等方法,对我国OILI研究现状进行梳理和分析,指出国内OILI研究尚处于初级发展阶段
重新排序是人们十分关注的现代排序模型,它广泛存在于人类的生活中.例如在制造业中由于新订单的到达,订单的取消,订单优先性能的改变,工件到达时间的改变,机器的故障等突然的