论文部分内容阅读
随着互联网的普及,网络舆情已成了社会舆论走势的风向标。实时地监控网络舆情态势,积极有效地引导网络舆论走势是当今网络监管领域的研究热点。由此,本文提出了一种基于LDA(Latent Dirichlet Allocation)的双通道在线主题演化模型(Online Topic Evolution Model based on LDA and Bi-Path Evolution,简称BPE-OLDA模型),旨在高效地从具有较强时效性的数据流中挖掘出热点主题信息及其演化规律。根据具有较强时效性的数据流的特性,本文提出了主题强度遗传度的概念,用于定量描述历史数据集内容的影响力。因此,BPE-OLDA模型是同时考虑了主题内容遗传和主题强度遗传的双通道演化模型。为了进一步提高BPE-OLDA模型挖掘主题信息的准确度,本文提出了修正的在线Gibbs重采样算法(Rectified Online Gibbs Resampling,简称Rect-OGRS算法),作为BPE-OLDA模型的在线推理算法。Rect-OGRS算法主要包含两个部分:(1)修正的在线Gibbs采样算法(Rectified Online Gibbs Sampling,简称Rect-OGS算法)。它对在线Gibbs采样算法估算主题下词分布的方式进行了修正;(2) Gibbs重采样算法(Gibbs Resampling,简称GRS算法)。在过滤噪音主题之后,它对当前时间片内文本中生成词的主题再次进行了采样。本文针对在线推理算法和在线主题演化模型,提出了在线推理算法的主题数落差和相似度指标,并且结合其他已有的度量指标,用于衡量BPE-OLDA模型和Rect-OGRS算法的优化效果。本文实验所使用的数据集是台湾时政类新闻数据集和NIPS数据集,前者具有较强的时效性,后者则没有。通过对大量实验结果的比较分析,得出了Rect-OGRS算法无论是何种数据流相对于在线Gibbs采样算法均具有较好的改进效果;而BPE-OLDA模型则在挖掘具有较强时效性数据流的主题信息时,其优化效果明显,反之对于较差时效性的数据流,则优化效果不明显。