基于LDA的在线主题演化模型研究与优化

被引量 : 0次 | 上传用户:appconfig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,网络舆情已成了社会舆论走势的风向标。实时地监控网络舆情态势,积极有效地引导网络舆论走势是当今网络监管领域的研究热点。由此,本文提出了一种基于LDA(Latent Dirichlet Allocation)的双通道在线主题演化模型(Online Topic Evolution Model based on LDA and Bi-Path Evolution,简称BPE-OLDA模型),旨在高效地从具有较强时效性的数据流中挖掘出热点主题信息及其演化规律。根据具有较强时效性的数据流的特性,本文提出了主题强度遗传度的概念,用于定量描述历史数据集内容的影响力。因此,BPE-OLDA模型是同时考虑了主题内容遗传和主题强度遗传的双通道演化模型。为了进一步提高BPE-OLDA模型挖掘主题信息的准确度,本文提出了修正的在线Gibbs重采样算法(Rectified Online Gibbs Resampling,简称Rect-OGRS算法),作为BPE-OLDA模型的在线推理算法。Rect-OGRS算法主要包含两个部分:(1)修正的在线Gibbs采样算法(Rectified Online Gibbs Sampling,简称Rect-OGS算法)。它对在线Gibbs采样算法估算主题下词分布的方式进行了修正;(2) Gibbs重采样算法(Gibbs Resampling,简称GRS算法)。在过滤噪音主题之后,它对当前时间片内文本中生成词的主题再次进行了采样。本文针对在线推理算法和在线主题演化模型,提出了在线推理算法的主题数落差和相似度指标,并且结合其他已有的度量指标,用于衡量BPE-OLDA模型和Rect-OGRS算法的优化效果。本文实验所使用的数据集是台湾时政类新闻数据集和NIPS数据集,前者具有较强的时效性,后者则没有。通过对大量实验结果的比较分析,得出了Rect-OGRS算法无论是何种数据流相对于在线Gibbs采样算法均具有较好的改进效果;而BPE-OLDA模型则在挖掘具有较强时效性数据流的主题信息时,其优化效果明显,反之对于较差时效性的数据流,则优化效果不明显。
其他文献
对世界分布的小花蝽属70种昆虫的地理分布进行了研究。将所有种按照14个地理分布类型进行了整理,它们分别是古北区特有种13种,东洋区特有种18种,新北区特有种7种,新热带区特
“电子人”一般权利能力同质,特殊权利能力基于智能水平、主体能力、类型功能等差异较大。总体呈现法定性、技术性、有限性、动态性特点。弱人工智能“电子人”主体能力尚弱,
文章采用HPLC法建立多批次花椒指纹图谱,并测定其主要成分含量。指纹图谱的色谱条件为WondasilC18色谱柱(250mm×4.6mm,5μm),乙腈-水梯度洗脱,检测波长268nm,柱温30℃,
通过大量试验分析了不同形状和不同尺寸混凝土试件抗压强度的相关关系.采用的混凝土试件的形状有立方体、圆柱体及棱柱体,混凝土小试件的横向尺寸为150 mm,大试件的横向尺寸
目的总结痛风性关节炎伴或不伴骨质破坏与中医证型分布特点及实验室指标的相关性,以期为痛风性关节炎伴骨质破坏患者的临床治疗提供可靠依据。方法纳入2017年9月至2018年9月
前期策划阶段是房地产开发中最重要的环节,其指导性作用贯穿于项目运作的全过程。本文以北京海湾科技大厦的前期策划工作为例,从分析现状、把握市场;围绕市场、准确定位;深研
中国稀土储量和产量均为世界首位,稀土元素以其优良的物理化学性能成为现代工业中不可或缺的原料或添加剂,有“工业维生素”的美称。近年来在徐光宪教授串级萃取理论指导下,溶剂
内蒙古乌拉特中旗西山湾羊场银多金属矿床大地构造位置处于华北地台北缘狼山-渣尔泰山中-新元古代裂谷带东段,位于内蒙古自治区中西部渣尔泰山地区,是与白垩纪构造活动有关的火
新的经济发展形势要求农村金融在农村存款、贷款和结算的基础上提供综合性全方位服务。 1 996年以来 ,农村金融在信贷结构、专业化和服务体系等方面仍存在较大不足。基于此 ,
从道路运输的角度,依托山东省农村物流试点工作实践,提出了基于道路运输的山东省农村物流网络的整体架构,重点研究了农村道路交通物流网络节点体系的建设,总结了山东省农村道