主题模型LDA推理算法对比与改进研究

来源 :苏州大学 | 被引量 : 9次 | 上传用户:ligc66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对稠密的文本主题矩阵和主题单词矩阵。自2003年Blei David提出LDA模型之后,LDA模型主要产生了三种推理算法:吉布斯采样算法(Gibbs Sampling,GS)、变分推断算法(Variational Bayesian Inference,VB)以及期望最大算法(Expectation Maximization,EM)。基于这三种推理算法,产生了针对各种应用场景的变种算法:适合小数据的批处理LDA算法、适合大数据的在线处理LDA算法以及适合实时处理的加速算法等。然而,LDA模型中依然存在三个未解的问题,在本文中我们对此展开了相应的研究:  1)三种推理算法预测能力的比较研究,具体问题体现在实践中推理算法如何选择。本文在熵的框架下,对LDA的优化目标、LDA推理算法的优化目标以及LDA常用的评价指标混淆度进行了重新理解。从中发现,EM的优化目标等价于直接最小化语料观察的单词分布与LDA预测的单词分布两者间的交叉熵,相比GS和VB,可以取得更优的预测混淆度(一种用于评价LDA预测能力的指标)。  2)LDA先验参数(狄利克雷超参和主题数)对模型预测能力的作用研究,具体问题体现在实践中先验参数如何确定。本文从熵的角度分析LDA先验参数对模型预测能力的影响,发现调节狄利克雷超参和主题数可以影响LDA预测的单词分布的熵,进而影响LDA的预测能力。基于总结的若干关于狄利克雷超参对模型预测能力的作用规律,本文提出一种基于网格搜索的次优超参值搜索算法。  3)基于收敛速度的LDA加速算法研究,具体问题体现在实践中加速算法如何选择,哪一种加速算法可以取得最快的收敛速度。本文基于FEM加速算法存在的缺陷,提出一种新的基于EM的加速算法AEM(Adaptive EM,自适应的期望最大算法)。它的核心思想是随着模型收敛,自适应的减少每篇文本需要更新的主题。基于本文实验使用的多个数据集以及设置的多种主题数, AEM相比目前较为先进的FEM、AliasLDA以及SparseLDA,收敛速度分别快9%~38.5%、4.1%~15.5%以及11.7%~43%。
其他文献
文本表示研究是自然语言处理领域基础的研究课题之一。词是文本中基本的语义单元,传统的词表示方法无法全面反映其所蕴含的语义信息,针对特定的自然语言处理任务,研究者们需
随着社会的高速发展,人们生活水平的不断提高。笔记本电脑正逐步走进千家万户的家中,成为人们工作、生活、娱乐不可或缺的重要组成部分。然而,在人们购买笔记本电脑之前,往往
在工程实践和科学研究中存在着大量的组合优化问题,且大多带有约束条件,采用传统的数学优化方法将很难求解。差分进化算法是近年提出的一种新的自然计算方法,也是基于种群迭
本体作为共享概念模型的形式化规范说明,具有良好的概念层次结构和语义表达能力,已经引起越来越多国内外专家学者的关注,并在知识工程、语义检索等领域得到广泛应用。然而,现
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确
跨层设计是最近几年通信网络领域研究的热点之一。跨层设计是相对于传统的分层设计思想而言的。传统的分层设计思想在有线网络设计中的应用非常成功。但是在无线网络中,传统
为了满足基于无线传感器网络的危险品运输监测系统的高可靠性和高实时性,在设计时必须要求传感器节点的低功耗和系统对事件处理的实时性响应,从而实现车辆在行驶状态中传感器
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术快速发展和在教育中的广泛应用,针对网站和网络设备的监控已经成为网络发展中必然产物。如何选择一个适合的监控