论文部分内容阅读
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对稠密的文本主题矩阵和主题单词矩阵。自2003年Blei David提出LDA模型之后,LDA模型主要产生了三种推理算法:吉布斯采样算法(Gibbs Sampling,GS)、变分推断算法(Variational Bayesian Inference,VB)以及期望最大算法(Expectation Maximization,EM)。基于这三种推理算法,产生了针对各种应用场景的变种算法:适合小数据的批处理LDA算法、适合大数据的在线处理LDA算法以及适合实时处理的加速算法等。然而,LDA模型中依然存在三个未解的问题,在本文中我们对此展开了相应的研究: 1)三种推理算法预测能力的比较研究,具体问题体现在实践中推理算法如何选择。本文在熵的框架下,对LDA的优化目标、LDA推理算法的优化目标以及LDA常用的评价指标混淆度进行了重新理解。从中发现,EM的优化目标等价于直接最小化语料观察的单词分布与LDA预测的单词分布两者间的交叉熵,相比GS和VB,可以取得更优的预测混淆度(一种用于评价LDA预测能力的指标)。 2)LDA先验参数(狄利克雷超参和主题数)对模型预测能力的作用研究,具体问题体现在实践中先验参数如何确定。本文从熵的角度分析LDA先验参数对模型预测能力的影响,发现调节狄利克雷超参和主题数可以影响LDA预测的单词分布的熵,进而影响LDA的预测能力。基于总结的若干关于狄利克雷超参对模型预测能力的作用规律,本文提出一种基于网格搜索的次优超参值搜索算法。 3)基于收敛速度的LDA加速算法研究,具体问题体现在实践中加速算法如何选择,哪一种加速算法可以取得最快的收敛速度。本文基于FEM加速算法存在的缺陷,提出一种新的基于EM的加速算法AEM(Adaptive EM,自适应的期望最大算法)。它的核心思想是随着模型收敛,自适应的减少每篇文本需要更新的主题。基于本文实验使用的多个数据集以及设置的多种主题数, AEM相比目前较为先进的FEM、AliasLDA以及SparseLDA,收敛速度分别快9%~38.5%、4.1%~15.5%以及11.7%~43%。