论文部分内容阅读
概率主题模型如latent Dirichlet allocation(LDA)已经成为数据挖掘和机器学习领域一类标准的建模工具。这些模型已经被广泛应用于不同领域、数据集、情境以及任务中,并且取得了很好的效果。但是,尽管这些模型已经被广泛所熟知和使用,到目前为止仍然没有正式的定理来解释主题模型的行为,也缺乏系统的分析和指导意见来告诉用户数据的特性和模型的参数会如何影响模型的建模效果。 本文研究影响主题模型建模效果的因素,期望能弥补主题模型的应用和理论之间的这个差距。首先,本文确定了影响主题建模的因素包括:文档的数目、文档的长度、主题的数目以及模型的超参数,接着本文对这些因素进行了系统的分析。本文提出了主题质量与不同影响因素之间关系的创新性理论,并且根据该理论就如何确定合适的训练数据集以及如何确定模型参数提出了实际的指导意见。在一些情形下,文档长度太短或者用户设定的主题数目不合适等情况,会降低主题模型的效果。本文提出了不同的创新性模型分别来解决这些问题。本文主要贡献归纳如下: 1.主题后验分布收缩定理。本文在理论上证明了当数据不断增长时主题后验分布的收缩变化行为,并且把该行为与数据的特性以及模型的参数关联起来。在合成和真实两种数据集上的大量实验进一步验证了这个定理。 2.短文本上的主题建模。对于在短文本上的主题建模,本文提出了利用文本的情境信息(如用户、时间、地点等)来提高模型的效果,这些情境信息能够弥补短文本上信息的稀疏性。本文把每种类型的情境信息定义为对数据的一个文档划分或者说一个视角。当数据存在多种类型的情境信息(多个视角)时,本文提出了一种通用的共同正则化框架来让不同的视角相互协作,推断出数据中最健壮(robust)的主题。 3.估计数据中的主题数目。对于估计数据中合适的主题数目问题,本文提出了一个完全不需要用户输入任何参数的主题模型。首先,本文基于传统的PLSA模型提出了一个非参数版本nPLSA。nPLSA模型能够在单次执行过程中动态地增加和比较不同主题的数目,并且推断过程和原始的PLSA模型一样简单高效。接着,本文进一步提出了nPLSA模型的两种无参数处理方式来消除nPLSA的用户参数,使得模型能够在主题之间的多样性达到最大时发现合适的主题数目或者根据用户提供的主题样本发现粒度相似的主题。 4.发现数据中最重要以及多样的主题。另外一种去除估计主题参数烦恼的方法是仅仅返回数据集中那些最具代表性的主题。本文提出了一种强化的随机游走过程,让重要的主题来吞并更小的以及相似的主题,从而增加所抽取出来的主题之间的多样性。本文把这个强化的随机游走方法作为一个通用的过程嵌入到传统的主题模型中,得到了多样化的主题模型。这些多样化模型能够发现数据中最重要的以及多样的主题,而且新模型的推断过程和传统的主题模型一样简单高效。 本文对主题模型系统的分析以及对一些困难情形提供的实际解决方案将在实践中给主题模型用户带来很大的帮助,进一步拓展主题模型的实用性。在将来的研究中,作者将把本文的方法拓展到其他机器学习模型上。