论文部分内容阅读
随着信息时代的发展,越来越多非结构化的文本信息不断出现,我们需要新的工具来整理、搜索和理解这些文本信息,以便获取有价值的信息。文本挖掘(text mining)是解决这一系列问题的有效工具。在文本挖掘中,最常使用的是文本分类(Text classification)。文本分类是文本挖掘中有监督的学习过程,目的是基于文档内容将文档分配到一个或者多个预定义类别。由于文本信息构造复杂性、变化多样性和高维性,这给文本分类任务有效地提取文本特征带来了极大的挑战。概率主题模型(probabilistic topic models)是文本挖掘中提取文本特征的有效工具。主要是通过贝叶斯统计方法发现文本中的隐藏语义结构,进而获取有效的特征。因此,文本分类和概率主题模型是文本挖掘中非常有意义的研究课题。本文不仅关注文本分类,并探索了基于贝叶斯非参数的概率主题模型在文本分类中特征表示及其特征选择,主要工作如下:(1)波利亚罐子(Polya urn)模型是广泛应用于统计和文本挖掘的基本模型,大多数训练模型的算法都非常缓慢和复杂,因此通常很难适应大数据集。本文对波利亚罐子模型的极大似然估计(MLE)提出了一种新的极大极小MM算法,其中替代函数是通过简单的凸函数构造的。同时分析了 MM算法的收敛性,推导了非同分布观测的相应MLE的渐近正态性。同时比较了这种新的MM算法的与牛顿法和其他MM算法的性能。我们把波利亚罐子模型应用于文本分类的模型,并与经典的文本分类方法做了对比。(2)从词与词可能存在天然的内在关联角度,提出了一个基于分层狄利克雷过程(HDP)的图主题模型(GTM)。分层狄利克雷过程使得选择的主题数量变得灵活,打破了先前主题数量需要被给定的限制,而且图挖掘主题模型消除了“词袋”的假设并且考虑了文本的图结构。基于分层狄利克雷过程的图主题模型结合利用了两者的特性。我们用变分推断(variatioal inference)方法来进行后验推断,并分析了这种算法的收敛性。基于分层狄利克雷过程的图挖掘主题模型可以发现文本数据中隐藏的更多信息,也极大的提高了文本分类的效率和准确率。(3)从自然语言的实证研究中可以看出,单词的频率遵循幂律分布,经典统计模型无法捕获此属性。Pitman-Yor过程(PYP)是一个贝叶斯非参数模型,它可以生成幂律生成分布,并可用于模拟具有潜在无限数量的数据。它已广泛应用于概率主题建模。然而,使用PYP的现有概率主题模型很少考虑主题之间的关系。隐马尔可夫模型(HMM)是用于建模主题之间关系的最流行的成功模型之一。我们提出的方法构建了一个将HMM与Pitman-Yor Priors相结合的概率主题模型,并通过使用变分贝叶斯(VB)方法进行后验推断,并把这个模型与相关的模型在文本分类上对做了对比。(4)从文本的构造角度,提出了一个基于分层Pitman-Yor过程的句子主题模型。这个主题模型考虑了经典主题模型经常忽略的句子信息,能够弥补主题模型“词袋”的假设的不足。因为分层Pitman-yor没有截棍(stick-breaking)表示形式,这里变分贝叶斯(VB)方法不再适用推断后验分布,为此我们探索了 Gibbs抽样方法来推断后验分布。我们将基于分层Pitman-Yor过程的句子主题模型应用到主题建模以及文本分类上,并与经典的主题模型做了对比。本文的结论和方法丰富了贝叶斯非参数统计在主题模型中的研究,同时有助于提高文本分类的效果。