贝叶斯统计在文本挖掘的若干研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zxjds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,越来越多非结构化的文本信息不断出现,我们需要新的工具来整理、搜索和理解这些文本信息,以便获取有价值的信息。文本挖掘(text mining)是解决这一系列问题的有效工具。在文本挖掘中,最常使用的是文本分类(Text classification)。文本分类是文本挖掘中有监督的学习过程,目的是基于文档内容将文档分配到一个或者多个预定义类别。由于文本信息构造复杂性、变化多样性和高维性,这给文本分类任务有效地提取文本特征带来了极大的挑战。概率主题模型(probabilistic topic models)是文本挖掘中提取文本特征的有效工具。主要是通过贝叶斯统计方法发现文本中的隐藏语义结构,进而获取有效的特征。因此,文本分类和概率主题模型是文本挖掘中非常有意义的研究课题。本文不仅关注文本分类,并探索了基于贝叶斯非参数的概率主题模型在文本分类中特征表示及其特征选择,主要工作如下:(1)波利亚罐子(Polya urn)模型是广泛应用于统计和文本挖掘的基本模型,大多数训练模型的算法都非常缓慢和复杂,因此通常很难适应大数据集。本文对波利亚罐子模型的极大似然估计(MLE)提出了一种新的极大极小MM算法,其中替代函数是通过简单的凸函数构造的。同时分析了 MM算法的收敛性,推导了非同分布观测的相应MLE的渐近正态性。同时比较了这种新的MM算法的与牛顿法和其他MM算法的性能。我们把波利亚罐子模型应用于文本分类的模型,并与经典的文本分类方法做了对比。(2)从词与词可能存在天然的内在关联角度,提出了一个基于分层狄利克雷过程(HDP)的图主题模型(GTM)。分层狄利克雷过程使得选择的主题数量变得灵活,打破了先前主题数量需要被给定的限制,而且图挖掘主题模型消除了“词袋”的假设并且考虑了文本的图结构。基于分层狄利克雷过程的图主题模型结合利用了两者的特性。我们用变分推断(variatioal inference)方法来进行后验推断,并分析了这种算法的收敛性。基于分层狄利克雷过程的图挖掘主题模型可以发现文本数据中隐藏的更多信息,也极大的提高了文本分类的效率和准确率。(3)从自然语言的实证研究中可以看出,单词的频率遵循幂律分布,经典统计模型无法捕获此属性。Pitman-Yor过程(PYP)是一个贝叶斯非参数模型,它可以生成幂律生成分布,并可用于模拟具有潜在无限数量的数据。它已广泛应用于概率主题建模。然而,使用PYP的现有概率主题模型很少考虑主题之间的关系。隐马尔可夫模型(HMM)是用于建模主题之间关系的最流行的成功模型之一。我们提出的方法构建了一个将HMM与Pitman-Yor Priors相结合的概率主题模型,并通过使用变分贝叶斯(VB)方法进行后验推断,并把这个模型与相关的模型在文本分类上对做了对比。(4)从文本的构造角度,提出了一个基于分层Pitman-Yor过程的句子主题模型。这个主题模型考虑了经典主题模型经常忽略的句子信息,能够弥补主题模型“词袋”的假设的不足。因为分层Pitman-yor没有截棍(stick-breaking)表示形式,这里变分贝叶斯(VB)方法不再适用推断后验分布,为此我们探索了 Gibbs抽样方法来推断后验分布。我们将基于分层Pitman-Yor过程的句子主题模型应用到主题建模以及文本分类上,并与经典的主题模型做了对比。本文的结论和方法丰富了贝叶斯非参数统计在主题模型中的研究,同时有助于提高文本分类的效果。
其他文献
言语交际中许多词汇传递的实际信息并不等于它们的字面意义,这种现象称为词义的未完全表达。尽管这些词汇表面上看来意义不明确,释话人却总能够在瞬间推测到说话人的真实意义
巴尔虎土语是巴尔虎-布利亚特方言的一个分支。在我国,巴尔虎土语的研究起始于学者清格尔泰在二十世纪五十年代中期发表的《中国境内蒙古语族语言及蒙古语方言概况》(1957年)
《情感与理智》是英国女作家简奥斯汀以十八世纪英国为主要背景进行创作的爱情小说,小说之中主要以达什伍德姐妹为主要人物,以在她们身上发生的爱情故事为主要内容。在小说之
采用单一的风险评价或无损检测技术难以制定经济合理的检测方案。本文将输气场站RBI风险评价与无损检测技术相结合,在风险评价确定站内管线风险分布区域的基础上,结合场站管
情境话语是一种约定俗成的、高度公式化的、预制的语用习语,通常出现在特定的交际情境中。情境话语表现像词语,且其意义只有在相关的框架中才能得以体现。根据情境话语具体的
本论文以库伦口语中运用的汉语借词为研究对象,分析了汉语借词的语音变化和语法变化特征。本论文由导论、第一章、第二章、第三章和总结等五部分组成。导论部分介绍了论文研
纵观全球电影事业正在日益发展,科幻电影作为新时代孕育出的类型片,也如同春笋一般应运而生。科幻电影的发展,路漫漫其修远兮,我们只有充分的保持文化自信,相信我国的科幻电
身体从后现代观念来看,并非一直属于与心理二元对立的、被排除在心理之外的一个“不在场”的教学存在。身体具有接物联天、悟真启智、孕情育意、率性臻美诸特质,从而决定了“身
目的:研究归芪聪志汤对血管性痴呆(varscular dementia,VD)模型大鼠学习记忆和海马神经元紧密连接蛋白1(Claudin-1)和转化生长因子-β(transforming growth factor-β,TGF-β
对于平话人的研究最先出现在语言学界,因为平话人最重要的特征之一就是语言的独特性。在语言学家们对平话研究的成果逐渐引起学者们的关注时,对平话人的人类学研究也逐渐起步