论文部分内容阅读
随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新闻媒体出现在人们的生活之中,包括微博、新闻门户、在线问答网站等。从这些网络平台和媒体上人们可以获取各种短文本形式的文本数据,绝大多数的数据都是没有类别的,因此短文本的主题自动聚类研究有非常广阔的应用前景。理解这些短文本数据内潜在的主题结构是非常重要的。本文的工作围绕短文本数据集上的主题聚类问题展开研究。针对短文本数据集的稀疏性问题,基于共现词语能够体现更多语义信息的思想,本文提出了一个基于词共现网络的词对伪文档主题模型(BPDTM)。本文在新闻标题和知乎问题标题数据集上进行主题聚合度、文本聚类和文本分类的实验。实验结果表明BPDTM模型表现优于LDA和BTM模型,这证明了BPDTM模型在短文本主题聚类问题上是有效的。本文的主要工作有:1) 定义了词共现网络中的词对三角关系,并据此构造词对伪文档集。2) 基于词对伪文档集,提出了针对短文本数据集的词对伪文档主题模型。3) 提出了一种降低模型时间开销的方法,在保证了模型性能的基础上,显著减少模型运行时间。