论文部分内容阅读
科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,是当前文本信息挖掘的热点,而文本聚类是文本挖掘信息领域的研究重点,而文本标记的关键基础又是文本聚类,与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点:第一,聚类的结果与客观使用需求的匹配;第二,聚类的结果的描述问题;第三,文本聚类结果的有效性评估问题。本文综合讨论以上三点,提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。本文主要在以下三个方面进行了相关工作:第一,针对国内外相关研究进行了详细的对比研究和综述,并指出现阶段研究的优势及不足。第二,将词向量模型以文本扩展的形式引入,对LDA模型的先验信息进行改进,引入高斯LDA模型,将潜在主题特征知识融入词向量空间,深层次挖掘出文本内部语义知识,提高文本聚类质量,并在Python下实现了高斯LDA模型。第三,利用基于统计学习方法高斯LDA模型,结合文本相关主题词及主题的概率分布情况,以及词向量模型,提出了一种基于词向量语义相似度的聚类结果评价方法。中英文语料上的试验结果对比分析显示,本文方法相对于传统的LDA以及传统的高斯LDA模型,聚类有效性有了一定的提升,且基于主题词对主题的描述较为清晰,从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。