基于统计学习方法的高斯LDA模型的文本聚类研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:zhang514409411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,是当前文本信息挖掘的热点,而文本聚类是文本挖掘信息领域的研究重点,而文本标记的关键基础又是文本聚类,与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点:第一,聚类的结果与客观使用需求的匹配;第二,聚类的结果的描述问题;第三,文本聚类结果的有效性评估问题。本文综合讨论以上三点,提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。本文主要在以下三个方面进行了相关工作:第一,针对国内外相关研究进行了详细的对比研究和综述,并指出现阶段研究的优势及不足。第二,将词向量模型以文本扩展的形式引入,对LDA模型的先验信息进行改进,引入高斯LDA模型,将潜在主题特征知识融入词向量空间,深层次挖掘出文本内部语义知识,提高文本聚类质量,并在Python下实现了高斯LDA模型。第三,利用基于统计学习方法高斯LDA模型,结合文本相关主题词及主题的概率分布情况,以及词向量模型,提出了一种基于词向量语义相似度的聚类结果评价方法。中英文语料上的试验结果对比分析显示,本文方法相对于传统的LDA以及传统的高斯LDA模型,聚类有效性有了一定的提升,且基于主题词对主题的描述较为清晰,从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。
其他文献
Abstract Intelligent transportation system (ITS) is proposed as the most effective way to improve road safety and traffic efficiency. However, the future of ITS for large scale transportation infrastr
期刊
噪声在自然界中广泛存在,通常会对有用信号或信息产生随机干扰,它反映了微观运动对宏观变量演化过程的杂乱无规作用。通常情况下噪声被认为是消极有害的干扰,然而通过研究噪声对
“曹氏风筝工艺”融民间文化、宫廷艺术、南北扎制技术的精华于一体,形成了独特的风格。其制作流程为:扎、糊、绘、放,工艺具有独到之处。其技艺保存了21首扎制口诀及20种制
<正>为了让党建更好融入企业中心工作,让党支部建设与安全生产工作有效融合,并在安全工作中发挥作用,国网吉林四平供电公司充分发挥央企"六个力量",不断转变新观念,谋求新思
本文通过对荣华二采区10
期刊