论文部分内容阅读
中文分词作为中文自然语言处理中的一项重要技术,其结果的优劣将直接影响到后续文本处理的效果,而在思想政治教育领域中,其领域词汇具有新词诞生速度快、覆盖面广、词汇量大等特点,这给领域内的分词以及后续工作造成了极大困难。针对以上问题,本文设计并实现了思想政治教育分词系统,本系统基于领域文献构建语料库,基于统计的思想训练字级语言模型,使用维特比算法获取初步中文分词结果,最终通过基于词频偏差的中文分词优化算法优化初步分词结果,系统针对分词结果为用户提供包括提取关键词、词频统计、绘制词云图等功能,从而实现对领域文献的中文分词以及文本分析。论文进行的主要工作和取得的相关成果如下:(1)论文研究了中文分词相关算法,参考传统词级N-gram语言模型训练流程,训练获得字级N-gram语言模型,基于语言模型使用维特比算法寻找文本最优分词路径作为初步分词结果,考虑到专业词汇较长的特征,加入基于词频偏差的分词优化算法对初步分词结果进行重组以进一步提升分词准确率,最终输出最优分词结果。(2)在构建语料库的过程中考虑到包括专业词汇、热点词汇以及常用词汇三个方面词汇的覆盖程度,利用爬虫等手段获取三个方面的不同的领域文献以构建语料库,确保语料库尽可能包含领域内所有常见词汇。(3)针对文本处理的需求,系统实现TF-IDF算法为系统提供提取关键词的功能,并通过词频统计的功能对文本词汇出现次数进行统计,绘制词云图主要针对不同词汇出现次数绘制词云,图中词汇大小直接反映文本中词汇的次重关系,研究热点分析功能针对不同词汇绘制20年内相关文献发文量,满足研究工作对文本分析的需求。(4)设计并实现了思想政治教育分词系统的整体方案。前端部分主要使用PyQt5进行编写,后端主要使用Python语言实现。方案包括思想政治教育分词系统的结构设计以及各个模块的功能设计。本系统针对思想政治教育领域,实验结果表明基于相应思路搭建分词系统,提高了针对思想政治教育领域的中文分词准确率与文本分析效率,对思想政治教育领域文献的相关研究以及领域内的文本处理具有一定促进作用。