基于无监督学习的思想政治教育分词系统设计与实现

来源 :济南大学 | 被引量 : 0次 | 上传用户:guhong_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词作为中文自然语言处理中的一项重要技术,其结果的优劣将直接影响到后续文本处理的效果,而在思想政治教育领域中,其领域词汇具有新词诞生速度快、覆盖面广、词汇量大等特点,这给领域内的分词以及后续工作造成了极大困难。针对以上问题,本文设计并实现了思想政治教育分词系统,本系统基于领域文献构建语料库,基于统计的思想训练字级语言模型,使用维特比算法获取初步中文分词结果,最终通过基于词频偏差的中文分词优化算法优化初步分词结果,系统针对分词结果为用户提供包括提取关键词、词频统计、绘制词云图等功能,从而实现对领域文献的中文分词以及文本分析。论文进行的主要工作和取得的相关成果如下:(1)论文研究了中文分词相关算法,参考传统词级N-gram语言模型训练流程,训练获得字级N-gram语言模型,基于语言模型使用维特比算法寻找文本最优分词路径作为初步分词结果,考虑到专业词汇较长的特征,加入基于词频偏差的分词优化算法对初步分词结果进行重组以进一步提升分词准确率,最终输出最优分词结果。(2)在构建语料库的过程中考虑到包括专业词汇、热点词汇以及常用词汇三个方面词汇的覆盖程度,利用爬虫等手段获取三个方面的不同的领域文献以构建语料库,确保语料库尽可能包含领域内所有常见词汇。(3)针对文本处理的需求,系统实现TF-IDF算法为系统提供提取关键词的功能,并通过词频统计的功能对文本词汇出现次数进行统计,绘制词云图主要针对不同词汇出现次数绘制词云,图中词汇大小直接反映文本中词汇的次重关系,研究热点分析功能针对不同词汇绘制20年内相关文献发文量,满足研究工作对文本分析的需求。(4)设计并实现了思想政治教育分词系统的整体方案。前端部分主要使用PyQt5进行编写,后端主要使用Python语言实现。方案包括思想政治教育分词系统的结构设计以及各个模块的功能设计。本系统针对思想政治教育领域,实验结果表明基于相应思路搭建分词系统,提高了针对思想政治教育领域的中文分词准确率与文本分析效率,对思想政治教育领域文献的相关研究以及领域内的文本处理具有一定促进作用。
其他文献
近年来,基于角色的访问控制(Control Access based-Role,RBAC)凭借其自身优势已迅速成为一种流行且有效的访问控制方式。不同于传统访问控制用户直接获取权限的方式,在RBAC中
当今互联网的高速发展,催生了众多的网络应用,同时高速的网络发展带来巨大的新闻数据量。与此同时,大数据量也给政府组织及其其他组织带来了在大数据背景下事件建模相关技术
孔隙地下水流场可视化是以孔隙地下水为研究对象,将科学计算可视化技术应用到水文地质领域和地下水流场的可视化表达中,属于矢量场可视化的一种。传统的可视化方法(如点图标
随着电力工业的高速发展,电流互感器作为一种特殊的变压器,电力系统用户对其提出了越来越多的要求,尤其是对其继电保护的要求越来越高。目前在发电厂及电力系统实际运行时由
表面熔覆涂层技术是用于提高部件及构件表面耐蚀耐磨性能的主要技术之一。随着诸如大型模具、重载自卸车车身、船用甲板、压力容器等大型构件用材对耐蚀耐磨性要求日益提高,
5G移动网络需要突破目前4G网络在传输速度、时延和可容纳设备方面的瓶颈,同时解决流量的不断增长并实现绿色通信,研究人员因此提出了异构网络、大规模MIMO、毫米波等技术来实
中子辐射存在于大气层、地表、核爆等环境中,其引发的单粒子效应对航空航天的电子设备稳定工作有较大的影响。随着集成电路工艺朝着小尺寸的方向发展,使得构成SRAM(Static Ra
由于机械加工的特性,工件表面在加工后不可避免的存在大量毛刺,不仅对加工精度有着较大的影响,还严重影响零件的质量和使用性能。目前去毛刺的手段仍以机械方式去除为主,随着
强激光与等离子体相互作用的研究是等离子体物理中的一个热点课题之一,它在X射线、高次谐波、激光等离子体加速器和快点火等方面都有很重要的应用.这些应用往往都要求激光能
钢铁企业是能源密集型产业,在能源日益枯竭的今天,钢铁企业必须在生产中不断探索节能技术,实施可控耗能的系统战略。能源消耗计量是实现优化能源管理的基础,可为能源预测和能