基于Tensorflow的中文分词训练优化

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:gang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别、图像处理等多个领域的发展都离不开深度学习技术,利用深度学习构造的语言模型可以自动进行特征学习,由于这一特点,这些语言模型被大规模利用到自然语言处理领域当中。统计语言模型就是通过基于统计的方法建造的自然语言模型,例如log-linear、n-gram 等模型。近几年,中文分词技术发展迅速,为处理自然语言处理领域的相关问题奠定了基础,同时也在数据挖掘、精准推荐等工作中得到了广泛应用。本文通过制作语料库、搭建skip-gram学习模型、初始训练和训练优化这四个主要步骤,采用深度学习的概念将循环神经网络应用到词向量训练任务当中。制作语料库的过程包括了下载语料、对语料进行预处理和建立词典。选择新闻作为语料,因为新闻相较其他类型的文章语义信息更丰富一些。对语料库的预处理包括了去标点符号、繁体转简体、去停用词、去低频词、用jieba分词器进行中文分词等。建立词典的作用就是让学习模型知道语料库当中有多少个不重复的词汇。在深度学习建立的框架之中,利用word2vec工具构建skip-gram模型,在这个学习模型下进行的词向量训练,将每次训练结果可视化,并通过计算测试集的平均查准率评判训练效果。skip-gram学习模型的结构只有三层,对应循环神经网络结构的输入层、隐藏层和输出层,skip-gram学习模型的搭建包括构建词向量变量、定义负采样中逻辑回归的权重和偏置、训练的接入、最小化loss值等内容。本文制定了两种优化方案,一种是参数优化,另一种是算法优化。参数优化就是利用控制变量法,对七个参数分别进行优化,优化过程中改变其中一个参数的质量,其他六个参数保持不变。算法优化就是建立层次词库的方式提高词向量训练的质量。在优化过程中,根据训练效果,通过不断优化学习模型各项参数和进行算法优化的方法,旨在能够更加精确地发掘出中文文本中词语之间所蕴含的语义信息。本文在成功搭建训练模型后进行了多次优化,最终将平均查准率从初始训练时的0.467提高到优化训练后的0.768,相较于初始训练,训练效果提高了64.5%,优化效果显著。
其他文献
随着时代的进步,国内施工技术获得不断提高,本文就某钢结构厂房大体积混凝土的施工技术进行探究分析,了解混凝土施工技术,并为提高施工质量提供有效依据。
康熙平定布尔尼叛乱之后,被编为总管旗的察哈尔八旗驻牧于宣化、大同边外。与察哈尔正黄旗同居中央位置的察哈尔镶黄旗驻牧于张家口边外。雍正年间,口北三厅先后设立,其中,张
过渡金属催化的碳-杂原子键和碳碳键形成,是现代有机化学的重要研究方向。近年来,钯催化作为过渡金属催化的热门之一,得到了有机化学家们的关注。与铑、铱、铂等传统金属催化
随着科学技术的发展,计算机的应用频率越来越高,给人们的生活带来许多乐趣与便利为了保障计算机正常运行,相关部门必须要对计算机硬件故障进行排除,不断提高计算机维修技术,进一步
血液尿酸水平是一个尚未引起人们足够重视的生化指标,它的轻度升高在临床上可无任何症状.但近年来已发现它是心脑血管病的危险因素之一,以往心、脑血管病的发生在临床上均认