基于神经网络的词和文档语义向量表示方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:odu38sbfsw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据表示是机器学习中的基础工作,数据表示的好坏直接影响到整个系统的性能。传统机器学习思路下,对数据的表示主要通过人工设计特征来完成,在很长一段时间里,文本、语音、图像领域中的各项任务均通过人工设计更好的特征来实现性能的提升。近年来,随着深度学习和表示学习的兴起,基于神经网络的数据表示技术在各个领域崭露头角。  在自然语言处理领域,最常用的语义表示方法是词袋子模型,该方法存在数据稀疏问题,并且不能保留词序信息。早期方法中提出的词性、句法结构等复杂特征,往往只能对特定的任务带来性能提升。本文从词和文档两个层次对文本的语义表示技术进行系统的总结分析,并提出了自己的表示技术,具体如下。  一、词向量表示技术的理论及实验分析。在这一部分中,本文对现有的词向量表示技术进行了系统的理论对比及实验分析。理论方面,本文阐述了现有各种模型之间的联系,从模型的结构与目标等方面对模型进行了比较,并证明了其中最重要的两个模型Skip-gram与GloVe之间的关系。实验方面,本文从模型、语料和训练参数三个角度分析了训练词向量的关键技术。本文选取了三大类一共八个指标对词向量进行评价,这三大类指标涵盖了现有的词向量用法。本工作为首个对词向量进行系统评价的工作,通过理论和实验的比较分析,文章提出了一些对生成词向量的参考建议。  二、基于字词联合训练的中文表示及应用。现有的中文表示技术往往沿用了英文的思路,直接从词的层面对文本表示进行构建。本文根据中文的特点,提出了基于字词联合训练的表示技术。该方法在字的上下文空间中融入了词,利用词的语义空间,更好地对汉字建模;同时利用字的平滑效果,更好地对词建模。文章在分词任务、词义相似度任务和文本分类任务上对字和词的表示进行了评价,实验表明字词联合训练得到的字词向量,相比单独训练字向量或词向量,有显著的提升。  三、基于循环卷积网络的文档表示及应用。在这一部分中,本文分析了现有的文档表示技术:基于循环网络的表示技术、基于递归网络的表示技术和基于卷积网络的表示技术。并且,针对现有的三种表示技术的不足,本文提出了基于卷积循环网络的文档表示技术。该方法克服了此前递归网络的复杂度过高的问题,循环网络的语义偏置问题,以及卷积网络窗口较难选择的问题。文章在文本分类任务上对新提出的表示技术进行了对比分析,实验表明基于循环卷积网络的文本表示技术比现有的表示技术能取得更好的性能。
其他文献
视频目标跟踪是计算机视觉领域的一个热点话题,在众多领域内具有广泛的应用价值。尽管提出了不少有效的跟踪算法,但是在实际用中面临许多困难,比如目标形变、环境光照变化、目标
该文将一种新型的Robust Backstepping非线性设计方法,应用于汽车主动悬架的控制.通过对主动悬架数学模型分析,导出了适合于采用Backstepping方法的系统模型.该文所提控制方
在诸多的优化算法中,遗传算法(Genetic Algorithms,GAs)是一种很有前途的随机优化算法,它具有非线性性和并行处理等优点.但传统的简单遗传算法(SGA)存在着以下问题:1.SGA不可
该文详尽介绍了华能营口电厂实时信息管理系统的设计开发过程.该系统主要由系统图显示子系统、参数图形显示子系统、报表浏览与打印子系统以系统图的形式显示实时数据;参数图
从仿生学角度出发,根据脑功能分区原理和脑式信息处理理论,对模块化神经网络结构自组织设计中的子网络结构自组织问题、复杂任务动态分解问题和子网络动态重组问题展开了系统而
"眼科多功能图像处理系统"将光学仪器获得的眼球图像通过光学接口,输入并存储 到计算机内,计算机对所获得的图像进行处理,以获得眼科疾病有关检测指标的准确数据.该课题设计
排水系统肩负着将煤矿矿井涌水及时排出的重任,保障着煤矿的稳定运行和矿工的生命安全。近年来由于排水系统发生故障导致的矿井事故很多,因此对排水系统进行状态监控和故障诊断
间歇过程在线监控与质量预测是从历史生产数据出发,建立基于数据驱动的监控、故障诊断和预测模型,并用于监视生产过程,及时发现并消除过程的异常状况,实现过程的安全、稳定运行,最
该文介绍了作者在字符识别领域里的工作,这些工作主要包括对模糊聚类算法,图像的分割,手写数字字符识别和多分类器组合的研究,以及一个实用支票处理系统的构造.该文首先对模
该文通过在不同含水和不同温度下,油对泵工况特性参数影响的模拟实验,结合实际生产数据找到了一个比较可靠和通用的计算公式,建立了一种新的在稠油情况下工况参数粘度修正的