论文部分内容阅读
数据表示是机器学习中的基础工作,数据表示的好坏直接影响到整个系统的性能。传统机器学习思路下,对数据的表示主要通过人工设计特征来完成,在很长一段时间里,文本、语音、图像领域中的各项任务均通过人工设计更好的特征来实现性能的提升。近年来,随着深度学习和表示学习的兴起,基于神经网络的数据表示技术在各个领域崭露头角。 在自然语言处理领域,最常用的语义表示方法是词袋子模型,该方法存在数据稀疏问题,并且不能保留词序信息。早期方法中提出的词性、句法结构等复杂特征,往往只能对特定的任务带来性能提升。本文从词和文档两个层次对文本的语义表示技术进行系统的总结分析,并提出了自己的表示技术,具体如下。 一、词向量表示技术的理论及实验分析。在这一部分中,本文对现有的词向量表示技术进行了系统的理论对比及实验分析。理论方面,本文阐述了现有各种模型之间的联系,从模型的结构与目标等方面对模型进行了比较,并证明了其中最重要的两个模型Skip-gram与GloVe之间的关系。实验方面,本文从模型、语料和训练参数三个角度分析了训练词向量的关键技术。本文选取了三大类一共八个指标对词向量进行评价,这三大类指标涵盖了现有的词向量用法。本工作为首个对词向量进行系统评价的工作,通过理论和实验的比较分析,文章提出了一些对生成词向量的参考建议。 二、基于字词联合训练的中文表示及应用。现有的中文表示技术往往沿用了英文的思路,直接从词的层面对文本表示进行构建。本文根据中文的特点,提出了基于字词联合训练的表示技术。该方法在字的上下文空间中融入了词,利用词的语义空间,更好地对汉字建模;同时利用字的平滑效果,更好地对词建模。文章在分词任务、词义相似度任务和文本分类任务上对字和词的表示进行了评价,实验表明字词联合训练得到的字词向量,相比单独训练字向量或词向量,有显著的提升。 三、基于循环卷积网络的文档表示及应用。在这一部分中,本文分析了现有的文档表示技术:基于循环网络的表示技术、基于递归网络的表示技术和基于卷积网络的表示技术。并且,针对现有的三种表示技术的不足,本文提出了基于卷积循环网络的文档表示技术。该方法克服了此前递归网络的复杂度过高的问题,循环网络的语义偏置问题,以及卷积网络窗口较难选择的问题。文章在文本分类任务上对新提出的表示技术进行了对比分析,实验表明基于循环卷积网络的文本表示技术比现有的表示技术能取得更好的性能。