论文部分内容阅读
在自然语言处理的研究中,词和句子是主要的研究单位。词一般是文本处理领域最小的有意义的单位,比如搜索引擎一般会把搜索的query切分成词再进行查找。句子是比词更高一级的文本单位,如果我们不限定句子的长度,那么句子也可以是段落或者篇章。由于词和句子是文本处理的主要单位,词和句子的表示的研究就显得尤为重要。词的表示学习方法可以分为两种类型的方法。一种是基于神经网络的模型训练得出的词向量,另一种主要是LSA,LDA这些类似矩阵分解的方法。句子的表示主要有基于TF-IDF的向量空间模型,主题模型可以学出句子在主题中的分布作为句子的表示,基于神经网络的语言模型可以无监督的学习出句子的表示。本文的主要工作包括以下几个方面。第一,在词向量模型方面,首先提出了基于逆词频霍夫曼编码的层次化softmax方法。神经网络语言模型通常采用基于霍夫曼编码的层次化softmax和negative sampling进行模型的加速。本文认为word2vec中高频词编码短而低频词编码长的算法不合理,因此提出了基于逆词频的霍夫曼编码。其次,本文研究了基于位置的权重向量和权重因子的问题,本文采用基于位置的权重向量以及基于位置的权重因子方法改进了word2vec词向量模型。最后,本文提出将背景词向量(context representation)与目标词向量(target representation)共享的词向量模型。背景词向量和目标词向量通常对应不同的向量,但本文实验发现共享词向量会得到更好的结果。第二,在段落向量方面本文,本文提出了 D-CBOW模型来学习段落向量和词向量,与Quoc的模型采用拼接或者平均的方法不同,D-CBOW模型采用段落权重向量和位置权重向量来融合词向量与段落向量。第三,采用上述算法,本文设计实现了段落的情感倾向判断。本文进行了多组实验对比,发现采用基于位置的权重向量和逆词频编码之后,在IMDB电影评论的情感倾向的判断的任务上效果好于Quoc的方法。同时本文还对sigmoid,tanh,relu三种激活函数进行比较,发现在情感倾向判断的任务中使用relu作为激活函数的效果较好。