基于神经网络的语言模型的改进研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lahlyg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理的研究中,词和句子是主要的研究单位。词一般是文本处理领域最小的有意义的单位,比如搜索引擎一般会把搜索的query切分成词再进行查找。句子是比词更高一级的文本单位,如果我们不限定句子的长度,那么句子也可以是段落或者篇章。由于词和句子是文本处理的主要单位,词和句子的表示的研究就显得尤为重要。词的表示学习方法可以分为两种类型的方法。一种是基于神经网络的模型训练得出的词向量,另一种主要是LSA,LDA这些类似矩阵分解的方法。句子的表示主要有基于TF-IDF的向量空间模型,主题模型可以学出句子在主题中的分布作为句子的表示,基于神经网络的语言模型可以无监督的学习出句子的表示。本文的主要工作包括以下几个方面。第一,在词向量模型方面,首先提出了基于逆词频霍夫曼编码的层次化softmax方法。神经网络语言模型通常采用基于霍夫曼编码的层次化softmax和negative sampling进行模型的加速。本文认为word2vec中高频词编码短而低频词编码长的算法不合理,因此提出了基于逆词频的霍夫曼编码。其次,本文研究了基于位置的权重向量和权重因子的问题,本文采用基于位置的权重向量以及基于位置的权重因子方法改进了word2vec词向量模型。最后,本文提出将背景词向量(context representation)与目标词向量(target representation)共享的词向量模型。背景词向量和目标词向量通常对应不同的向量,但本文实验发现共享词向量会得到更好的结果。第二,在段落向量方面本文,本文提出了 D-CBOW模型来学习段落向量和词向量,与Quoc的模型采用拼接或者平均的方法不同,D-CBOW模型采用段落权重向量和位置权重向量来融合词向量与段落向量。第三,采用上述算法,本文设计实现了段落的情感倾向判断。本文进行了多组实验对比,发现采用基于位置的权重向量和逆词频编码之后,在IMDB电影评论的情感倾向的判断的任务上效果好于Quoc的方法。同时本文还对sigmoid,tanh,relu三种激活函数进行比较,发现在情感倾向判断的任务中使用relu作为激活函数的效果较好。
其他文献
<正>选修课是在必修课的基础上的进一步拓展与提升,因此,二者在教学目标上是存在很大区别的。弄清楚必修课与选修课在教材编排体例上的和教学目标上的差异性,是上好选修课的
针对工程爆破中电子延时雷管易受爆破冲击波作用的影响,提出了强冲击条件下电子延时雷管高精度计时起爆的原理和方法。采用一种将高精度的晶体振荡器与抗冲击的谐振振荡器结
对大部分学生来说,顺利地将各类化学反应设计为原电池有一定难度。鉴于此,首先介绍了将化学反应设计成原电池的基本思路,在此基础上,着重论述了如何选择电解质溶液以及如何添
对贵州省黔西南州体育中考概况、体育中考的社会认知度、体育中考对农村中学体育教学的影响进行调查与分析。结果认为,体育中考政策促进了黔西南农村中学学校体育的发展,但由
<正>拥有百年历史的国家图书馆,自建馆之初就开始了金石拓本的收藏。1929年(民国十八年),京师图书馆与北海图书馆合并,重组为"国立北平图书馆"。根据教育部核准《国立北平图
<正>2014年8月,德国联邦政府通过《数字化行动议程(2014-2017)》,确定了以宽带扩建、劳动世界数字化、IT安全问题等为主要内容的跨部委数字化战略,其中第五行动领域由德国联