基于分布表示的句子分类研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:tsy99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来深度学习的技术在NLP(natural language processing)领域有着巨大的发展。很多重要的NLP任务应用相关技术取得了很大的突破,如语言模型、机器翻译、QA(Question Answering)、中文分词等。相较于传统的浅层学习如逻辑回归、SVM(Support Vector Machine)等,深度学习模型拥有更强的表示能力。之所以深度学习技术在NLP领域有着快速的发展,与分布表示方法的发展成熟有密不可分的关系。词和句子是自然语言的基础单位,很多NLP的重要任务事实上都可以分解为词级别的任务或者是句子级别的任务。因此,好的词级别的分布表示和句子级别的分布表示对简化模型和提升任务效果都能起到关键的作用。词级别的分布表示研究近两年来有大量优秀的工作,现在的词向量技术在基础化,工具化,可迁移性等方面都表现良好。与之相对的,句子级别的分布表示研究还相对集中在有监督学习的领域,以及针对具体任务的建模。虽然针对具体任务设计的模型,能够取得很好的效果,但是在迁移性上不够完善。用无监督学习的方式得到句子的分布表示,并迁移到各个具体任务中去因而成为了一个重要而有意义的研究问题。本文中,作者主要的研究问题是通过无监督学习的方法,应用深度学习相关技术得到句子的分布表示,并将之应用在具体的句子级别分类任务,如情感分析和关系分类中,同时,针对具体的任务本身,研究句子分布表示与有监督的方法相结合以提升任务表现的方法。基于上述问题,本文的进行的研究工作和取得的成果如下:1.提出一种有监督的卷积—循环神经网络(convolutional-recurrent neural networks)的组合模型,在现有的多窗口卷积网络中引入双向循环网络层,来自适应的提取变长的模式,在MR、SST-1、SST-2等公开情感分析数据集上取得了较之前最优结果最多7%的准确率的提升。2.基于无监督的自编码器(auto-encoder)技术,设计了基于卷积神经网络、循环神经网络和卷积—循环神经网络的自编码器模型。实现了从词向量序列到句子分布表示的无监督建模。将得到的句子分布表示应用到句子分类任务中,在1中所述任务中取得了不弱于端到端有监督模型的效果。3.将上述有监督的模型和无监督模型进行结合,提出了一种自动卷积—循环神经网络(auto-convolutional-recurrent neural networks)的半监督模型,有效防止了有监督模型存在的过拟合现象,在1中所述结果上,进一步取得了1%~2%的提升。
其他文献
氮氧化物是造成诸如光化学烟雾、酸雨及雾霾等污染事件的重要污染物之一,严重影响了我国的生态环境及经济的可持续发展。选择性催化还原(SCR)技术是当前脱除NOx最为有效的技术
目的:促进创伤性脑损伤(traumatic brain injury,TBI)后轴突的再生和正确致靶是神经外科研究领域的热点和难点。本课题以小鼠TBI模型为研究对象,分析TBI后创伤区微小核糖核酸
实验室前期研究中,利用大豆慢生型根瘤菌Brdyrhizobium japonicum USDA110基因芯片技术,大豆异黄酮genistein作为刺激元,获得了全基因组表达谱,首次发现了一处染色体位点的表
互联网正在从“用户以获取信息为主”的Web1.0时代过渡到“用户既是网络信息获取者又是网络信息制造者”的Web2.0时代。为了能够在海量数据中发掘信息或者服务,用户画像具有
为了减少江淮丘陵地区麦玉两熟系统氮肥施用量,本研究利用秸秆和有机肥猪粪替代化肥的方法探索该地区减氮增效绿色生产模式。通过设置6个试验处理,分别为化肥全量+秸秆不还田
蛋白质结构预测是生物信息学中一个非常重要的研究课题。在蛋白质结构预测过程中,会获得许多候选蛋白质结构。但是到目前为止,如何从得到的数目巨大的候选结构中选出最接近天
在自然语言处理领域中,词和句子是最基本的表示单位。词是一种抽象的表示方法,往往包含多种含义,不同词间的关系也各不相同。句子可以看作词序列,具有特定的句法结构,内涵也
随着互联网技术和视频技术的发展,提取大量信息中有效的内容成为一个研究的重点,并且人脸区域通常都被认为是视频序列中的感兴趣区域。在人脸相关的系统中,一般需要首先进行
祁连山中段的黑河上游,地处我国西北干旱、半干旱地带,主要植被类型包括草地、灌木、乔木,这些植被在河西走廊地区的水源涵养中发挥着重要的作用。对祁连山中段的植被动态进
随着移动互联网的飞速发展以及各种移动业务应运而生,未来移动网络面临着网络异构结构更加明显、移动数据爆炸式增长、各种新兴业务推陈出新等严峻挑战。在未来多业务类型、