基于深度神经网络的文本分类

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wdelaopologo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索和文本挖掘的重要基础,它的主要任务是对给定的文本内容进行类别判定。传统的文本分类方法大多需要人工构建特征工程,而且避免不了高维度高稀疏的文本表示。基于深度学习(如卷积神经网络)的方法能够自动提取特征表示并捕捉局部相关性,但是提取特征的能力却受限于部分超参数(如卷积核宽度)。
  针对深度学习存在的问题,本文提出了基于注意力机制的多通道卷积神经网络。该框架利用循环神经网络对文本进行序列建模,并应用注意力机制获得多通道表示,最终由卷积神经网络完成特征表示和分类。本文采用的注意力机制能有效地对文本进行了不同层面的表征,获得更丰富的语义表示。对于长文本的分类,本文对词和句进行分层编码,有效地减少了模型在序列建模上的时间复杂度。在标准数据集上的实验验证了本文所提框架的分类有效性,可视化结果表明了多通道表示的语义丰富性。
  本文的具体工作如下:
  1.提出了基于注意力机制的多通道卷积神经网络,该网络可以捕捉到句子中存在的长期依赖,并且可以隐含地将上下文的相关信息编码到词的高维表示中,从而使卷积神经网络提取局部信息的能力不受限于卷积核。
  2.本文提出的标量自掩注意力机制结合了语境,能够学习到词对结果的贡献。提出的矢量注意力机制是传统注意力机制的延伸,它能够计算词表示的各个维度对分类结果的贡献。结合提出的注意力机制,模型能够获得文本的多通道表示。
  3.针对长文本,本文提出了基于分层编码的模型来并行的处理文档中的各个句子。该模型结合注意力机制得到文档的最终表示,有效地减少了文档建模的时间。
  4.在标准数据集上的实验表明模型在分类任务上的有效性,多通道表示的语义丰富性,以及在长文本建模上的高效性。
其他文献
森林为人类提供多种生态系统服务,但随着森林覆盖的动态变化,森林生态系统服务的提供因时空而异。然而仍然缺乏能够预测森林覆盖空间分布的工具,同样需要了解森林覆盖变化的影响因素,以保护或加强其长期提供的生态系统服务。因此迫切需要利用森林预测模型以分析森林覆盖变化中的关键驱动因素。针对澳大利亚科学院水土所(CSIRO)提供的澳大利亚塔斯马尼亚洲森林数据集,先后基于支持向量回归(SVR)、人工神经网络(AN
学位
茶树的无土栽培有利于工厂化生产和室内科学实验研究。目前无土栽培方式繁多,应用较为广泛的是水培和基质培,为了比较这两种无土栽培方式对茶树生长的影响,本实验以黄旦为实验材料,测量茶树生长的各项指标和成活率,结果表明:移栽30天,基质培有利于茶芽的萌发,水培能促进芽叶的伸长和成熟;移栽60天,基质培有利于新根的生长和加粗,水培有利于成活和地上部分的生长,根系出现褐化现象;移栽90天,基质培有利于新根的加
海底地貌为研究大陆板块的运动以及海底自然灾害的发生提供重要的参考,为油气资源勘探提供重要的基础海底地形信息,对海上平台和海底管线的安装铺设有指导性意义。海底地貌单元及其边界识别是海洋科学研究与海洋工程实施的基础和前提。目前,海底地貌单元边界提取主要依靠技术人员手动完成,易受主观判断影响,耗时较长,劳动强度大。为了克服手动提取存在的缺陷,本文研究了海底地貌单元边界搜索算法,主要研究内容包括:(1)基
学位
天然气水合物钻探取样技术复杂且成本高,实物样品极其有限,物理模拟实验成本高且周期长,可模拟的实际条件有限、探测信息较少。岩石物理数值模拟为克服上述困难提供了一条可行的途径。本课题基于流场-电场耦合的有限元数值模拟方法研究了两相流体在管道和多孔介质中的非均匀分布状态以及相应的电学响应特性,从而为含天然气水合物或含油水岩石物理数值模拟实验提供了建模思路,为电学传感器的参数优化、电学测试数据的分析提供模
学位
现代工业系统具有大规模、高复杂度的发展趋势,系统运行中的安全性与可靠性问题,以及如何降低系统中的安全隐患是目前亟需解决的问题,故障诊断技术为解决这些问题提供了可能。网络化控制系统与传统结构系统相比具有传输速度快、成本低、可靠性强等优势。数据经网络传输产生的随机时延、丢包、异步会严重影响故障诊断性能,同时网络传输带宽在一般情况下是受限的,因此需要发展新的理论、方法和技术解决这些问题。本文旨在研究事件
学位
我国的原油消费对外依赖程度已经高达60.6%,严重威胁到我国能源安全和国家安全,开发海洋石油和天然气是缓解我国油气资源不足的重要手段,但海洋石油和天然气开采成本和消耗资源都极高,利用计划优化方法来优化采油生产全过程,无疑会带来巨大的经济效益。基于上述因素,本文针对海上采油过程,提出了从水下采油系统到水上平台的全过程集成优化方法。在综合考虑采油树生产安排,注驱,存储,人工举升等环节和海底管线的流动安
学位