论文部分内容阅读
文本分类是信息检索和文本挖掘的重要基础,它的主要任务是对给定的文本内容进行类别判定。传统的文本分类方法大多需要人工构建特征工程,而且避免不了高维度高稀疏的文本表示。基于深度学习(如卷积神经网络)的方法能够自动提取特征表示并捕捉局部相关性,但是提取特征的能力却受限于部分超参数(如卷积核宽度)。
针对深度学习存在的问题,本文提出了基于注意力机制的多通道卷积神经网络。该框架利用循环神经网络对文本进行序列建模,并应用注意力机制获得多通道表示,最终由卷积神经网络完成特征表示和分类。本文采用的注意力机制能有效地对文本进行了不同层面的表征,获得更丰富的语义表示。对于长文本的分类,本文对词和句进行分层编码,有效地减少了模型在序列建模上的时间复杂度。在标准数据集上的实验验证了本文所提框架的分类有效性,可视化结果表明了多通道表示的语义丰富性。
本文的具体工作如下:
1.提出了基于注意力机制的多通道卷积神经网络,该网络可以捕捉到句子中存在的长期依赖,并且可以隐含地将上下文的相关信息编码到词的高维表示中,从而使卷积神经网络提取局部信息的能力不受限于卷积核。
2.本文提出的标量自掩注意力机制结合了语境,能够学习到词对结果的贡献。提出的矢量注意力机制是传统注意力机制的延伸,它能够计算词表示的各个维度对分类结果的贡献。结合提出的注意力机制,模型能够获得文本的多通道表示。
3.针对长文本,本文提出了基于分层编码的模型来并行的处理文档中的各个句子。该模型结合注意力机制得到文档的最终表示,有效地减少了文档建模的时间。
4.在标准数据集上的实验表明模型在分类任务上的有效性,多通道表示的语义丰富性,以及在长文本建模上的高效性。
针对深度学习存在的问题,本文提出了基于注意力机制的多通道卷积神经网络。该框架利用循环神经网络对文本进行序列建模,并应用注意力机制获得多通道表示,最终由卷积神经网络完成特征表示和分类。本文采用的注意力机制能有效地对文本进行了不同层面的表征,获得更丰富的语义表示。对于长文本的分类,本文对词和句进行分层编码,有效地减少了模型在序列建模上的时间复杂度。在标准数据集上的实验验证了本文所提框架的分类有效性,可视化结果表明了多通道表示的语义丰富性。
本文的具体工作如下:
1.提出了基于注意力机制的多通道卷积神经网络,该网络可以捕捉到句子中存在的长期依赖,并且可以隐含地将上下文的相关信息编码到词的高维表示中,从而使卷积神经网络提取局部信息的能力不受限于卷积核。
2.本文提出的标量自掩注意力机制结合了语境,能够学习到词对结果的贡献。提出的矢量注意力机制是传统注意力机制的延伸,它能够计算词表示的各个维度对分类结果的贡献。结合提出的注意力机制,模型能够获得文本的多通道表示。
3.针对长文本,本文提出了基于分层编码的模型来并行的处理文档中的各个句子。该模型结合注意力机制得到文档的最终表示,有效地减少了文档建模的时间。
4.在标准数据集上的实验表明模型在分类任务上的有效性,多通道表示的语义丰富性,以及在长文本建模上的高效性。