论文部分内容阅读
现如今文本数量与日俱增,对文本进行正确的分类有助于理解文本内容以及开展后续的工作。文本分类有众多的应用前景,如垃圾邮件识别,实时新闻分类,情感分析等,因此其得到了学者们的广泛关注与研究。然而,中文文本语义丰富且隐晦,中文文本分类的数据集语料质量较低,而且多标签分类存在标签数量不固定,标签之间的相关性多样等问题,上述因素使得中文文本分类成为一项极具挑战性的任务。本文针对中文文本多分类和多标签分类任务的特征提取问题进行了深入的研究。对于中文文本多分类任务,本文提出两种基于深度特征提取与融合的中文文本多分类算法。其次,对于中文文本多标签分类任务,本文设计并提出一种基于序列生成的中文文本多标签分类算法。总的来说,本文研究的主要内容包括以下几点:1.基于层次化语义信息特征提取的中文文本多分类算法:针对基于神经网络的中文文本多分类算法未对文本进行结构化建模,以及其特征提取能力不足的问题,本文就短文本和长文本分别提出了基于词-文本和词-句-文本层次化语义信息特征提取的中文文本多分类算法,同时引入注意力机制区分不同特征向量的重要性。最终,该算法在多个中文文本多分类公开数据集上取得了优越的性能效果。2.基于多元语义信息特征融合的中文文本多分类算法:针对长短时记忆网络处理序列长度有限以及特定语境语义信息存在缺失的问题,本文提出基于语义信息特征融合的中文文本多分类算法。该方法不仅采用转换单元双向编码表示作为特定语义信息特征提取器,而且基于词向量采用循环卷积神经网络提取了丰富的通用语义特征,有效的解决了序列长度过长带来的特征取问题,同时统一了长短文本的分类算法。本文在多个中文文本多分类数据集上进行了对比实验,实验结果充分证明了算法的有效性3.基于序列生成的中文文本多标签分类算法:针对现有文本多标签分类算法语义信息特征提取不足,且无法较好地建模标签之间关系的问题,本文提出基于序列生成的中文文本多标签分类算法。该方法采用转换单元双向编码表示作为文本语义信息特征的编码器,同时采用长短时记忆网络作为解码器,通过序列生成的方式得到标签组,并引入重复思考的机制,让该网络能够自主的对生成的标签组进行思考过滤,有效地增强了算法鲁棒性。本文也在多个中文文本多标签分类数据集上进行了对比实验,测试结果均达到该领域领先的水平。