论文部分内容阅读
所谓文本分类,就是针对一段文本信息,在所给定的类别中,选出与该文本相匹配的类别作为输出的一个重要手段。文本分类属于自然语言处理领域的一个基本问题,是机器学习等领域中非常活跃的研究方向,并有许多重要的实际应用。因此,研究具有较高精度与较强鲁棒性的文本分类算法有着重要的理论意义与实际意义。本文选择经典RNN的变体LSTM(Long Short-Term Memory)作为文本分类的基础工具有以下原因:一方面,LSTM模型由于引入新的“门”结构,可以很好的解决文本训练过程中样本长度过长学习能力不足的问题,使得与关键词距离较远的词语在学习过程中也可以得到很好的保留。当数据集较大时,就可以更好的对原文本想表达的意思进行学习,从而增强该算法的鲁棒性,并有效地提高了模型的泛化能力。另一方面,该模型在实验过程中可以表现出较高的准确精度,使我们的预测过程从一开始就更加接近事实情况。本文主要针对神经网络方面有监督学习对比研究了one-hot模型、word2vec模型等词嵌入模型、text CNN、Bi LSTM等神经网络框架、注意力模型等,最后部分还对Google最新提出的一些无监督学习模型,如BERT算法进行简述。本文的创新点如下:词嵌入的选取对于神经网络的泛化能力有着很大的影响。目前比较常用的词嵌入模型是one-hot模型,该模型在预处理文本时由于本身的设计缺陷,会导致维度过高从而占用过大的内存空间,在训练过程中无法表达词语之间的关系等问题。针对这个困难,本文提出应用word2vec模型来解决。该模型的原理是数据在经过one-hot模型处理的基础上,将其进行降维处理,并将意思相近的词语映射到向量空间中位置相近的地方,从而完美的解决了原模型存在的维度灾难和词汇鸿沟的劣势。同时,为了更进一步使预测精度得到提高,本文在基础模型中加入了注意力模型,与原模型及text CNN模型进行对比实验。最终实验表明,尽管在训练时长方面,新模型较text CNN模型用时更长,但是通过更换词嵌入模型以及增加注意力模型的方法可以使得计算机在文本分类任务中,既解决数据集较大时,设备条件有限的情况下导致的内存爆炸问题,也达到最终的实验结果上取得相比于原模型和text CNN模型更高的精度的实验目标。除此之外,实验中发现适当的增加训练周期以及隐藏层尺寸会提升准确率。但是学习率过大时,会导致模型出现不收敛的结果。