论文部分内容阅读
标点符号审校是中文文本审校的一个重要组成部分,标点符号的误用会对文本的可读性造成影响。由于标点符号的使用和语义息息相关,传统的机器学习方法很难学习到语义信息,在标点符号审校问题上的表现差强人意。而深度学习可以在很大程度上利用上下文信息,近年来在自然语言处理领域得到了广泛的应用,并在语音识别和文本分类等问题上取得了重要进展。本文将标点符号审校问题转换为分类问题,并用深度学习方法对其进行研究,主要工作包括以下两个部分:(1)提出了一个LSTM-CNN标点符号分类模型,该模型包括多层LSTM和三个并列的具有不同卷积核的CNN,其中采用多层LSTM可以实现对文本信息进行更好的抽象,以提取出更高层次语义方面的信息,而采用多个并列的CNN是为了获取不同维度的文本特征。由于深度模型中的超参数很多,本文通过多组对比实验确定的LSTM-CNN模型中几个重要超参数的最优值。同时为了验证LSTM-CNN模型的有效性,利用KNN、SVM以及朴素贝叶斯分类器等机器学习方法进行了对比实验,实验结果表明LSTM-CNN模型在标点符号分类问题上的表现要优于机器学习方法。(2)提出了一个基于注意力机制的LSTM-CNN标点符号分类模型。该模型在LSTM层和CNN层之间加入了改进的注意力机制,使得LSTM的不同时间步的输出具有不同的注意力权重,对句子中重要的单词分配了更多的注意力,更有利于标点符号的分类。本文通过对比实验确定了attention-size的最优值,并且实验表明基于注意力机制的LSTM-CNN模型要优于LSTM-CNN模型和传统的机器学习算法。为了验证标点符号的下文信息对分类的影响,本文使用标点符号的上下两个句子共同作为基于注意力机制的LSTM-CNN模型的输入进行了实验,结果表明加入下文信息后,模型的性能得到了提升。