论文部分内容阅读
随着深度学习理论的不断发展和完善,基于深度学习的模型逐渐成了近些年自然语言处理技术的主流研究方法。而表征学习是基于深度学习的自然语言处理的基础,其质量直接关系到下游任务的性能。由于朝鲜语语料库缺乏,加之朝鲜语的粘着性特点,加大了朝鲜语自然语言处理的研究的难度。本文从朝鲜语表征学习和模型结构两个角度尝试解决朝鲜语的词向量、自动分写、形态素分析及词性标注、命名实体识别、情感分析等朝鲜语自然语言处理中的基础问题。这些领域往往是机器翻译、阅读理解、对话机器人等后续更复杂的自然语言处理任务的基础,因此本研究可以激励后续朝鲜语自然语言处理的研究。本文主要研究内容的总结如下:1)通过分析已有的词向量模型的结构,给出了适合于朝鲜语自然语言处理的词向量模型。首先,对比和分析了已有的词向量模型,例如NPLM、Word2vec中的CBOW和Skip-gram、Glo Ve、fast Text、Swivel等,并阐述了这些模型之间的关系。本文结合朝鲜语的语言特性,分析了这些主流模型在朝鲜语词向量中的适用性。其次,通过单词相似性预测数据集评估了这些词向量在朝鲜语领域中的性能表现,通过Naver影评情感分析数据集评估了各个词向量模型在下游任务中的表现。最后,通过以上理论和实验分析,发现fast Text模型在朝鲜语中具有一定的优势。2)提出一种新的朝鲜语自动分写方法。朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,提出一种朝鲜语分写增强音节向量训练模型KWSE,用于获取包含语义及分写倾向性信息的音节向量。其次,将朝鲜语分写增强音节向量与LSTM-CRF模型结合完成朝鲜语自动分写任务。实验结果表明本文提出的方法其单词级分写F1值为92.86%,优于其他方法。3)朝鲜语词性标注方面,提出管道模型及端到端的层次化序列对序列模型。词性标注是自然语言处理中的一项基本任务。朝鲜语词性标注不同于英文词性标注,除了词性标注外,还需要形态素原形恢复。针对朝鲜语词性标注的特点,提出两种解决方法。其一是管道方法,该方法首先通过序列对序列(seq2seq)模型恢复形态素原形,再利用Bi-LSTM-CRF模型完成朝鲜语词性标注。其二是基于seq2seq的端到端的方法。已有的seq2seq词性标注方法在建模过程中通常会考虑整个句子的上下文。然而朝鲜语中形态素原形恢复实际上更多依赖于局部上下文信息,而且形态素表现形和原形之间几乎可以一一对应。为了更好地适配朝鲜语词性标注的这些特点,本文提出一种层次化seq2seq模型。该模型利用底层Bi-LSTM对构成Eojeol的音节序列进行编码,并利用高层的LSTM融入Eojeol的上下文信息,利用解码器产生朝鲜语原形Eojeol序列。另外,为了提高原形恢复准确率,本文通过卷积层及注意力机制,将形态素表现形的局部n-gram信息融入到模型中。在世宗21世纪语料库中的实验结果表明,本文提出的模型在形态素级F1和Eojeol级准确度上均超过了基线模型,达到了目前最好的性能。4)提出一种基于Bi-LSTM-CRF和掩码自注意力机制的朝鲜语命名实体识别方法。命名实体识别是自然语言处理中的一项基本任务。已有的朝鲜语命名实体识别方法以朝鲜语中的形态素、音节序列、词性标注作为特征,利用序列标注模型解决这个问题。一方面,朝鲜语形态素本身含有很强的命名实体的指示性信息(特别是表示时间、人名)。另一方面,目标形态素的上下文在识别目标形态素的命名实体标签的过程中起着重要的作用。为了充分利用这两个特征,本文提出了两个辅助任务。其中一个是形态素级的命名实体标注任务,通过这个任务模型将捕获构成形态素的音节序列中的命名实体特征。另一个是基于上下文的命名实体标注任务,其目的是通过掩码自注意力网络捕获目标形态素的上下文特征。这两个模块和Bi-LSTM-CRF标注器一起被训练。在Klpexpo2016及Naver NLP Challenge 2018数据集中的实验表明,提出的模型超过了很强的基线模型,达到了目前最好的性能。5)提出一种基于朝鲜语情感增强形态素向量的情感分析方法。单词的情感倾向信息是句子情感分析的关键因素之一。然而现有的句子级情感分析方法把重点放在了针对句子中单词序列的建模上,而忽略了词向量的情感信息。用于Bi-LSTM模型输入的初始化词向量通常包含语义信息,而缺乏情感信息。针对这一问题,本文提出了一种融合情感增强词向量和Bi-LSTM的情感分析方法,并将该方法应用于朝鲜语情感分析任务中。实验结果表明融合了情感增强词向量的Bi-LSTM模型性能超过了常规的词向量。针对基于方面的朝鲜语情感分析(ABSA)问题,提出一种基于卷积神经网络和注意力池化机制的ABSA方法。实验结果表明,该方法超过了其他基线模型。