基于深度神经网络的朝鲜语文本表示及情感分析研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:huanxytt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习理论的不断发展和完善,基于深度学习的模型逐渐成了近些年自然语言处理技术的主流研究方法。而表征学习是基于深度学习的自然语言处理的基础,其质量直接关系到下游任务的性能。由于朝鲜语语料库缺乏,加之朝鲜语的粘着性特点,加大了朝鲜语自然语言处理的研究的难度。本文从朝鲜语表征学习和模型结构两个角度尝试解决朝鲜语的词向量、自动分写、形态素分析及词性标注、命名实体识别、情感分析等朝鲜语自然语言处理中的基础问题。这些领域往往是机器翻译、阅读理解、对话机器人等后续更复杂的自然语言处理任务的基础,因此本研究可以激励后续朝鲜语自然语言处理的研究。本文主要研究内容的总结如下:1)通过分析已有的词向量模型的结构,给出了适合于朝鲜语自然语言处理的词向量模型。首先,对比和分析了已有的词向量模型,例如NPLM、Word2vec中的CBOW和Skip-gram、Glo Ve、fast Text、Swivel等,并阐述了这些模型之间的关系。本文结合朝鲜语的语言特性,分析了这些主流模型在朝鲜语词向量中的适用性。其次,通过单词相似性预测数据集评估了这些词向量在朝鲜语领域中的性能表现,通过Naver影评情感分析数据集评估了各个词向量模型在下游任务中的表现。最后,通过以上理论和实验分析,发现fast Text模型在朝鲜语中具有一定的优势。2)提出一种新的朝鲜语自动分写方法。朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,提出一种朝鲜语分写增强音节向量训练模型KWSE,用于获取包含语义及分写倾向性信息的音节向量。其次,将朝鲜语分写增强音节向量与LSTM-CRF模型结合完成朝鲜语自动分写任务。实验结果表明本文提出的方法其单词级分写F1值为92.86%,优于其他方法。3)朝鲜语词性标注方面,提出管道模型及端到端的层次化序列对序列模型。词性标注是自然语言处理中的一项基本任务。朝鲜语词性标注不同于英文词性标注,除了词性标注外,还需要形态素原形恢复。针对朝鲜语词性标注的特点,提出两种解决方法。其一是管道方法,该方法首先通过序列对序列(seq2seq)模型恢复形态素原形,再利用Bi-LSTM-CRF模型完成朝鲜语词性标注。其二是基于seq2seq的端到端的方法。已有的seq2seq词性标注方法在建模过程中通常会考虑整个句子的上下文。然而朝鲜语中形态素原形恢复实际上更多依赖于局部上下文信息,而且形态素表现形和原形之间几乎可以一一对应。为了更好地适配朝鲜语词性标注的这些特点,本文提出一种层次化seq2seq模型。该模型利用底层Bi-LSTM对构成Eojeol的音节序列进行编码,并利用高层的LSTM融入Eojeol的上下文信息,利用解码器产生朝鲜语原形Eojeol序列。另外,为了提高原形恢复准确率,本文通过卷积层及注意力机制,将形态素表现形的局部n-gram信息融入到模型中。在世宗21世纪语料库中的实验结果表明,本文提出的模型在形态素级F1和Eojeol级准确度上均超过了基线模型,达到了目前最好的性能。4)提出一种基于Bi-LSTM-CRF和掩码自注意力机制的朝鲜语命名实体识别方法。命名实体识别是自然语言处理中的一项基本任务。已有的朝鲜语命名实体识别方法以朝鲜语中的形态素、音节序列、词性标注作为特征,利用序列标注模型解决这个问题。一方面,朝鲜语形态素本身含有很强的命名实体的指示性信息(特别是表示时间、人名)。另一方面,目标形态素的上下文在识别目标形态素的命名实体标签的过程中起着重要的作用。为了充分利用这两个特征,本文提出了两个辅助任务。其中一个是形态素级的命名实体标注任务,通过这个任务模型将捕获构成形态素的音节序列中的命名实体特征。另一个是基于上下文的命名实体标注任务,其目的是通过掩码自注意力网络捕获目标形态素的上下文特征。这两个模块和Bi-LSTM-CRF标注器一起被训练。在Klpexpo2016及Naver NLP Challenge 2018数据集中的实验表明,提出的模型超过了很强的基线模型,达到了目前最好的性能。5)提出一种基于朝鲜语情感增强形态素向量的情感分析方法。单词的情感倾向信息是句子情感分析的关键因素之一。然而现有的句子级情感分析方法把重点放在了针对句子中单词序列的建模上,而忽略了词向量的情感信息。用于Bi-LSTM模型输入的初始化词向量通常包含语义信息,而缺乏情感信息。针对这一问题,本文提出了一种融合情感增强词向量和Bi-LSTM的情感分析方法,并将该方法应用于朝鲜语情感分析任务中。实验结果表明融合了情感增强词向量的Bi-LSTM模型性能超过了常规的词向量。针对基于方面的朝鲜语情感分析(ABSA)问题,提出一种基于卷积神经网络和注意力池化机制的ABSA方法。实验结果表明,该方法超过了其他基线模型。
其他文献
卵形家族蛋白(Ovate Family Proteins,OFP)是植物中特有的转录因子家族,在调节植物生长发育中起重要作用。水稻基因组编码33个OFP蛋白(OsOFP),已报道OsOFP1、OsOFP2、OsOFP3、OsOFP8和OsOFP19调节BR信号传导,调控水稻株型和粒型的发育。研究表明,拟南芥OFP(At OFP)属于转录抑制因子,赤霉素(gibberellin acid,GA)合成
由于光学曲面在照明、成像方面上的优异性能,因此光学曲面在照明设备、相机镜头、天文望远镜乃至军事装备上都有大量的应用。为了获得符合性能要求的曲面,通常在最后对表面进行抛光处理。随着对设备性能需求的不断提高,对光学曲面表面质量的要求也不再局限于更低的粗糙度,而是在降低粗糙度的同时获得更低的中频误差和形面误差,这一过程被称作确定性抛光。本文以气囊抛光方法为研究对象,对光学曲面的确定性抛光进行了研究。确定
学位
金克己是韩国高丽中期文人,是高丽中期汉诗创作的杰出代表。关于金克己的生卒年无明确记载,其生平事迹亦不见正史。金克己留世的大部分诗文作品被收录在《东文选》《新增东国舆地胜览》《三韩诗龟鉴》《补闲集》等韩国历代诗文选集中。据俞升旦的《金居士集序》记载可知金克己文集有一百三十五卷之多,但这个文集已经失传。在《三韩诗龟鉴》中所收录的罗丽时期六十四位代表文人的诗歌作品中,金克己的诗歌数量占据首位,金克己也因
学位
随着互联网公司的日益增多以及市场的要求,公司间的竞标除了资质等一些硬性条件外,低廉的成本一直以来都是关键因素。为了压缩人力成本,越来越多的公司不可避免地要面临同时开展多个项目。除此外部环境之外,L公司还因为一些内部原因要开展多条业务线,拓展业务。在实际的运营过程中L公司基本上是多个项目并存同时推进。由于L公司没有成型的流程化管理,管理者的水平又良莠不齐,加上多项目并行的环境,项目在实施的过程中逐渐
近年来,学界对汉语主观量的关注度越来越高,尤其是关于表达主观量的构式研究成果十分丰富,但其中对主观限量构式的研究并不充分,且没有准确的界定。在梳理语料的过程中,发现否定形式是实现主观限量的主要标记,有基于此,我们以现代汉语中由否定形式标记的主观限量构式为研究对象,系统地考察其语义表达、话语功能等问题。全文分为7章,我们按照从总体介绍到个案研究的顺序组织文章内容。第1章是绪论。首先介绍了选题缘起,并
学位
学位
国家祭祀作为王朝礼制建设的重要内容,具有重要的政治和文化功能。北方游牧民族传统祭祀习俗与中原农耕民族儒家汉礼是辽朝国家祭祀构成的两大来源。契丹建国前将天地万物作为崇祀对象,充满自然崇拜的原始宗教信仰。建国以后,随着辽朝“变家为国”的政权建设,阿保机在汉臣的帮助下,以“参酌国俗,与汉仪杂就之”为基本原则,初步拟定了本朝的国家祭祀礼仪。太宗时期,随着对幽云汉地的占据,中原王朝国家祭礼开始大规模出现在辽