论文部分内容阅读
浅层篇章结构分析任务是通过分析自然语言句子之间的逻辑语义关系,例如并列关系、递进关系、转折关系、因果关系等最终获取文章的浅层篇章结构。浅层篇章结构分析的结果可以广泛的应用于自然语言处理任务中,例如机器翻译、自动文档摘要、问答系统等。目前浅层篇章结构分析可以划分出多个子任务,如篇章连接词的识别、浅层篇章结构关系相关的论元对识别(细分为论元1句子定位和论元对词语识别)、浅层篇章结构显式关系分类、浅层篇章结构隐式关系分类,本文在前人工作的基础上进行了一系列尝试和改进。本文的工作内容如下:(1)基于传统离散特征的浅层篇章结构分析系统:我们总结了前人在浅层篇章结构分析工作上的经验,精心的设计了一个完整的基于传统离散特征的浅层篇章结构分析系统,我们在充分借鉴了前人的工作的基础下,针对论元1句子定位子任务提出了基于窗口的有约束序列标注方法,定位论元1在篇章中的具体位置,结合了有效的特征,提高了整个论元对识别任务的准确率。(2)基于神经网络的浅层篇章结构隐式关系分类:浅层篇章结构隐式关系分类任务是目前浅层篇章结构分析工作中的难点。不同于显式关系分类任务,隐式关系缺乏显式连接词来作为两个论元之间所蕴含的逻辑语义关系的有效的指导信息,因此隐式关系分类只能通过两个无连接词的论元发掘其中蕴含的逻辑语义关系。借鉴前人提出的基于深度学习的浅层篇章结构隐式关系分类方法,本文尝试并实现了基于神经网络并结合自注意力机制的方法处理浅层篇章结构隐式关系分类任务。(3)基于句法信息的浅层篇章结构隐式关系分类:考虑到只使用自然语言文本不足以提供充分的输入信息的情况,本文提出了结合自动句法信息的方式增强模型的输入,为模型提供更充分的额外信息量,使得模型的性能得到了进一步的提升。本文基于传统机器学习方法和深度学习方法,尝试提高浅层篇章结构分析系统和隐式关系分类任务的性能,并取得了一些初步效果。我们期待这些研究成果未来可以被应用到其他自然语言处理任务中。