论文部分内容阅读
在自然语言处理领域,随着研究对象逐渐从字词和句子转移到句群、段落和章节等更大的语义层面,篇章分析变得越来越重要。篇章分析是理解文本整体语义的基础,广泛应用于情感分析、问答系统、自动摘要等更深层次的自然语言处理应用。相较于微观篇章分析研究取得的成功,宏观篇章分析面临诸多挑战。宏观篇章分析包括篇章结构分析、篇章主次识别和篇章关系识别三个子任务。基于汉语宏观篇章结构表示体系,本文对汉语宏观篇章资源建设与结构分析方法展开深入研究,主要研究内容包括以下三个方面:(1)针对汉语宏观篇章语料匮乏的问题,本文构建汉语宏观篇章语料库(MCDTB)。首先,基于汉语宏观篇章结构表示体系,标注宏观篇章结构树,并额外标注段落主题句和篇章摘要等更高层次的宏观篇章信息;其次,在详细的标注流程和标注准则确定后,开发标注工具并提出质量保证策略,以保证标注速度和标注质量;最后,共标注720篇汉语新闻语料,并取得一致率大于80%和Kappa值大于0.6的标注一致性。在MCDTB上的篇章主次识别实验验证了该语料库的可用性。(2)针对高层次篇章结构识别由于样本过少而产生过拟合的问题,本文提出基于标签退化组合模型的宏观篇章结构识别方法。首先,将结构特征与语义和宏观信息特征相结合,形成组合模型;其次,将篇章主次识别任务与篇章结构识别任务相联系,使用标签退化方法将主次识别任务的预测标签退化为结构识别任务的预测标签,从而捕获更加细致的特征表达。在MCDTB上的实验结果表明,相较于基准系统,基于标签退化组合模型的性能具有较为明显的提升。(3)针对造成长文本篇章结构树构建过程出现性能下降的两个原因——信息不平衡问题和连贯性弱问题,本文提出基于反向阅读的宏观篇章结构树构建方法。首先,受到双向长短时记忆网络处理文本流的启发,提出全局反向阅读和局部反向阅读方法构建宏观篇章结构树,以此缓解信息不平衡问题和连贯性弱问题。其次,在基于转移方法的宏观篇章树构建过程中,构建通用的神经网络模型决策下一步行为。最后,在汉语语料库MCDTB和英语语料库RST-DT的实验证明本文模型的有效性。本文构建汉语宏观篇章语料库(MCDTB),并提出有效的篇章结构识别方法和篇章结构树构建方法,为宏观篇章分析的进一步研究打下基础。