论文部分内容阅读
关于汉语篇章连贯性的理论和技术研究是篇章分析领域的一个重要研究课题。从语言学角度看,篇章连贯性是指篇章按照篇章关系,将篇章中所表达的各种概念关联组织起来形成一个完整的结构,从而来表达篇章的语义。从计算机的计算可操作性角度看,为了获得篇章所表达的语义,我们需要研究一种描述体系来表示篇章的连贯性,并在此基础上进行相关技术研究。针对篇章连贯性的表示问题,本文基于汉语框架语义构建了篇章连贯性描述体系。同时,为了进一步展开篇章连贯性的相关技术研究,本文建设了相应的汉语篇章语料库。依据此描述体系,针对汉语篇章连贯性分析的技术研究主要包括三个子任务:篇章单元切割、篇章结构生成以及篇章关系识别。本文在自建的语料库上,对这三个任务的自动分析技术进行了初步的句子级探索。本文主要研究内容和研究成果如下:(1)针对篇章连贯性的表示问题,本文基于汉语框架语义,建立了方便计算机实现的框架篇章连贯性描述体系。该描述体系将连贯这个篇章语言学中的问题转化为一个可计算的篇章框架语义结构树分析问题,为篇章连贯提供了合适的表示机制和计算基础。(2)针对汉语篇章语料库不足,无法进行篇章连贯性技术研究的问题,本文依据描述体系建设了一个包含496篇篇章的汉语篇章框架语料库,并进行了人工一致性检验。该语料库的建设不仅弥补了汉语篇章语料库不足的问题,也为汉语篇章连贯性分析研究任务提供了资源支撑。(3)针对篇章单元切割问题,本文结合汉语标点符号与汉语框架语义的特点制定了一系列规则,实现了篇章单元的三层级切割。实验证明,框架语义可以有效切割篇章单元。(4)针对篇章结构生成问题,本文通过抽取依存句法、短语结构、目标词、框架等特征,首先训练篇章关系存在性最大熵分类模型,然后采用贪婪算法自下向上生成篇章结构树。实验结果证明,对于篇章结构生成任务,框架特征可以有效提升该任务的准确率。(5)针对篇章关系识别问题,本文通过抽取句首、依存句法、短语结构、目标词、框架等特征,训练了基于最大熵的篇章关系分类器。实验结果证明,对于篇章关系识别任务,框架特征可以有效提升该任务的准确率。本文针对汉语篇章连贯性研究,提出了基于框架语义的汉语篇章连贯性描述体系,并且在自建的汉语篇章框架语料库上对篇章的连贯性分析研究任务进行了实验,实验结果证明了框架语义在解决篇章连贯性问题上具有较好的作用,不仅可以从形式上表示篇章的连贯性,并且可以有效提高篇章连贯性三个任务的正确率。本文关于篇章连贯性研究的展开为篇章分析领域提供了一种新的篇章连贯性描述体系以及研究方法,同时也为自然语言处理其它研究领域提供了强有力的支持。