论文部分内容阅读
篇章话题结构分析主要针对篇章的意图性,是篇章语义分析的基础,其主要任务是从整体层次上分析出篇章话题结构及其构成单元之间的语义关系,并利用上下文理解篇章。篇章话题结构分析既需要研究篇章的基本构成单元,更需要研究基本构成单元之间的篇章关系。然而当前自然语言处理的研究重心大都集中在词法和句法领域,而忽略了篇章话题内在规律的研究,缺乏对篇章话题结构展开有效分析的系统理论方法,这就极大阻碍了基于篇章语义分析的相关应用。本文从理论体系探索、语料库构建和计算模型研究等方面系统开展了汉语篇章话题结构分析的关键问题研究。首先,本文重点研究了汉语篇章话题结构的理论表示体系。借鉴主述位理论、英语修辞结构理论和宾州篇章树库体系的优点,参考汉语复句和句群的研究成果,结合汉语本身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并基于微观话题链构建汉语篇章话题结构表示体系。其中,根据汉语特点定义了关键元素:篇章基本话题(子句)、篇章基本话题的主位(Theme)和述位(Rheme)、篇章微观话题结构(Micro-Topic Scheme)、微观话题联接(Micro-Topic Link)、微观话题链(Micro-Topic Chain)。篇章微观话题结构形式化表示为一个四元组;其主要特征是一种链式结构,链结点为篇章基本话题(子句),其内部的主位或述位为连接端;连接端之间通过微观话题联接建立起连接关系,其实质是一种语义关联,体现篇章之间的衔接关系。与PDTB语料库体系、广义话题结构理论的对比表明,本文所提基于微观话题链的汉语篇章话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点。基于微观话题链的汉语篇章话题结构表示体系是进一步开展篇章话题结构语料库构建的理论基础。随后,在此基础上,进行了汉语篇章话题结构语料库构建研究。本文采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于微观话题链表示体系的汉语篇章话题结构语料库(Chinese Discourse Topic Corpus,CDTC)。目前,CDTC共包含500个文档,本文对其进行了详细统计分析并展示了语料库的标注情况;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持。第三,本文研究了篇章话题结构的动态生成过程,提出并初步实现了一套基于主位推进理论的汉语篇章话题结构自动分析平台。该平台包括篇章基本话题识别、篇章基本话题中的主述位识别、微观话题联接识别和篇章话题链构建任务,实验结果验证了本文提出的基于微观话题链表示体系的合理性及所标注汉语篇章话题结构语料库的可用性。最后,本文研究了汉语篇章微观话题结构在自然语言处理的关键任务之指代消解中的应用效果。基于我们提出的篇章微观话题结构形式化表示方式及其构建的汉语篇章话题结构语料库,结合启发式过滤规则和机器学习方法,综合利用自顶向下抽取的篇章话题结构特征和自底向上抽取的浅层语义特征,实现了一个汉语指代消解原型系统。在CoNLL2012 Shared Task中的汉语语料和汉语篇章话题结构语料库语料数据集上的实验结果表明了该方法的有效性。目前,汉语篇章话题结构分析研究尚处于起步阶段,本文研究亦属探索性工作,对汉语篇章话题结构分析在理论、资源、计算上有不同程度的创新,期待能够对本领域的相关研究产生一定的参考价值,并促进自然语言理解技术的深入发展。