论文部分内容阅读
篇章关系分析是自然语言处理的一个核心问题。在篇章研究领域中,篇章是指一系列连续子句、句子或语段构成的语言整体;而篇章关系是指同一篇章中,不同论元之间的语义逻辑关系(如因果关系、转折关系等)。其中,论元是一种具有完整语义并表述独立观点的文字片段。篇章关系分析任务即是对两个不同论元(也称一组论元对)之间的具体篇章关系类型进行识别与判定。根据论元之间是否存在显式连接词(也称作线索词,如“因为”、“但是”等),可将篇章关系分为显式关系和隐式关系,相应的论元即被称为显式论元与隐式论元。现有研究对显式关系分析已具有较好的推理效果,而对缺失连接词的隐式关系尚无法有效处理。本文针对两个毗邻且隐式相关的论元,提出了一种基于平行推理机制的隐式篇章关系检测方法。核心思想是根据“论元语义平行,则论元关系平行”的理论假设,即某显式论元对与隐式论元对在句子结构以及语义层面上均相近,也就是说语义平行,则这两个论元对的语义连接关系应相同,并借助信息检索技术,从大规模数据集中挖掘平行的语义论元集合及其论元关系的显式线索,从而建立无指导的隐式篇章关系检测系统。主要研究内容包括以下三个方面:1)检索驱动的隐式关系平行推理机制借助大规模Web信息,实现平行论元的自动挖掘和平行关系的自主推理。一方面,在挖掘平行论元过程中,重点依赖信息检索技术,通过构建高质量查询关键词,从搜索引擎中挖掘语义表述相近的平行论元及线索;另一方面,构建三种篇章关系推理模型,从各方面对挖掘出的平行论元及语义线索进行质量评估,最终选择质量最优的N个平行论元,借助高质量平行论元中语义线索与篇章关系的映射体系实现隐式篇章关系推理。2)平行推理中歧义线索消歧在基于平行推理机制实现隐式篇章关系检测任务中,推理线索存在两方面的歧义:(1)线索连接词本身的一词多义现象;(2)混淆连接关系的伪线索词存在。两类歧义都将影响最终隐式篇章关系检测性能。因此,本文从基于局部最优的连接词词义消歧以及基于潜在连接词识别的伪连接词过滤两个方面,对平行推理过程中的歧义线索进行消歧,以提高隐式篇章关系检测性能。3)基于双语协作的平行推理优化在检索驱动挖掘平行论元及语义线索的过程中,由于部分隐式论元的词汇信息有限或搜索引擎检索性能限制,导致挖掘的平行论元数量少甚至为零,不利于平行论元与隐式论元之间平行关系的正确推理。因此,本文尝试通过跨语言信息检索技术,从搜索引擎中挖掘另一种语言的平行论元及推理线索,以此来扩充平行资源,使得平行关系推理依据更充分更丰富,从而进一步优化隐式篇章关系检测。