论文部分内容阅读
模糊限制语是重要的语言现象,用于表示推测或不确定性的含义。由模糊限制语引导的信息为模糊限制信息。模糊限制信息检测是信息抽取的首要步骤,旨在将模糊限制信息与事实信息区分开来,避免将模糊限制信息当作事实信息进行抽取。模糊限制信息语料库是模糊限制信息检测研究的重要资源。目前,已有多个公开发表的英文模糊限制信息语料库,有效地推动了英文模糊限制信息检测研究的发展。然而尚未发现公开发表的中文模糊限制信息语料库。本文利用中文维基百科(Wikipedia)的大规模真实文本资源,构建了用于中文模糊限制信息检测研究的语料库。本文首先进行语料库设计,然后按照设计要求构建语料库,并对语料库进行统计分析。语料库设计根据中文维基百科文本的特点并参考同类英文语料库开展,规划了语料库的平衡结构和建设规模,对语料库的采样原则、逻辑结构等进行了具体设计。其中采样原则上,利用中文维基百科文本的5种模棱两可语意模板标记采样,以段落为取样单位,确保有足够具代表性的含模糊限制语的句子采集入库。逻辑结构上,以XML格式对语料库进行组织,并定义了各类XML元素以及元素的属性。为减少标注的工作量,以基于词典的最大匹配法对语料库模糊限制语进行了初始标注:首先进行了中文维基百科语料采集,并通过从模糊限制语相关文献提取关键词、利用同义词词典查找等方法构建了模糊限制语关键词词典,然后根据中文模糊限制语的特点,利用逆向最大匹配法进行自动标注。还通过分析标注错误的产生原因,提出了基于分词的逆向最大匹配法,有效避免逆向最大匹配法标注时出现的组合型歧义错误。为完成语料标注,本文对模糊限制语自动标注进行人工校正,并对模糊限制信息范围进行人工标注。本文提出了具体的标注原则。在标注模糊限制语时,遵循“最小原则”,即对能表示模糊限制性的最小单元进行标注;在标注模糊限制信息范围时,遵循“最大原则”,即标注到最大可能的句法单元。语料库的统计结果显示,与逆向最大匹配法相比,基于分词的逆向最大匹配法有效提高了标注精确率,语料库基本达到了平衡结构的设计目标。本文的研究成果可用于中文模糊限制语及其限制范围的检测研究,有助于促进中文文本信息抽取等研究领域的发展,并可为中文模糊限制语语义、’语法、语用等研究提供知识库支持。同时,本文可为建设此类语料库的研究在方法和实践上提供借鉴。