论文部分内容阅读
句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。本文比较全面地研究了依存句法分析中的几项关键技术,包括统计模型、搜索算法、树库建设等。为了深入的理解各种模型、算法在实际中的应用效果,本文选择了三个具有代表性的方法,分别为马金山面向中文的依存分析算法,Nivre的基于转移的依存分析器MaltParser以及McDonald的基于图的依存分析器MSTParser,进行了深入的研究,并且通过实验进行比较。结果表明,MaltParser和MSTParser在中文上取得了不错的效果,但是马金山的算法在效率上占有优势,可以满足实际应用的需要。作者参加了CoNLL 2008依存分析和语义角色标注联合评测任务,取得了比较好的成绩。依存分析系统分为两个步骤。首先,本文基于MSTParser,经过仔细的特征选择和参数优化,建立了依存分析器。为了克服全局寻优的依存分析方法无法融合全局特征的缺点,本文使用了依存关系校正器对依存分析器的处理结果进行后处理。本文尝试使用基于规则与统计相结合的方法,将PennCT转化为HIT-IR-CDT的体系结构。本文将转化后的树库PennCDT加入到HIT-IR-CDT,训练并测试依存句法分析器。通过对实验结果仔细分析,本文认为这种基于规则与统计相结合的树库转化方法是有效的。但是由于PennCT和HIT-IR-CDT在标注体系上存在较大的差异,还需要继续深入研究。