论文部分内容阅读
语义角色标注(Semantic Role Labeling,简称SRL)是浅层语义分析的一种实现方式,其任务是对于给定句子,对句子中的每个谓词标注出句中的相应语义成分,并作出相应的语义标记,如施事、受事、工具或附加语等。近期主流的SRL研究都基于特征向量的方法,取得了较好的效果。然而,这种方法存在的问题也日益突显,如:更有效的特征很难被抽取,丢失了重要的结构化信息等。目前,一种研究趋势是探索基于核函数的SRL方法,可以有效地解决特征工程所带来的瓶颈。本文深入探讨了基于树核方法的中文语义角色标注,重点研究SRL的分类阶段。首先,我们研究了应用在中文SRL上的各种核方法:使用二次多项式核实现了一个基于特征向量的语义角色分类系统;探索了基于卷积树核的语义角色分类方法,并在最小句法树结构的基础上,进一步定义了两种不同的句法结构。在中文PropBank语料上的精确率达到91.53%;使用复合核将基于树核和基于特征的方法结合,性能进一步提高,分类精确率达到94.23%。接着,我们对适用于中文SRL的有效结构化信息做了更为深入的研究,探索了结构化特征对语义角色分类的重要性。考虑到同一谓词的各论元间的影响,提出了多论元-谓词结构化特征空间(AAPF),并在结构化特征中融入平面特征的信息,提出了三种受平面特征启发的方法,分类精确率提高到92.54%。再使用复合核将最优的树核方法FIT与特征向量结合起来对语义角色进行分类,分类精确率达到95.21%,性能优于目前同类SRL系统。最后,我们使用树核函数的方法对中文名词性谓词语义角色分类进行了初步探索,结果表明,将树核函数应用于中文名词性谓词语义角色分类有较大的潜力。