论文部分内容阅读
中文语义角色标注是近年来中文信息处理的一个热点,它能够广泛应用到信息检索、问答系统、信息抽取等领域中。句法分析对语义角色标注的影响很大,使用不同句法分析方法进行语义角色标注是目前该领域研究的主流。因此本文主要针对中文语义角色标注中特征的构造和选择,使用依存句法进行中文语义角色标注,以及多句法分析结果相结合进行了深入研究。 特征的构造和选择一直是中文语义角色标注的一个难点。本文针对中文短语结构句法和依存句法的特点,提出了许多有效的新特征和组合特征,并通过χ2显著性检验、贪心算法的特征选择方法找到最优特征集,有效提高了系统性能。在最优特征集上,基于高质量短语结构句法和依存句法的系统,性能分别达到了91.31%和85.22%。 基于依存句法进行中文语义角色标注是一种新方法。本文首先通过Penn2Malt转化Chinese Proposition Bank(CPB)得到高质量语料进行实验,并使用丰富的特征和有效的后处理规则,使得系统性能达到85.22%。然后采用哈工大信息检索研究室的语言技术平台,实现了基于完全自动依存句法的中文语义角色标注系统。本文利用依存句法丰富的依存关系类型,系统精确率提高到77.22%,最终超过了基于自动短语结构句法的系统精确率。 多句法结合能够充分利用句法层次的信息指导语义角色标注。利用多种句法分析器输出结果的不同,找到更多的句法结构参与语义角色的标注,以期提高语义分析的召回率,从而提高语义分析的性能。本文采用自动短语结构句法和自动依存句法相结合的语义分析方法,综合利用短语结构句法标注的较高召回率和依存句法标注的较高精确率,并给出对角色候选分类处理的有效结合策略,最终提高了系统的性能。从而证实了这种多句法相结合的中文语义角色标注方法是有效的。