论文部分内容阅读
自动分词和词性标注是中文信息处理的基础性工作,至今已有二三十年的历史。在现代汉语领域已经取得了令人瞩目的技术成果,但在古代汉语领域则研究甚少,有许多问题尚待解决,如古汉语双音节词的判定、高效实用的古汉语语料加工软件等。本文主要探讨如何用中文信息处理技术,在先秦汉语领域,进行自动分词和词性标注。
语料的观察和统计是进行中文信息处理的出发点。基于统计的策略是本文采用的的主要技术。结合大规模语料库,对《左传》文本进行详尽的语言学考察,统计语料的高频字词的实际使用情况及平均词长,为先秦汉语分词标注规范的制定提供数据支持。梳理传统语言学界已有研究成果,总结先秦汉语的词类体系,完善分词规范,进而对《左传》文本进行了词汇处理(分词和词性标注)。然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。
分词部分采用由字构词原理,进行字标注分词实验,模板分为两种:简单字面信息和增加复杂汉字特征。为了验证传统的先分词后标注的“两步走”方法,在古汉语语料上是否存在分词错误扩散问题,特别设计了两个词性标注对比实验:即在分词得到的最佳分词文本上进行词性标注实验,以及充分利用词性信息的分词标注一体化实验。另外还进行了基于标准分词文本的词性标注实验,理论上,将最佳分词文本的分词精度和标准分词文本的词性标注精度相乘,便可得到最佳分词文本词性标注精度的预测值,以此作为测试语料的最佳估值。
一体化方法不仅提高了分词精度,词性标注效果也有了明显提升。对《左传》分词和标注开放测试的最高F值分别达到了94.60%、89.65%;应用此方法对《公羊传》、《国语》、《吕氏春秋》等先秦文献进行小规模开放测试,也取得了令人满意的成绩,本文又进行了交叉验证。实验结果显示,2W-+2+C1’模板分词和词性标注平均F值均取得了最好成绩,只是时间开销比较大。我们得出结论,基于上下文两个汉字、汉字二元同现、字符分类及其二元同现的模板,最适合先秦汉语的语料自动标注加工。
研究表明,一体化方法满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。