先秦汉语自动分词及词性标注研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:rrsmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动分词和词性标注是中文信息处理的基础性工作,至今已有二三十年的历史。在现代汉语领域已经取得了令人瞩目的技术成果,但在古代汉语领域则研究甚少,有许多问题尚待解决,如古汉语双音节词的判定、高效实用的古汉语语料加工软件等。本文主要探讨如何用中文信息处理技术,在先秦汉语领域,进行自动分词和词性标注。   语料的观察和统计是进行中文信息处理的出发点。基于统计的策略是本文采用的的主要技术。结合大规模语料库,对《左传》文本进行详尽的语言学考察,统计语料的高频字词的实际使用情况及平均词长,为先秦汉语分词标注规范的制定提供数据支持。梳理传统语言学界已有研究成果,总结先秦汉语的词类体系,完善分词规范,进而对《左传》文本进行了词汇处理(分词和词性标注)。然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。   分词部分采用由字构词原理,进行字标注分词实验,模板分为两种:简单字面信息和增加复杂汉字特征。为了验证传统的先分词后标注的“两步走”方法,在古汉语语料上是否存在分词错误扩散问题,特别设计了两个词性标注对比实验:即在分词得到的最佳分词文本上进行词性标注实验,以及充分利用词性信息的分词标注一体化实验。另外还进行了基于标准分词文本的词性标注实验,理论上,将最佳分词文本的分词精度和标准分词文本的词性标注精度相乘,便可得到最佳分词文本词性标注精度的预测值,以此作为测试语料的最佳估值。   一体化方法不仅提高了分词精度,词性标注效果也有了明显提升。对《左传》分词和标注开放测试的最高F值分别达到了94.60%、89.65%;应用此方法对《公羊传》、《国语》、《吕氏春秋》等先秦文献进行小规模开放测试,也取得了令人满意的成绩,本文又进行了交叉验证。实验结果显示,2W-+2+C1’模板分词和词性标注平均F值均取得了最好成绩,只是时间开销比较大。我们得出结论,基于上下文两个汉字、汉字二元同现、字符分类及其二元同现的模板,最适合先秦汉语的语料自动标注加工。   研究表明,一体化方法满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。
其他文献
学位
保罗·奥斯特(1947-),美国当代作家,早年写诗,后转向小说创作,中途兼以翻译法语作品为生。在法国游学期间,他接触了大量现代后现代理论。早期因创作“非典型性”传记《孤独及
惯用语反映了一定的社会和文化现象,是民族语言沉淀下来的极具特色的一部分。现代汉语的惯用语以三音节、述宾结构为主要形式,而述宾结构的惯用语又通常以共同的述语动词为中
利用有限元分析方法,模拟计算汽车变速箱用离合器盘TIG焊条件下焊接温度场分布及熔池形态。采用等密度分布体积热源模拟TIG焊时在强电弧作用下所形成的热源。结果表明,采用简