论文部分内容阅读
中文文本分词问题是中文信息处理的一个重要问题,这个问题解决的好坏将直接影响中文信息处理的发展前景。目前学术界主要采用计算机自动分词解决中文文本分词,但是这种方法不能完全解决分词问题,这是因为计算机自动分词不能彻底地解决歧义字段的切分。那么,歧义字段倒底有多少,有哪些表现形式,形成的原因又是什么。为了对这个问题有一个充分的认识,我们对计算机的自动分词中的歧义字段做了定量分析,研究了歧义字段的分类和形成原因。 论文分为六个部分: 一、研究背景及问题的提出 中文文本分词在中文信息处理中有重要的作用,中文信息处理必须解决中文文本分词问题。 二、研究现状及存在的问题 目前中文信息处理中利用计算机自动分词解决中文文本分词,虽然取得了一定的成果,但是计算机自动分词存在一个重要的问题就是不能彻底解决歧义字段切分。 三、研究内容和思路 为了全面认识歧义字段的切分问题,我们采用受限语言的研究方法,以《信息交换用汉字编码字符集——基本集》中的3,755个一级字为研究对象,以《信息处理用现代汉语常用词词表》为参考,以典范的现代白话文著作为语法规范,统计分析出歧义字段的数量、表现形式及形成原因。四、计算机自动分词中歧义字段的研究 在本部分,利用计算机程序设计,统计分析出《信息交换用汉字编码字符集一基本集》中的3,755个一级字的构词现状和歧义字段的数量。对歧义字段的表现形式从构成形式和语法关系上做了分类研究,并研究了歧义字段的形成原因。五、中文文本分词解决方法的展望 通过以上的分析研究,我们可以看到,利用计算机自动分词是不可能完全解决歧义字段的切分问题的。解决分词问题只能另辟溪径,可以从汉字文本分词连写和按照汉语拼音正词法书写中文文本这两个角度着手研究分词问题。