中文文本分词研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:ii688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本分词问题是中文信息处理的一个重要问题,这个问题解决的好坏将直接影响中文信息处理的发展前景。目前学术界主要采用计算机自动分词解决中文文本分词,但是这种方法不能完全解决分词问题,这是因为计算机自动分词不能彻底地解决歧义字段的切分。那么,歧义字段倒底有多少,有哪些表现形式,形成的原因又是什么。为了对这个问题有一个充分的认识,我们对计算机的自动分词中的歧义字段做了定量分析,研究了歧义字段的分类和形成原因。 论文分为六个部分: 一、研究背景及问题的提出 中文文本分词在中文信息处理中有重要的作用,中文信息处理必须解决中文文本分词问题。 二、研究现状及存在的问题 目前中文信息处理中利用计算机自动分词解决中文文本分词,虽然取得了一定的成果,但是计算机自动分词存在一个重要的问题就是不能彻底解决歧义字段切分。 三、研究内容和思路 为了全面认识歧义字段的切分问题,我们采用受限语言的研究方法,以《信息交换用汉字编码字符集——基本集》中的3,755个一级字为研究对象,以《信息处理用现代汉语常用词词表》为参考,以典范的现代白话文著作为语法规范,统计分析出歧义字段的数量、表现形式及形成原因。四、计算机自动分词中歧义字段的研究 在本部分,利用计算机程序设计,统计分析出《信息交换用汉字编码字符集一基本集》中的3,755个一级字的构词现状和歧义字段的数量。对歧义字段的表现形式从构成形式和语法关系上做了分类研究,并研究了歧义字段的形成原因。五、中文文本分词解决方法的展望 通过以上的分析研究,我们可以看到,利用计算机自动分词是不可能完全解决歧义字段的切分问题的。解决分词问题只能另辟溪径,可以从汉字文本分词连写和按照汉语拼音正词法书写中文文本这两个角度着手研究分词问题。
其他文献
在现代社会科学技术水平不断发展的形势下,在水泥生产过程中越来越多的新技术及新工艺得以应用,而新型干法水泥生产技术就是其中比较重要的一种。在新型干法水泥生产技术应用
福建佛教建筑是中国汉地佛教建筑的一个重要分支,这一体系的研究已经取得了非常丰厚的成果,但在空间及结构方面仍有待进一步的深入和完善。本论文正是以此为研究对象,对福建佛教
隐喻在两千多年的传统里被认为是语言问题,因而吸引了众多修辞学家和文学批评家。亚里士多德的观点“隐喻是把属于其它事物的名称赋予某物”(源自利可,1975:13)长期以来统治着西
随着经济发展和人民生活水平的提高,旅游、养生行业正悄然崛起,尤其是在中国温泉资源丰富的少数地区,温泉养生旅游这一新兴产业悄然崛起。发展温泉养生文化旅游,主要是借鉴日本的
近段时间来,随着互联网、数字技术、信息技术等的发展,新媒体技术也得到了迅猛发展,其已经将传媒产业于网络经济实现了完美对接,应用于人们生产生活的各个领域,成为了人们的
口译是一种语言所表达的内容在另一种语言中的即时再现。口译与笔译虽然同属翻译工作,都是人们所表达的思想从一种语言转化到另一种语言的过程,并且都是一个从理解到表达的过程
氧化铁系材料成为继氧化锡、氧化锌之后的已实用化的第三大系气敏材料。其较高的稳定性、选择性引起了人们的广泛兴趣。迄今为止的研究工作侧重于用共沉淀法均相合成纯的或是
2017年5月26日,以“全球视野创新思维理性超越引领未来”为主题的“第四届国际高空作业平台租赁峰会”(以下简称“峰会”)在郑州荥阳圆满落幕。峰会由中国工程机械工业协会工
建设项目环境保护验收工作在中国环境保护管理中发挥着重要作用。应当与各地情况相结合,根据环境监测规定,深入分析建设项目环保验收工作的问题,并且站在多个角度,提出具有针
生态文明是继工业文明之后的新型文明形态,是未来文明的发展方向。在生态文明理念和生态文明制度指导下的农业发展目标是实现生态农业和可持续农业。哈尼稻作梯田农业是中国