面向信息处理的现代汉语构词规律研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:WUBING999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词处理是中文信息处理首先面临的一个重大难题。所谓分词就是把句子中汉字串序列中最小的有意义的单位——词切分出来。英语等西方语言的书面形式以空格作为词与词之间的分隔标志,而汉语的书面形式是连续的汉字串,缺乏形式上的标志,因此自动分词问题是汉语进行计算机处理的一个独特问题,是中文信息处理最为重要的一项基础性工作。从现有的自动分词方法来看,还仅仅是根据词表进行机械的匹配比较,缺乏必要的语法、语义的分析,缺乏足够的语言知识的支持,所以分词精度无法提高。目前自动分词面临着三大难题:一是分词规范和通用词表问题;二是未登录词识别问题;三是歧义字段切分问题。为了解决这些问题,提出了建设汉语语素构词知识库,以此为基础研究构词规律,通过“词表+规则”的方法最终解决汉语分词问题的总体思路和设计方案。  在语言研究中,词法研究一向是个薄弱的环节,这种状况近年来虽有所改善,但是词法研究基础仍然相当薄弱,没有取得实质性进展。本文的构词法研究不完全等同于语言本体的构词法研究,而是作为一种面向应用的研究,是为了解决计算机自动分词问题,特别针对未登录词(新词)问题而展开的一项实验性研究。本文并不奢望解决所有的自动分词问题,只是通过研究构词规律用于解决汉语的未登录词(新词)问题的实验,来证明通过规则的研究方法来解决汉语自动分词问题的必要性和可行性。值得指出的是本文所研究的构词规律,更确切地说,应该是计算机对于词的识别规则。  本文提出加强构词规则的研究,通过“词表+规则”的方法来解决未登录词问题的思路,为汉语词语处理提供动态的支持,以期解决汉语词语集开放性这一长期没有解决的问题。因为现代汉语的新词在源源不断地产生出来,任何词表(词典)都存在滞后性,不可能把这些新词都收入,因此自动分词过程中就出现了未登录词的问题,这些未登录词的存在极大地影响着自动分词的精度。鉴于以往的未登录词识别研究基本上采用统计的方法,规则的研究比较少。加强规则的研究,弥补单纯依靠统计的方法之不足,在当前显得尤为迫切和重要。此项研究不仅可以帮助我们解决汉语分词问题时的知识匮乏问题,有效地识别未登录词,而且可以为中文信息处理的下一步工作,如消除歧义、词性标注和语义标注等奠定基础。  本文的主要内容包括三部分:  (一)理论准备和研究基础  长期以来,对于构词法中的一些基本概念,如词和语素概念、构词能力、确定词的标准、类词缀等问题是众说纷纭,存在着很多含糊不清的地方,造成大家在一些根本问题上的认识分歧。汉语学界对于词和构词成分的认识不统一,这给分词带来了难度。“从计算的严格意义上说,自动分词是一个没有明确定义的问题”①。本文首先对这些构词法重要概念进行了梳理和厘清,着重对汉语构词知识库的建设的总体设计、语素的分类和标注、合成词的分类和义类标注等相关问题进行了探讨,并且对确定词的标准进行了深入讨论,这样有助于澄清一些模糊认识,便于更好地进行构词法的研究,  基于词库与词法分开的理念,对词库和词法关系进行了探讨,把汉语的词按形成途径不同分成两大类:短语词汇化形成的词汇词和按词法形成的词法词。由于词汇化形成的词不具备能产性,也没有规则可以利用,可直接收入词表;而词法形成的词则是有规则可循的,具备很强能产性,可以说数量几乎是无限的,不可能全部收入词表,只能将使用频率较高的词收入词表。词库和词法各自处理的对象不尽相同,对于不同的词处理的方法是不完全一样的。以往构词法研究对此不加区分,将不同性质的词放在一起研究,结果造成规律性不强。这种将词库词与词法词分开处理的思路可以运用到分词过程之中,可以把词分为两大类进行不同的处理:一类是语义不透明的词,词义不能由语素义来得到,包括联绵词、译音词、意义发生转化的词、成语、惯用语等,这些都应该作为分词单位,作为词表收录的内容;而另一类是词法词,是按照构词规律产生出来的词,这类词因为数量巨大,不可能完全收入词表,必须通过加强规则的研究,才能实现计算机对它们的识别。因此,可以按照“词表+规则”方法来解决这个问题,通过将已有的词收入词表,词表是现存词的集合,包括一些语义不透明的词和频率使用较高的词法词,把词表作为分词的基础。而规则专门用来识别未登录词。  (二)未登录词及构词规律研究  对未登录词的概念和类型进行了界定,确认研究的对象就是普通新词,词表未能或不能完全收录的新词成为研究对象。然后对未登录词研究现状、词类分布、字数分布、模式分布等问题进行了探讨,发现未登录词的一些主要特点:一是主要集中在二字、三字上面,四字不多;二是未登录词主要词类是名词、其次是动词,形容词和其他词类的词数量极少;三是1+1、2+1、1+2模式是未登录词的主要构词模式,它们的构词能力很强。因为重叠式、附加式和复合式都可以产生新词,构成未登录词的能力很强,因此我们我们按重叠式、附加式、复合式分别进行深入探讨,提出了一些形式化规则,以便于计算机的识别。在归纳总结这些识别规则的时候,在分词实践基础上,重点对国家标准《信息处理用现代汉语分词规范》的有关规定进行了一些具体讨论,对“结合紧密、使用稳定”的原则进行了深入反思,对《分词规范》中一些模糊地带甚至于自相矛盾的地方进行了探讨,提出了自己的解决方案。目前没有办法解决的问题也并不回避,把它如实地反映出来。这从另一个侧面印证了规则的不完备性,不能解决所有的问题,应该把统计和规则的方法结合起来,才是最终解决问题之道。  (三)实验结果  采用了逆向最大扫描法的自动分词方法,增加了未登录词识别系统,以8万词的词库为基础,在现有知识库规模的基础之上,选择了不同题材的语料进行了封闭性测试,取得了较好的效果。最后对规则存在的不足和下一步努力方向进行了说明。  本项研究既具有一定的理论意义,同时又具有应用价值。本文的主要贡献在于:①未登录词的存在极大地影响着自动分词的精度。鉴于以往的未登录词研究基本采用统计的方法,规则的研究比较缺乏,因此我们将主要从规则的角度展开研究。提出要加强构词规则的研究,通过“词表+规则”的方法来解决未登录词问题,为汉语词语处理提供动态的支持,可以解决长期存在的汉语词语集开放性问题。②建设汉语语素构词知识库,探索构词规律,可以为汉语自动分词提供知识支持。建设汉语语素构词知识库是一项巨大的基础工程,经过我们的努力,已经初具规模。汉语语素构词知识库的研究不仅可以帮助我们解决汉语自动分词时的知识匮乏问题以及未登录词的识别问题,还可以为中文信息处理的下一步工作,如消除歧义、词性标注和语义标注等奠定基础。③国内语言学界对词库与词法研究比较少见。我们对词库和词法关系进行了比较深入地探讨,主张要按形成途径的不同将词分成词法构成的词和词汇化形成的词两类。研究词法时要区别对待,不能将它们混在一起研究。以往构词法研究对此不加区分,将不同性质的词放在一起研究,结果造成规律性不强。本文还探讨了词库与词法理论在中文信息处理中的应用,由短语词汇化形成的词应该作为一个整体收入词表中,而词法词因其能产性强,只能依靠规则进行处理。另外,本文提出要建立汉语语素构词知识库,利用词库来研究词法。这样的研究不仅对于中文信息处理有益,对于汉语构词法研究也具有重要意义。④本文从信息处理角度,对能产能力较强的未登录词进行了分类研究,分别从重叠式、附加式和复合式三类出发,对它们的构成规律进行了探讨。提出了一些不同的识别策略,归纳总结出一些可以直接用于计算机分词的识别规则,用来识别未登录词,取得较好的效果。⑤本文关于词和语素概念、构词能力、确定词的标准、《分词规范》有关规定的探讨以及主张细化语言知识颗粒度、要按义项来确定语素、区分静态的构词能力和动态的构词能力等观点对于构建汉语构词知识库、通用词表的研究、汉语构词法研究也具有参考价值。
其他文献
《说文解字》(以下简称《说文》)是中国文字学的开创之作。《说文》对汉字本义的说解,大部分是正确的,为我们研究词义系统提供了很大的帮助。但是由于时代的局限,个人认识上的不
介绍了并网型梯次利用电池的中型储能系统设计方案。根据实际情况介绍了整体方案容量的计算、储能变流器(PCS)的方案选型及设备情况、梯次电池成组方案及筛选方法、监控系统
近日,国家发改委联合国家能源局下发的《关于新能源微电网示范项目名单的通知》明确了28个新能源微电网示范项目,在《关于推进多能互补集成优化示范工程建设的实施意见》中公
期刊
语文的“大”代表了一种立足于人格培养、品质完善、终身学习的学习语文、使用语文的观点,而作为有着明显工具效用的语文学科,却要求体现出现实意义的“小”,这成了语文教学中争
《义务教育语文课程标准》中明确要求7~9年级学生要学会制订自己的阅读计划,广泛阅读各种类型的读物,课阅读总量不少于260万字,每学年阅读两三部名著。在承前启后的初中阶段,
袁宏道是晚明文艺新思潮的代表人物,在其变革性文学理论乃至叛逆性格、独特处世态度的背后却蕴涵着佛家的根基。他早年习禅主要受洪州、临济派及狂禅派的影响,思想激进,并与倡导
今年3月5日,是董必武同志120周年诞辰。董老是功勋卓著的老一辈无产阶级革命家,也是新中国人民民主与法制建设的主要奠基人。他的一生是革命的一生,也是学习的一生。他的渊博
自1960年代以来,社会语言学在揭示语言与社会之间错综复杂的关系方面取得了一系列重要的发现。但当审视社会语言学所取得的这些成就,不难发现它们更多地是基于对城市的调查和研
巩乃斯草原大部分位于新疆新源县辖区内,地处天山腹地,伊犁河谷东端。它与瑞士山地齐名,是世界四大高山河谷草原之一,被誉为“空中牧场”。它的总面积1000多平方公里,平均海
期刊