论文部分内容阅读
在对维吾尔语语料库信息的加工处理过程中,词性标注是一项很重要的工作。从语言信息处理角度来看,词性标注是自然语言处理系统的重要工作。词性标注的好坏直接影响后继工作的进展和成果。当今,国内外的词性标注研究主要是以语法分类进行词性标注,语法语义相结合的词性标注研究还仍处于初步阶段。维吾尔语在这方面的研究才刚刚开始,几乎没有验证性验证的研究成果。虽然新疆师范大学重点实验室提供了标记集规范,但到目前为止,没有人用具体材料来验证该标记集规范的可行性和可靠性。本文的主要研究内容包括以下几个方面: 1.分析国内外的词性标注状况,找出了适合维吾尔语的,最有效的词性标注方法。 2.以现有的信息处理用现代维吾尔语词类标注标记集规范为背景,将维吾尔语词语的语法语义特点相结合,对现代维吾尔语中的各种词类进行了语义分类及词性标注标记研究。 3.将人工标注和系统自动标注等两种词性标注方法相结合,利用隐马尔可夫模型词性标注算法,对小学维吾尔文语文教材(普通版)进行了语法和语义方面的词性标注标记,建立了语法语义相结合的小学维吾尔文语文教材词性标注熟语料库,同时建立了包括3万多词语的现代维吾尔语词汇词性标注标记词典。 4.本研究中所得到的结果与现有的现代维吾尔语词类标注标记集规范进行了比较,验证和补充了该规范中部分词类的标注代码,并且对该标注标记集规范提出了扩充建议。 5.统计和分析了小学维吾尔文语文教材中各词类的语法以及语义分类的分布情况。