论文部分内容阅读
随着计算机技术的不断发展,人类逐步已迈向信息化的社会,利用计算机进行信息处理已成为现时代的主旋律。如今,藏学研究在国内外势头炽盛,新的科研成果不断涌现。藏文文法研究也取得了突破性进展,尽管如此,藏文信息处理的研究技术目前依然滞后于实际需求。其中主要原因是我们为计算机储备的自然语言的语法知识不够丰富。语法知识在自然语言处理系统中是必不可少的,其规则及规则库的规模影响着自然语言处理系统的运行情况,因此语法识别中语法的规则及其规则库的规模是很重要的。目前,在藏文信息处理的领域中,在藏文虚词进行了初步研究,产生了较好的效果,但是在藏文格的识别还未研究。因此,藏文格的识别是目前藏文信息处理领域里缺少的环节,要想把藏文信息处理推向一个新的高度,藏文格的识别是当前急需研究的基础性工程之一。 本文重点阐述了藏文八格自动识别及牵涉到的语料库和规则库、人工分词及词性标注;针对3500词条的藏文语料库进行了研究并构建了包含536条藏文语法八格规则库,该规则库符合传统的藏文八格规则(本体词、属格、作格、为格、业格、于格、从格和呼格)。设计了藏文八格自动识别算法,实现了藏文八格自动识别系统。通过对藏文语料库进行实验和分析,自动识别正确率达到了100%。