论文部分内容阅读
词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息.基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展.目前蒙古文信息处理还尚未进入词素切分层面.论文探讨了实现词素切分的理论和实践基础、面临的难题,认为:实现蒙古语的词素切分需要充分利用定性与定量,规则加统计的方法,先借助语言学的定性研究成果,建立信息处理用词根及附加成分词典,制订《信息处理用现代蒙古语切分规范》,然后以规范为指导,以电子词典为基础,建立词素切分理念的语料库,修改与验证规范及词典,进一步解决词根与附加成分的量化与切分问题,实现词素切分.