论文部分内容阅读
本文提出一种蒙古语连续多词单元(Consecutive Multi-WordUnits)的自动识别方法,用以辅助语言学工作者在蒙古语文本中对连续多词单元进行识别和标注。首先结合汉蒙词语对齐任务,讨论对蒙古语多词单元进行识别和标注的必要性,界定本篇论文所要处理的蒙古语多词单元的范围,并对前人的相关研究进行简单评述;其次介绍基于同现频率的蒙古语连续多词单元的抽取算法以及根据蒙古语连续多词单元的语言学特征制作的两种过滤器;最后是实验结果和相关讨论。