论文部分内容阅读
随着互联网的飞速发展,术语在各个领域层出不穷。术语自动提取日益受到人们的关注,已经成为自然语言处理的一项重要任务,可以应用到本体构建、专业搜索、文本分类等各个领域。因此,术语抽取研究是信息处理领域的基础性课题。术语是为有效表达领域知识而产生的完整的语言单位,因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型,我们在分析各种模型优缺点的基础上,综合了几个模型的优点,提出一种新的术语抽取方法,实现优势互补,从而提高了准确率和召回率。本文的研究工作主要包括以下几个方面:第一,详细分析了术语在文本中的使用特点,并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。第二,为了能有效抽取低频词汇,选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题,本文提出将似然比的抽取结果用C-value进行处理。两者相结合,在保证似然比方法高召回率的前提下,也提高了抽取的准确率。实验证明,这两种方法的结合是有效的。第三,在术语提取的特征运用上,既考虑了术语的内部结合紧密特性,又考虑了术语的边界自由特性,提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明,在术语提取中集成多方面信息,可以取得更好的效果。第四,所用的方法完全基于统计,与语言无关,所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料,实验证明,该方法能有效处理中英文混合语料。本文设计并实现的术语自动抽取系统,只需给出领域语料,便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注,不局限于某一个领域,不需要语料库进行训练,简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取,前4000个候选串的准确率约70.8%。