论文部分内容阅读
词汇语义关系是指在语义范围内建立起来的词汇间的逻辑关系,主要包括同义关系和上下位关系等。词汇语义关系资源属于自然语言处理的基础性资源,在文本分类、问答系统、信息检索等领域都有广泛的应用。本文主要研究中文同义词和上下位词的抽取。主要工作包括:(1)同义词抽取。利用基于语义词典、网络资源和模式的方法抽取同义词。同义词抽取的微平均和宏平均的F值最高达到53.54%和49.29%,分别比NLP&CC2012评测的最高结果高12.54%和9.61%。因此利用基于语义词典、网络资源和模式的方法抽取同义词,共抽取出11万拥有同义词的词条集合,构建了一个较大规模的同义词知识库。(2)上下位词抽取。利用基于语义词典、网络资源和模式的方法抽取下位词。下位词抽取的微平均和宏平均的F值较低,召回率较高,分别为58.6%和63.1%,比NLP&CC2012评测的最高结果分别高8.27%和3.16%。利用基于语义词典、网络资源和模式的方法抽取下位词,共抽取出9万拥有下位词的词条集合,构建了一个较大规模的下位词知识库。(3)词汇语义关系的应用。本文将构建的语义知识库应用到文本分类中,并尝试为《现代汉语语法信息词典》的名词构建语义词典。首先分别将语义知识库和《同义词词林(扩展版)》加入文本分类中,《同义词词林(扩展版)》准确率最高为92.99%,本知识库的最高准确率为94.1%,提高了1.11%。根据语义知识库为《现代汉语语法信息词典》的名词抽取语义关系,为抽取的同义词关系进行人工校对,构建一个准确的同义词语义关系词典,并将其应用到文本分类中,取得令人满意的效果。