论文部分内容阅读
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。G.Lakeoff和M.Johnson认为,隐喻不仅仅是一种语言修辞手段而且是一种思维方式,是人们对客观世界的一种认知形式,是对文化的一种反映。 本项研究全面考察了汉语词汇和句子中最常出现的隐喻形式,利用机器学习的方法自动获取隐喻知识。具体研究成果包括以下方面: (1)提出了一种聚类与分类相结合的隐喻短语识别方法 本工作首先给出了基于区分词的的汉语隐喻短语识别方法,但是基于区分词的识别方法存在数据稀疏的问题。针对数据稀疏问题本工作提出一种基于聚类与分类相结合的隐喻短语识别方法。该方法首先利用源域词识别模块获取名词源域词S,然后从汉语词汇集中抽取以该源域词S结尾的名词短语,通过一种基于上下文信息聚类的方法来区分名词短语的隐喻和非隐喻集合。最后,将聚类结果抽象成特征,并结合其他特征利用机器学习方法识别隐喻短语。 (2)提出了一种基于语义文法和统计相结合的V+N的隐喻句子识别方法 本工作针对统计方法识别V+N隐喻句子的难点,分析了基于语义方法识别的可行性,提出了一种基于语义文法与统计相结合的动词隐喻识别方法。本方法首先将隐喻动词从动词集中抽出,发现只需要定义641个动词的语义文法。其次通过定义语义文法发现,动词的隐喻义只与施事、受事和句中定语有关,文法只需要定义这三者的语义限定。上述的两个发现证明基于语义文法的识别方法无需大量的人工参与。同时,针对部分语义文法无法定义语义限定的问题,本工作提出了基于Word2Vec相似度计算的动词隐喻识别方法。实验结果表明本方法具有很高的准确率和召回率。 (3)提出了一种基于多类特征分类的A-is-B模式隐喻句子识别方法 本工作首先介绍上下位关系、识别句摸、识别类词以及相似度四类特征,同时给出了一种迭代式抽取类词的方法,然后利用SVM分类器进行隐喻句子识别。为证明本方法具有较高的通用性,在构造A-is-B的隐喻和非隐喻句训练集时,利用《国家行业分类标准》,对每个行业都通过搜索引擎找到该行业的隐喻句和非隐喻句。实验表明本方法的正确率达到95.5%,召回率达到92.5%。