论文部分内容阅读
作为自然语言理解的一项基础工作,词义消歧(WSD)一直是研究的重点。在信息检索、机器翻译等应用中都存在一词多义的问题。50多年来,词义消歧的研究进展并不顺利,消歧算法离实用还有一段距离。
本文的核心内容是词义消歧算法以及这些算法如何应用于跨语言信息检索领域。本文首先对词义消歧进行了综述,然后重点描述了基于WordNet的消歧算法和基于支持向量机的消歧算法。这两大类方法可以说是目前主流的方法,效果相对好些。本文尝试将词义消歧应用于跨语言信息检索。跨语言信息检索结合了传统文本信息检索技术和机器翻译技术,在多方面涉及到多义性问题,是词义消歧良好的切入点。两者的结合主要体现在两方面:
1、词义消歧应用于查询扩展,目的是使扩展的内容与原查询有更高的相关性。
2、词义消歧应用于信息检索,目的是提高检索的精度。
本文提出了相对客观的评价标准。比如为了单独衡量词义消歧的性能,本文使用SENSEVAL-3的语料进行训练和测试;为了衡量词义消歧应用于跨语言检索后的性能,本文又使用了TREC CLIR的语料、查询和结果集进行评估,这使得我们的实验结果相对公正客观,具有一定的可比性。本文改进了原跨语言信息检索系统,完善了预处理模块,增加了词干提取、词法分析等功能,并将词义消歧的各类算法集成于该系统。
综上,本文综合分析了主流的词义消歧算法,并提出了Lesk-c算法以及SVM消歧算法,给出了词义消歧的尝试性应用,希望能给相关领域的研究者有所借鉴。