词义消歧及其在跨语言信息检索中的应用研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:wyp154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言理解的一项基础工作,词义消歧(WSD)一直是研究的重点。在信息检索、机器翻译等应用中都存在一词多义的问题。50多年来,词义消歧的研究进展并不顺利,消歧算法离实用还有一段距离。 本文的核心内容是词义消歧算法以及这些算法如何应用于跨语言信息检索领域。本文首先对词义消歧进行了综述,然后重点描述了基于WordNet的消歧算法和基于支持向量机的消歧算法。这两大类方法可以说是目前主流的方法,效果相对好些。本文尝试将词义消歧应用于跨语言信息检索。跨语言信息检索结合了传统文本信息检索技术和机器翻译技术,在多方面涉及到多义性问题,是词义消歧良好的切入点。两者的结合主要体现在两方面: 1、词义消歧应用于查询扩展,目的是使扩展的内容与原查询有更高的相关性。 2、词义消歧应用于信息检索,目的是提高检索的精度。 本文提出了相对客观的评价标准。比如为了单独衡量词义消歧的性能,本文使用SENSEVAL-3的语料进行训练和测试;为了衡量词义消歧应用于跨语言检索后的性能,本文又使用了TREC CLIR的语料、查询和结果集进行评估,这使得我们的实验结果相对公正客观,具有一定的可比性。本文改进了原跨语言信息检索系统,完善了预处理模块,增加了词干提取、词法分析等功能,并将词义消歧的各类算法集成于该系统。 综上,本文综合分析了主流的词义消歧算法,并提出了Lesk-c算法以及SVM消歧算法,给出了词义消歧的尝试性应用,希望能给相关领域的研究者有所借鉴。
其他文献
计算机技术的迅猛发展,给人们的工作和生活带来了前所未有的便利和效率,网络技术的普及又使其如虎添翼,走进社会生活的各个领域,成为人类社会不可或缺的一部分。然而,计算机病毒的
目前,网络面临的安全威胁主要来自于黑客通过网络对计算机系统的入侵。相对于传统的破坏手段而言,网络入侵没有地域和时间的限制,入侵手段更加隐蔽和复杂。如何对入侵进行检测,已
谈判是多方展开商务合作、进行业务往来过程中一个必不可少且十分重要的环节。自动谈判的研究吸引了来自学术界以及业界等多方面的注意力。自动谈判的机制可以通过利用计算机
无线传感器网络WSN是由大量随机部署在监测区域的微小传感器节点通过自组织方式构成的分布式智能网络系统,一般用于在无人监管的情况下对周围感兴趣的环境变量或者事件对象进
在计算机技术的发展过程中,仿真一直是一个重要的研究领域。在设计一个新的嵌入式系统时,有效地测试和验证新系统的功能和性能是十分重要的。采用软/硬件协同设计的方法能有
三维重构是计算机图形学的重要分支,有着广泛的应用。目前还没有比较通用的技术可以解决所有问题。本文所介绍的系统,致力于满足廉价的家用建模的需求,是一种基于侧面图的静
网络扩展性是移动自组织网络中的一个重要问题,利用分群的方法可以增强网络扩展性,是移动自组网被广泛使用,和实现网络管理、提高传输效率、提供各种应用服务的基础。在本文中,我
随着计算机技术特别是互联网技术的迅猛增长,软件已经成为人们生活、个人以及组织跨越地理边界进行有效地协作的一部分。这些技术的发展和提高需要用软件来满足其不断增加的需
随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储
目前,随着对外贸易的飞速发展,上海正在成为全球的航运枢纽、物流中心以及国际供应链的重要环节,这对于快件物流的速度和效率提出了更高的要求。同时,在国家打造电子检验检疫,实施