论文部分内容阅读
自然语言是人类互相交流和传承知识最重要的工具。随着人类历史的发展,海量的知识和信息以自然语言为载体,并以各种形态保存了下来。随着Internet的发展,各种电子文档的数量更是以爆炸性的速度在不断的增长。为了更有效的利用这些海量的知识和信息,我们需要使用计算机技术来处理各种自然语音文本和语音数据。这就是自然语言处理研究获得了广泛关注和蓬勃发展的最重要因为。
自然语言处理是一个涵盖范围非常广泛的研究领域,包括了语音、词汇、语法、语义和语用等多个层面。词义排歧研究需要解决的问题是如何为多义词在具体上下文中的一个实例指派正确的词义,是自然语言处理的基础,和非常重要的“中间任务”,机器翻译、自动问答等应用都依赖于词义排歧方法为输入的自然语言片段中的每个词提供一个无歧义的表示。
词义排歧研究已经有着50多年的历史,已有的词义排歧方法大致可分为基于知识的方法和基于语料库的方法两类。当前词义排歧研究中有两个重点,也是热点问题:1)如何从目标词的上下文中更有效的提取有助于判断目标词词义的上下文特征;2)如何解决数据稀疏问题,为目标词提供更多的培训样例。
为了提高词义排歧方法的性能,特别是对一篇文章中所有开类词进行全文词义标注的性能,本文试图从以下三个方面对现有的词义排歧方法进行改进:1)提出了一个二阶段词义排歧方法,该方法兼有层次化的决策表方法和投票方法的优点;2)使用链语法对目标词所在的句子进行分析,并提取与目标词有着直接或间接关系的链接的有关信息,包括链接符号、被链接词、链接符号和被链接词的组合,以及被链接词在WordNet中的上位词这4类信息,来作为目标词的上下文特征;3)提出使用与目标词属于同一个synset的其他词的上下文作为目标词的培训样例,从而为目标词增加了更多的培训样例,在一定程度上解决数据稀疏问题。
实验结果表明,与其他系统相比,本文提出的方法表现出较为优秀的性能。而且,提出的三种改进方法确实能在一定程度上提高原有方法的性能。
本文的具体内容安排如下:
第1章首先对自然语言处理和词义排歧研究进行了详细说明,然后回顾了词义排歧研究发展的历史,接着重点阐述了词义排歧中用到的各种理论和方法,最后,对词义排歧研究的发展趋势进行了讨论。
第2章首先介绍了有指导学习方法的基本原理,重点介绍了决策表算法,和投票方法。接下来论述了本文在使用提出的改进算法来进行词义排歧时,是如何选择平滑算法的。最后,重点阐述了本文中提出的在决策表算法和投票模型基础上发展而来的二阶段决策方法。
第3章首先介绍了在对目标词作语法分析时使用的一种上下文无关语法-链语法。然后详细阐述了基于链语法提取目标词样例中上下文特征的方法,以及这种方法的优点。
第4章阐述了本文中使用的数据稀疏问题处理方法,也就是如何获得更多目标词的培训样例的方法。首先,本章介绍了用于处理这个问题的两个工具:WordNet和SemCor语料库。然后,说明了使用这两个工具来处理数据稀疏问题的方法,并通过具体数据说明了本文的方法取得的效果,并探讨了这种方法所具有的优点。
第5章通过实验验证了本文提出的方法的性能。这一章首先介绍了实验使用的测试集,然后对实验方法进行了全面的描述,最后,给出了与本文提出的新方法有关的实验结果,并对实验结果进行了分析和讨论。
第6章回顾了中文词义排歧的研究现状,并对中文词义排歧未来的研究方向进行了探讨。
第7章对本文的研究进行了总结,首先总结了本文对现有词义排歧方法提出的三种改进方法,阐述了这三种方法的特点,和它们对词义排歧方法性能的影响。然后,这一章讨论了本文中有待进一步研究的问题,并探讨了可能解决这些问题的研究方向。