论文部分内容阅读
词义消歧(Word Sense Disambiguation ,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一。词义消歧结果的好坏直接影响到机器翻译、信息检索、句法分析和语音识别等应用领域。因此词义消歧研究在自然语言处理领域中具有重要的理论和实践意义。词义消歧方法有多种,目前基于知识库的词义消歧方法研究相对较少。对于这种有别于统计消歧的方法,在开放文本领域表现出明显的优势,而且该方法优于基于语料库的有指导学习方法。近几年来本体(ontology)研究迅速发展,目前在本体的内容、本体的表达方式、构建规则、自动化构建技术等诸多方面,都有持续深入的研究。随着越来越多高质量本体的出现,本体的应用越来越多的受人关注。本文沿着基于知识库消歧的方向,提出了一种利用中文本体知识库《知网》的相关资源、上下文信息等来进行词义消歧的一种方法,并通过计算词语的相关度和相似度来实现本文的词义消歧。具体的研究围绕以下几个方面:现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,因此本文希望能够针对真实的应用情况,对大规模文本进行词义消歧的研究。文中指出对任意输入的文本进行分词和词性标注后,再利用知网字典资源识别出文本中的多义词,解决了真实应用中存在的问题。利用本体作为词义消歧的知识库,避免了人工训练语料库获取词义的复杂过程,并能提供准确的含义,同时还能对大规模的多义词实现消歧。在利用上下文一定大小的窗口提取歧义词的特征词时,提出了基于三次互信息的思想来计算歧义词和上下文词语的相关度,有效地区别了高频词和低频词,并根据相关度的大小,提取出带有歧义词大量信息的特征词。根据本体是共享概念模型的明确的形式化的规范说明,是对世界知识的概念化描述,它可以作为自然语言处理系统中的世界知识库的特点(本文主要利用中文知网的资源)以及概念和概念之间的关系,提出了利用改进的相似度计算结果的大小来判断歧义词在特定上下文中的准确含义,从而实现词义消歧。实验证明本文的词义消歧准确率比以前的几种方法有较大的提高,进一步说明了论文中的词义消歧方法是可行的和高效的。