论文部分内容阅读
本体最初是哲学研究的一个分支,近十多年来,本体论的研究逐渐超出哲学范畴,被引入人工智能领域,其应用深入到了语义网、知识工程、自然语言处理、信息系统集成等方面。本体是对共享概念的形式化的清晰的描述,可以提供一组共享的词汇和概念,通过对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系。但现实中,由于种种原因,真正实现共享的本体并不多见,一个领域内往往会同时存在多个异构的本体。本体映射是解决本体异构的方式之一,它通过在异构本体间建立起语义上的映射关系,实现本体的共享、重用和互操作。本文以语义网络为背景,研究了语义网中本体映射的问题。语义网是对现有万维网的扩展,它是一种智能的网络。语义网之所以智能是因为语义网中的信息不仅能被人所理解,更重要的是它还可以被计算机所理解。由于计算机可以理解信息的含义,从而可以让计算机自动去搜集网上的一些信息,并对这些信息按照人们的要求进行组合,汇总成用户需要的有效信息,从而可以利用计算机对网络中的信息实现自动处理,减少人的工作量,将人类从繁重的搜索劳动中解放出来。中文资源是全球信息网络的重要组成部分,实现中文本体间以及中文与其它本体的映射是实现本体共享重用的一个重要组成部分。目前有很多学者在进行本体映射的研究,但对中文本体映射的研究并不多见。本文专注于中文本体映射的研究,提供了一种适合中文本体的映射方法。根据文献[1],本体映射技术可以分为元素层映射和结构层映射,本文既采用了元素层映射技术,也采用了结构层映射技术。由于中文本体与其它本体的主要区别在于它们所采用的语言不同,这属于元素层的区别,故本文主要论述了元素层映射的实现。对于元素层技术来说,词语的相似度计算是一个关键问题,本文利用中英文双语知识库——知网实现词语相似度的计算,在词语相似度的基础上实现本体元素层的映射。对于词语相似度的计算,本文在分析知网结构的基础上,利用义原的相似度实现词语相似度的计算,并提出在计算义原相似度时引入义原树深度及义原在义原树中所处的层次的因素。对于知网中没有收录的词语,本文先将词汇进行分解然后计算相似度。为了验证本文所述方法,本文设计了三个实验,对本方法进行了测试,实验证明本方法可以有效地实现中文本体及中英文本体映射。