论文部分内容阅读
随着科技的不断发展,人类已经进入信息社会,万维网成为人们获取信息的重要途径,其规模以惊人的速度增长着。大部分信息是以人类可理解的格式来表示的,而作为智能程序的软件代理无法理解和处理这些信息,为了解决这个问题,发明万维网的T.Berners-Lee提出了语义网的概念,语义网是现有万维网的扩展和延伸,而本体是语义网的基础,但本体的构建没有统一的规范来约束,因而产生了本体异构问题。本体映射作为解决本体异构问题的关键,已成为一个重要的的研究课题。本文对本体映射问题进行了深入细致的研究,提出了三种本体映射方法。通过在常用数据集上进行实验评估,表明这三种方法的性能较好,取得了较好的实验结果。首先,提出了基于多策略的本体映射方法,主要考虑概念映射和属性映射。其中概念映射方法采用基于名称、属性和分类关系的概念相似度策略来计算概念相似度,不仅考虑概念本身的语义和词义,而且考虑概念的属性和上下文结构。属性映射方法对数据类型属性和对象类型属性采取不同的策略,对属性进行筛选后得到最相关的属性作为某个属性的候选属性集,对这个属性和候选属性集中的属性进行相似度计算。然后合并多策略的映射结果,选择最佳结果并对概念映射和属性映射进行优化,由于充分使用了本体中的多种信息,采用多种策略的方法映射效率和精度较高,通过实例验证该本体映射方法具有较高的查全率和查准率。其次,提出了基于候选概念集的本体映射方法。在计算概念相似度时,不仅考虑概念本身所包含的语义,还考虑概念的上下文结构和属性。对于某个本体中的一个概念,计算这个概念和另一个本体中所有概念之间的概念名称相似度,并且设定阈值,产生这个概念的候选概念集。然后只对这个概念与候选概念集中的概念计算基于结构和基于属性的概念相似度,并进行相似度的综合,以产生本体映射结果,通过实例验证该计算方法具有较高的查全率和查准率。由于使用了候选概念集,相似度的计算量减少,因而这种方法得到的映射效率较高。最后,针对大规模本体映射问题,提出了基于ROCK聚类的本体分块与映射方法。对两个大规模本体进行预处理,并提取概念对,之后计算基于语义、基于子串和基于分类关系的概念相似度,从而得到概念之间的链接。通过计算块内聚度和块之间的耦合度,在改进的ROCK聚类算法基础上,分别对两个本体进行分块,之后采取基于分类关系的块映射策略和基于参考点的块映射策略,得到块之间的相似度,最终得到块映射结果,实验结果表明本文采取的本体分块与映射方法具有较高的映射精度。