论文部分内容阅读
本体工程是对本体进行组织、维护、管理的过程,包括各种领域知识本体的设计、构建、开发方法、知识的共享与重用、知识管理、运作过程建模、领域知识的系统化标准化、常识管理以及评价过程等内容。本体的构建、本体映射以及本体演化是本体工程中的几个关键性的技术,本文的主要研究工作就是围绕这几个方面来进行的。本体构建是整个本体工程的基础,尽管当前存在的本体很多,但是大部分本体都是根据特定的领域,在领域专家的支持下通过手工操作的方式建立起来的。业内公认的构建本体的标准包括如下五条:(1)明确性与客观性:本体应该用自然语言且有效地、明确地说明所定义术语的内涵,定义必须是客观的,与背景相独立的,定义要尽可能地完整与明确,所有定义应该用自然语言加以说明。(2)完全性:所给出的定义应该是完整的并且完全能表达所描述术语的含义。(3)一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。(4)最大单调可扩展性:向本体中添加通用或专用术语时,不需要修改其中已存在的内容,即本体应该可以为后期可预见的一些任务提供概念基础。(5)最小承诺:对待建模对象要给出尽可能少的约束。本文深入地研究了当前流行的本体构建方法,提出了一种利用现有资源,即关系型数据库作为数据源自动构建本体的方法,在研究工作中,首先分析了关系型数据库作为数据源的优势,包括:①领域相关度比较高;②关系数据库利用二维关系表格的形式进行数据存储,数据库内的信息格式整齐,便于自动化的分析和抽取;③关系数据库的模式实际上隐含着相关领域的概念模型。本项工作的主要创新点在于,给出了通过关系型数据库抽取初始本体的一系列规则,这些规则主要包括:如何在关系型数据库中获取本体概念,如何获取概念的属性以及属性的定义域和值域,如何确定概念间的关系,如何获取实例,如何通过表中内容对概念进行分类,如何将关系型数据库的完整性约束条件转换为本体内部的约束。另外,由于关系型数据库在同义关系和层次关系上的不足,而WordNet在这两方面拥有特别的优势,本文利用WordNet对生成的本体作了进一步的完善。实验验证了利用现有数据源自动抽取本体的方法降低了人工操作的强度,提高了本体构建的效率。本体映射主要是为了解决本体间的异构问题而被提出来的,造成异构的主要原因是由于现存的大部分本体都是根据不同的项目需求,在各自的指导原则基础上建立起来的。异构的主要表现在如下两个方面:(1)概念或属性的划分粒度不同,导致了结构异构。(2)对同一个概念进行划分,如果所采用的维度不同,则会导致不同的概念分层体系,也会导致结构层的异构。为了实现异构本体间的相互操作,必须解决本体间的异构问题,一般可以通过三种方法来解决这个问题:方法一:本体间建立起包含关系。方法二:本体间建立映射关系。方法三:找一个公共的本体。这三种方法中,本体间进行映射是最有效的,映射的目的就是找出本体中概念之间的关系,根据这些关系制定出相应的映射规则。一个本体映射过程应该包含五个部分,它们分别是:本体标准化、相似度提取、语义映射、执行映射、映射后处理。其中相似度的提取在其中起到了决定性的作用,它主要就是进行相似度计算,然后根据相似度来确定映射关系。概念间的语义相似度与概念间的语义距离有着密不可分的关系。一般来说,语义距离是一个介于0到无穷大之间的一个实数。概念间的语义距离越大,它们的语义相似度越低;一个概念与其本身的语义距离是0;当两个词的语义距离为0时,它们的相似度为1;当两个词的距离为无穷大时,它们的相似度为0;两个词之间的语义距离越大说明它们的相似度越小。在本体映射方面,本文研究了当前流行的一些本体映射方法,通过研究发现,当前流行的方法都是将本体中的所有概念进行统一映射,由于本体间存在着许多极不相关的概念,这些不相关概念的映射计算极大地降低了映射算法的性能和准确度。在研究工作中,本文提出了一种从模式结构出发的映射方法,根据概念的层次关系对概念进行分类,并自顶向下对概念进行分析。本方法在很大程度上避免了对不相关概念间的计算,从而减少了映射过程中的计算量,提高了映射算法的性能和准确性。本体演化的本质是对变化的一个适应的过程。造成本体变化的主要原因有以下三种情况:领域的变化、概念模型的变化和表示变化。本体演化本身就是对变化的本体进行管理,当本体发生变化后,对与此本体相关联的其他本体也采取相应的操作,使得变化后的本体仍能保持语义上的完整和数据上的准确,以确保能完成应用程序的要求。而本体演化所造成的最重要的影响之一,就是可能导致不兼容,即演化后的新的本体不能适应原本体的要求,也可能无法达到原本体的功能。因此,如何保持演化前后本体的兼容性或一致性是本体演化中必须解决的问题。一个完整的本体演化过程,包括从本体变化的捕捉、变化表示、语义变化、变化传播、变化实现和变化确认等六个阶段。这六个阶段并不是彼此孤立的,阶段之间可以彼此进行交叉和渗透。其中前两个阶段属于提供指导性要求的阶段,后四个阶段是本体演化过程中最核心的部分。在关于本体演化方面的研究中,通过对比当前流行的本体演化方法,研究发现,当前的演化方法大部分还是停留在手工操作的基础上,这种操作方式费时而且繁琐,而当前一些流行的本体编辑工具尽管也支持本体演化操作,但是其操作方法大多采用的是深度删除法来进行的,这种方法操作起来虽然简单,但是这将对本体信息的保留以及对外界提供服务造成巨大的影响。本文提出了一种基于演化代价计算,利用启发式的图搜索算法进行的本体演化的控制方法,首先给出了演化代价的定义,通过对本体中实体在对本体贡献度的分析,结合不同的操作给出了关于实体演化代价的计算方法,提出了最小粒度的附加演化元操作概念,并在此基础上通过加大操作粒度提出了附加演化操作策略集,以适应复杂的演化操作。最后给出了COST本体演化控制算法,这种方法改变了现有的启发式图搜索算法仅仅依靠深度与分支数对搜索过程进行约束的情况,通过演化代价这一约束条件条件的加入,增加了对图搜索过程的约束,降低了了算法的时间复杂性与空间复杂性。目前针对本体工程中的这些关键技术仍然是计算机领域专家和学者研究的热点问题。本文对所提出的方法具有较高的理论意义和实际应用价值,研究工作的成果预期对该领域的发展起到一定的促进作用。