论文部分内容阅读
本体的构建工作是本体存在的前提,决定了本体的质量。目前,大部分本体都依赖领域专家手工构建。手工构建本体存在自动化程度低、工程复杂、专家依赖性强、本体构建速度慢、本体术语描述不精确等缺陷,限制了本体的发展。因此如何从众多的数据源中进行本体的自动构建逐渐成为本体技术的一个很有意义的研究重点。由于关系数据库的广泛使用,对结构化数据源的研究主要是针对于关系数据库进行的。但是,模式信息中所包含的语义信息十分有限,构建的本体不够全面。人们已经开始关注从元组数据中获得更多的语义信息以构建本体。
本课题的研究重点就是面向结构化数据的本体自动构建。本文分析了该领域的现有状况和相关技术,提出基于模式信息的规则转换和面向元组数据与属性数据的语义挖掘相结合的方法,自动化地从结构化数据中抽取出本体。
模式转换阶段的主要任务是根据规则将模式信息转换成语义信息。这个阶段是本体构建的基础,将形成本体的大部分本体元素。本文首先将转换过程分成三个层次,并对每个层次提出相关的模型,然后对三个模型分别进行了描述和分析,并且对它们做出概念定义,针对这三个模型分析它们所包含的元素,以及这些元素之间的对应关系。在此基础之上,本文制定了与这些元素相关的语义转换规则和规则执行的一些辅助函数,构建了规则执行引擎这个应用系统。
语义挖掘阶段的主要工作是从数据中挖掘语义信息,以补充模式信息的不足。本文首先将挖掘过程分成元组数据挖掘和属性数据挖掘两种情况,然后针对两种情况的处理流程分别进行了描述和分析,对选择的CURE算法做了一些有利于自动挖掘的改进,使用卡方统计量检测每次聚类的合理性程度,修改了簇代表点的选择方法。在针对元组挖掘时,在CUREA聚类基础上判定关联的置信程度。在面向属性的挖掘时,在CUREA聚类的基础上构建决策树分类器,以便发掘属性间相似度,做进一步元组数据挖掘。在这些过程的基础上形成数据挖掘机。