面向结构化数据本体自动构建技术的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:huohuoshan000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体的构建工作是本体存在的前提,决定了本体的质量。目前,大部分本体都依赖领域专家手工构建。手工构建本体存在自动化程度低、工程复杂、专家依赖性强、本体构建速度慢、本体术语描述不精确等缺陷,限制了本体的发展。因此如何从众多的数据源中进行本体的自动构建逐渐成为本体技术的一个很有意义的研究重点。由于关系数据库的广泛使用,对结构化数据源的研究主要是针对于关系数据库进行的。但是,模式信息中所包含的语义信息十分有限,构建的本体不够全面。人们已经开始关注从元组数据中获得更多的语义信息以构建本体。 本课题的研究重点就是面向结构化数据的本体自动构建。本文分析了该领域的现有状况和相关技术,提出基于模式信息的规则转换和面向元组数据与属性数据的语义挖掘相结合的方法,自动化地从结构化数据中抽取出本体。 模式转换阶段的主要任务是根据规则将模式信息转换成语义信息。这个阶段是本体构建的基础,将形成本体的大部分本体元素。本文首先将转换过程分成三个层次,并对每个层次提出相关的模型,然后对三个模型分别进行了描述和分析,并且对它们做出概念定义,针对这三个模型分析它们所包含的元素,以及这些元素之间的对应关系。在此基础之上,本文制定了与这些元素相关的语义转换规则和规则执行的一些辅助函数,构建了规则执行引擎这个应用系统。 语义挖掘阶段的主要工作是从数据中挖掘语义信息,以补充模式信息的不足。本文首先将挖掘过程分成元组数据挖掘和属性数据挖掘两种情况,然后针对两种情况的处理流程分别进行了描述和分析,对选择的CURE算法做了一些有利于自动挖掘的改进,使用卡方统计量检测每次聚类的合理性程度,修改了簇代表点的选择方法。在针对元组挖掘时,在CUREA聚类基础上判定关联的置信程度。在面向属性的挖掘时,在CUREA聚类的基础上构建决策树分类器,以便发掘属性间相似度,做进一步元组数据挖掘。在这些过程的基础上形成数据挖掘机。
其他文献
随着我国交通事业的蓬勃发展,大型桥梁结构安全健康监测已成为国内外工程界和学术界关注的热点。桥梁结构健康监测的定义为:“运用现代的传感技术,长期的监测桥梁运营阶段在各种
网络容量受限已成为大规模自组织(AdHoc)网络应用中的瓶颈问题。多信道技术允许多对节点在一个干扰范围内同时通信,能够有效的提高网络容量。然而,目前标准的AdHoc网络协议均
本论文的研究工作主要包括以下几个方面: 1.本论文从造纸抄纸过程出发,分析了抄纸生产的工艺特点以及对纸张而言十分重要的两个性能指标:定量和水分,如能对它们进行很好的控制
随着计算机技术、多媒体技术和网络技术的飞速发展,基于数字技术的多媒体应用被广泛的运用于各种领域,特别是数字化视频监控系统以其性能稳定、数据检索方便、便于网络应用、成
目前在住宅建设中,有关居住健康问题受到了广泛关注。特别是“非典”疫情之后,业界及广大居民呼声很高。随着城市化进程加快,在大规模的城市建设中由于居住区选址、规划、建设的
广播发射机微机控制器是广播发射机的自动化监管设备。它负责定时开关发射机;系统运行时采集数据;判断故障并在故障时给出报警。嵌入式微控制器在广播发射机领域的应用已从基本
当前,电子技术飞速发展。嵌入式Linux的队伍越来越庞大,在通讯、信息、数字家庭、工业控制等领域,随处可见嵌入式Linux的身影。在工厂、研究室、及其各单位特殊部门,大功率设备无
耗散性系统理论在系统的稳定性研究中起到了重要的作用.耗散性的实质内容就是存在一个非负的能量函数,使得系统能量损耗总是小于能量的供给率.在实际系统中,无源性是系统耗散
随着信息网络的高速发展,电子邮件作为一种快捷便利的通信手段,已经深入普及到人们的日常工作与生活中,其间蕴含着丰富的个人信息,是进行计算机调查取证的重要途径,能为案件
生物信息学是一个实验数据丰富但信息理解度相对缺乏的学科。生命体中差异表达基因之间的相互作用是构建基因网络的纽带。肿瘤特征基因是揭示癌症发生与发展的重要线索。基因