基于Web数据表抽取的领域本体构建方法研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:whitewolf1573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为当前Web的扩展,语义Web成为目前的热点研究领域,而本体是实现语义Web的关键。但目前本体构建技术尚不成熟,多采用人工方式进行,不仅费时费力,并且容易出错。如何利用现有数据源自动、半自动地快速构建高质量本体引起了许多研究者的兴趣。表格在Web上广泛存在,易于获取,并且包含了大量结构化数据,可以作为构建领域本体的良好数据源。本文针对如何使用Web数据表构建领域本体展开研究。当前相关领域的研究主要存在两方面的问题:一方面,Web表格抽取技术不能满足构建高质量领域本体的需要,已有的方法大多仅考虑了table标签编码的表格,涵盖范围较窄,且许多方法仅依据视觉特征抽取表格,抽取的查准率较低;另一方面,当前存在的从Web表格构建本体的方法通常需要外界知识库的支持,且已有方法往往不能同时抽取本体类和属性的层次结构以及本体实例。本文在现有研究基础上,针对其不足,提出了一种基于Web数据表抽取的领域本体构建方法。首先,本文给出了Web数据表的定义,归纳了其编码类型,提出了一种综合考虑DOM结构特征及节点在浏览器上位置关系的Web数据表抽取算法,该算法能较好涵盖现有的Web数据表的范围。然后,本文进一步提出了一种利用数据表中数据的类型分布特征来判断表格维度和表头位置的Web数据表结构识别算法。在此基础上,给出了基于Web数据表抽取的领域本体的构建方法,即从Web数据表到本体描述语言OWL的映射规则。最后,基于已提出的方法,设计开发了一个本体构建原型系统,验证了Web数据表抽取和结构识别算法以及本体构建方法的有效性。
其他文献
计算机协同工作的新特征,向计算机网络研究提出了新挑战,即提供以点到多点和多点到多点通信为特征的群组通信服务.CSCW(计算机支持的协同工作)是一个新的分布式协同应用领域.
文中从织物的物理建模开始,把织物的内部作用力、外部作用力和约束力作为统一力处理,并且应用统一的方程处理织物平面内和平面外的变形,使得仿真精确度、计算效率和通用性有
该系统是一个动态Web应用,主要采用JSP和JavaBeans技术.JSP是Java Servlet的直接扩充,用于开发Web应用.JavaBeans组件是符合特定编码规范的Java类,在较大型的应用中作为可重
通过对国内、外低压用电管理系统大量实例的研究,该文提出了一种支持多通讯方式的低压用电管理集成平台IPMS (Integrated PowerManagement System). IPMS平台是所有具体应用
由于Internet的不安全性,许多的团体和组织为了在这个全球性的开放网络上进行安全的内部通信,开发并采用了虚拟私用网络技术.本文先简单介绍了虚拟私用网络的基本知识,然后集
随着互联网技术的不断发展,网络数据信息智能化、语义化的需求也在不断增加,为了满足这一需求,“互联网之父”Tim Berners-Lee提出了语义Web的概念。在语义Web中,XML(可扩展
生物测定是指利用人的生理学和行为学特征自动识别其身份的技术.该论文主要对生物测定尤其是其关键技术——人脸识别进行了研究.具体内容为:对于人脸识别近年来的研究工作进
计算机网络技术的飞速发展和网络应用的广泛普及给网络管理带来了层出不穷的问题,其中,IP地址的盗用已成为网络管理、尤其是校园网管理中越来越严重的问题之一。如何有效地防止
人称代词的消解是自然语言处理中十分重要的问题.人称代词消解,就是确定人称代词与先行词之间的相互关系,从而明确人称代词究竟指代什么对象.现有的许多应用系统,如文本摘要
21世纪的社会是一个信息化、学习化的社会,人类知识的更新日益加快。研究证明:一个工程师在大学所受的教育最多能维持五年,学习将成为人们的终身话题。由于基于Web的远程网络教