基于本体的Web信息抽取的研究与实现

来源 :中南大学 | 被引量 : 0次 | 上传用户:zz727zz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已成为了网络信息的主要平台,是人们获取信息的重要来源。但是,由于Web页面的无结构性、超链接的自由无序以及Web内容的海量性、多样性和动态变化,人们从Web上搜索真正想要的信息其实并不容易。Web信息抽取技术的研究,可以帮助人们更快更准确的获取信息。 语义Web提倡的资源管理框架(RDF)和本体(ontoloy)技术,提供了以本体技术解决Web信息抽取的方案,由于不同学科各自的领域特性,建模过程需要领域专家的有效参与,导致领域本体建模的困难。定义Web页面信息项本体可以简化基于本体的Web信息抽取建模的过程,其缺陷是不能有效地划分页面的信息抽取区域,影响抽取规则生成的准确性。因此,论文基于Web页面信息项本体定义,把所要提取的信息在文档对象模型DOM层次结构中的路径作为信息抽取的“坐标”,设计了一种生成提取规则的归纳学习方法。 在自动生成的Web页面中,待抽取的目标信息以相似结构的信息块子树形式存在于Web页面DOM树中。论文通过对单个样本页面信息项路径进行启发式学习和对所有样本页面集中信息块路径进行归纳学习,识别出相似结构的信息块子树的位置,准确的划定信息抽取区域,降低页面噪声;然后,利用Web页面解析技术,将经过噪声处理的样本页面自动解析成页面的结构本体。最后,将Web页面信息项本体和页面的结构本体进行对比,通过归纳学习算法生成抽取规则。 论文设计了一个基于本体的Web信息抽取器。实验结果表明,以Web页面信息项本体为基础,结合文档对象模型DOM对网页路径结构的分析,降低了页面噪声,提高了Web信息的抽准率。
其他文献
旋转机械状态监测技术对于旋转机械运行安全,降低设备维修费用,提高设备利用率有重大意义。 大型监测设备费用太高,而且存在“监测过剩”的问题,所以,我们就开发一套基于WinCE
人脸识别是利用计算机对人脸图像进行处理,提取有效信息进行身份辨认的一门技术。近年来,在模式识别与计算机视觉领域中已受到广泛的重视,成为一个十分活跃的研究方向。在身份验
模型检验是一种非常重要的自动验证方法,主要通过显式状态搜索或隐式不动点计算来验证有穷状态系统的模态命题性质,避免建立复杂的证明过程,并在不满足性质时能提供反例。二十多
模型驱动体系结构是OMG在2001年提出的一种新的软件方法学,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到“一次设计,任何平台实现”的目的。 本文扩展了对
借助于No.7信令网和大型集中式数据库的支持,移动智能网将网络的交换功能和控制功能相分离,把网络中各网元的智能集中到新的功能部件——由中小型计算机组成的SCP(Service Co
无线传感器网络作为一种新兴的技术,已成为当前国际上备受关注的研究热点,被认为是对21世纪产生巨大影响力的技术之一。路由协议的研究是无线传感器网络的一个重要研究领域,其中
近年来随着我国高速铁路动车组的大规模投入使用,借助于先进的传感器技术、数据采集技术和计算机存储技术,动车组积累了海量的数据。利用这些海量数据进行数据分析,从而指导维修
随着Internet的高速发展,全球数据业务呈爆炸式增长。数据业务动态、突发等特性对传统的光传送网(OTN,Optical Transmission Network)提出了更高的要求。自动交换光网络(ASON
本文通过分析电子商务环境中信任的需求,设计了优先信任模型PRTM (Priority trust model),对电子商务中信誉计算进行了研究,并在完全竞争的电力市场中应用信誉计算。首先,PRT
随着航空运输市场竞争的激烈,航空公司对航段运量预测的工作越来越重视。对于航空公司来说,航段运量预测关系到其对未来发展、运力安排和市场拓展等做出重要决策,关系到其科