基于本体的Web信息抽取的研究与实现

来源 :中南大学 | 被引量 : 0次 | 上传用户：zz727zz

【摘要】

：

Web已成为了网络信息的主要平台，是人们获取信息的重要来源。但是，由于Web页面的无结构性、超链接的自由无序以及Web内容的海量性、多样性和动态变化，人们从Web上搜索真正想要的

【作者】

：

柳佳刚

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2007年期

【关键词】

：

Web 本体信息抽取页面信息归纳学习信息项本体结构本体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web已成为了网络信息的主要平台，是人们获取信息的重要来源。但是，由于Web页面的无结构性、超链接的自由无序以及Web内容的海量性、多样性和动态变化，人们从Web上搜索真正想要的信息其实并不容易。Web信息抽取技术的研究，可以帮助人们更快更准确的获取信息。语义Web提倡的资源管理框架(RDF)和本体(ontoloy)技术，提供了以本体技术解决Web信息抽取的方案，由于不同学科各自的领域特性，建模过程需要领域专家的有效参与，导致领域本体建模的困难。定义Web页面信息项本体可以简化基于本体的Web信息抽取建模的过程，其缺陷是不能有效地划分页面的信息抽取区域，影响抽取规则生成的准确性。因此，论文基于Web页面信息项本体定义，把所要提取的信息在文档对象模型DOM层次结构中的路径作为信息抽取的“坐标”，设计了一种生成提取规则的归纳学习方法。在自动生成的Web页面中，待抽取的目标信息以相似结构的信息块子树形式存在于Web页面DOM树中。论文通过对单个样本页面信息项路径进行启发式学习和对所有样本页面集中信息块路径进行归纳学习，识别出相似结构的信息块子树的位置，准确的划定信息抽取区域，降低页面噪声；然后，利用Web页面解析技术，将经过噪声处理的样本页面自动解析成页面的结构本体。最后，将Web页面信息项本体和页面的结构本体进行对比，通过归纳学习算法生成抽取规则。论文设计了一个基于本体的Web信息抽取器。实验结果表明，以Web页面信息项本体为基础，结合文档对象模型DOM对网页路径结构的分析，降低了页面噪声，提高了Web信息的抽准率。

其他文献

基于WinCE的嵌入式旋转机械监测系统的研制

旋转机械状态监测技术对于旋转机械运行安全，降低设备维修费用，提高设备利用率有重大意义。大型监测设备费用太高，而且存在“监测过剩”的问题，所以，我们就开发一套基于WinCE

学位

S3C2410Windows CE监测系统

基于小波变换与奇异值分解的人脸识别技术研究

人脸识别是利用计算机对人脸图像进行处理，提取有效信息进行身份辨认的一门技术。近年来，在模式识别与计算机视觉领域中已受到广泛的重视，成为一个十分活跃的研究方向。在身份验

学位

模式识别小波变换奇异值分解特征脸

Statecharts及其时间扩展的形式化验证技术研究

模型检验是一种非常重要的自动验证方法，主要通过显式状态搜索或隐式不动点计算来验证有穷状态系统的模态命题性质，避免建立复杂的证明过程，并在不满足性质时能提供反例。二十多

学位

计算机仿真模型检验搜索算法

基于模式的PIM到PSM模型变换方法的研究

模型驱动体系结构是OMG在2001年提出的一种新的软件方法学,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到“一次设计,任何平台实现”的目的。本文扩展了对

学位

模型驱动体系结构(MDA)模式OCL模型变换框架

IPS交换机作移动智能网信令前台的方案设计、实现及评价

借助于No.7信令网和大型集中式数据库的支持,移动智能网将网络的交换功能和控制功能相分离,把网络中各网元的智能集中到新的功能部件——由中小型计算机组成的SCP(Service Co

学位

移动智能网SCP信令前台IPS大容量多模块

基于有色Petri网的SPIN协议验证

无线传感器网络作为一种新兴的技术，已成为当前国际上备受关注的研究热点，被认为是对21世纪产生巨大影响力的技术之一。路由协议的研究是无线传感器网络的一个重要研究领域，其中

学位

无线传感器网络SPIN协议SPIN-E协议有色Petri网CPN Tools

动车组复杂装备大数据分析关键技术研究与实现

近年来随着我国高速铁路动车组的大规模投入使用，借助于先进的传感器技术、数据采集技术和计算机存储技术，动车组积累了海量的数据。利用这些海量数据进行数据分析，从而指导维修

学位

动车组复杂装备大数据分析运行管理

基于D<'*>思想的ASON动态均衡恢复策略研究

随着Internet的高速发展,全球数据业务呈爆炸式增长。数据业务动态、突发等特性对传统的光传送网(OTN,Optical Transmission Network)提出了更高的要求。自动交换光网络(ASON

学位

自动交换光网络动态恢复D~*算法纳什均衡路由和波长分配

电子商务中信誉计算的研究及应用

本文通过分析电子商务环境中信任的需求,设计了优先信任模型PRTM (Priority trust model),对电子商务中信誉计算进行了研究,并在完全竞争的电力市场中应用信誉计算。首先,PRT

学位

电子商务信誉计算信任Delphi法层次分析法

基于支持向量机的航段运量预测研究

随着航空运输市场竞争的激烈,航空公司对航段运量预测的工作越来越重视。对于航空公司来说,航段运量预测关系到其对未来发展、运力安排和市场拓展等做出重要决策,关系到其科

学位

航段运量预测支持向量机最小二乘支持向量机

基于本体的Web信息抽取的研究与实现

其他学术论文