基于XML的Web数据抽取模型研究

来源 :西华大学学报:自然科学版 | 被引量 : 0次 | 上传用户:seanchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。
其他文献
简要介绍了Web技术和嵌入式系统的应用现状以及web服务器的技术和原理,讨论了基于嵌入式Web服务器的远程测控系统的设计,完成了在无操作系统单片机环境中嵌入式Web服务器的开发
目的:观察中药内服外敷结合护理干预治疗宫外孕术后盆腔炎的疗效。方法:将48例宫外孕术后盆腔炎患者随机分为对照组和治疗组,对照组予抗感染治疗及常规护理干预,治疗组在对照组
为研究锦屏电站某滑坡在蓄水工况下的稳定状况,采用有限差分分析软件FLAC对其进行数值模拟,模拟结果表明,滑坡在自然工况下整体稳定,蓄水工况下出现失稳破坏的现象。水使材料强度
针对基于ANN分类能力的母线保护方法需要大量故障样本,而完整的故障样本获取不易的问题,提出了基于ANN函数逼近能力的母线保护方法,构建了母线保护的ANN数学模型,应用MATLAB软件
作者研究了一种通讯短波宽带共形线天线,并利用时域有限差分算法(FDTD)仿真计算,经过优化和匹配电路的加载,得出天线在短波10-90MHz频率下的反射系数、输入阻抗、电压驻波比、辐射
运用Galerkin方法求解数学物理方程,可方便地进行理论分析。文章把一类变分问题转化为等价的Galerkin变分方程,同时运用Lax-Milgram定理证明变分问题解的适定性,并给出Galerkin
科技项目管理是企业信息系统的重要组成部分,利用Petri网,对复杂的科技项目管理工作流程建模,解决企业信息化中较为复杂的科技项目管理工作流问题。同时,以企业科技项目申请流程
从气体原子间相互作用的微观模型出发,采用气体原子间相互作用势的TT模型势,系统计算了四种二元混合气体在不同温度下的热传导系数的理论值,并与Kestin等人所拟合的最佳值进行比
在组态软件MCGS的基础上,作者研究提出了虚拟PLC系统的方案。并以液体混合控制系统为例分别给出了实际的控制系统和虚拟控制系统,说NT构成基于MCGS虚拟控制系统的步骤,并讨论了