基于XML的Web数据抽取模型研究

来源 :西华大学学报：自然科学版 | 被引量 : 0次 | 上传用户：seanchn

【摘要】

：

提出了一种面向HTML或XML描述的Web数据抽取模型，首先用STOCK把Web文档从Web服务器读下来，识别Web文档的表示格式，若是HTML格式，则先把HTML数据转换成XHTML（XML的子集）格式，然后对We

【作者】

：

谢维成吕先竞宋玉忠

【机构】

：

西华大学电气信息学院,西华大学图书馆

【出处】

：

西华大学学报：自然科学版

【发表日期】

：

2006年1期

【关键词】

：

KDW XML WEB数据抽取语义WEB技术 KDW XML Web Data extraction semantic Web technology

【基金项目】

：

SSF（Grant N0. 02BTQ013,国家社会科学基金项目）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种面向HTML或XML描述的Web数据抽取模型，首先用STOCK把Web文档从Web服务器读下来，识别Web文档的表示格式，若是HTML格式，则先把HTML数据转换成XHTML（XML的子集）格式，然后对Web页进行修复后合并形成系列XML文档并存储，采用绝对路径和锚点（Anchor），利用XML数据格式的工具来检索相关数据，获取所需数据并构造XML输出，从而实现Web数据抽取过程。实验表明，该模型实现Web数据抽取是可行的，根据该模型的缺陷，提出了一个基于语义Web技术的信息抽取改进模型。

其他文献

基于嵌入式Web服务器的测控系统

简要介绍了Web技术和嵌入式系统的应用现状以及web服务器的技术和原理，讨论了基于嵌入式Web服务器的远程测控系统的设计，完成了在无操作系统单片机环境中嵌入式Web服务器的开发

期刊

嵌入式WEB服务器通用网关接口(CGI)单片机embedded Web servercommon gate interfaceLsingle chip

中药内服外敷结合护理干预对宫外孕术后盆腔炎的疗效

目的：观察中药内服外敷结合护理干预治疗宫外孕术后盆腔炎的疗效。方法：将48例宫外孕术后盆腔炎患者随机分为对照组和治疗组,对照组予抗感染治疗及常规护理干预,治疗组在对照组

期刊

内服外敷宫外孕术后盆腔炎护理干预

锦屏边坡蓄水工况下的FLAC数值模拟

为研究锦屏电站某滑坡在蓄水工况下的稳定状况，采用有限差分分析软件FLAC对其进行数值模拟，模拟结果表明，滑坡在自然工况下整体稳定，蓄水工况下出现失稳破坏的现象。水使材料强度

期刊

FLAC滑坡数值模拟FLAC landslide numerical simulation

基于神经网络的母线保护方法的研究

针对基于ANN分类能力的母线保护方法需要大量故障样本，而完整的故障样本获取不易的问题，提出了基于ANN函数逼近能力的母线保护方法，构建了母线保护的ANN数学模型，应用MATLAB软件

期刊

母线保护人工神经网络函数逼近仿真bus protectionartificial neural networkfunction approximat

新型短波通讯天线的计算机仿真

作者研究了一种通讯短波宽带共形线天线，并利用时域有限差分算法（FDTD）仿真计算，经过优化和匹配电路的加载，得出天线在短波10-90MHz频率下的反射系数、输入阻抗、电压驻波比、辐射

期刊

短波通讯宽带共形时域有限差分法short wave communicationwide bandconformalFDTD

一类变分问题的Galerkin解法

运用Galerkin方法求解数学物理方程，可方便地进行理论分析。文章把一类变分问题转化为等价的Galerkin变分方程，同时运用Lax-Milgram定理证明变分问题解的适定性，并给出Galerkin

期刊

GALERKIN解法变分原理适定性Galerkin method variational principlewell posedness

基于Petri网的企业科技项目管理工作流建模

科技项目管理是企业信息系统的重要组成部分，利用Petri网，对复杂的科技项目管理工作流程建模，解决企业信息化中较为复杂的科技项目管理工作流问题。同时，以企业科技项目申请流程

期刊

科技项目管理PETRI网工作流模型scientific and technological project managementPetri netwo

混合气体热传导性质的计算机模拟

从气体原子间相互作用的微观模型出发，采用气体原子间相互作用势的TT模型势，系统计算了四种二元混合气体在不同温度下的热传导系数的理论值，并与Kestin等人所拟合的最佳值进行比

期刊

热传导系数惰性气体对应态原理thermal conductivity coefficientnoble gasthe corresponding st

基于MCGS的PLC虚拟控制系统研究

在组态软件MCGS的基础上，作者研究提出了虚拟PLC系统的方案。并以液体混合控制系统为例分别给出了实际的控制系统和虚拟控制系统，说NT构成基于MCGS虚拟控制系统的步骤，并讨论了

期刊

PLC组态软件MCGS虚拟系统远程监控PLCconfiguration softwareMCGSvirtual control systemr

基于XML的Web数据抽取模型研究

其他学术论文