基于XML的Web数据抽取研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:qqq1234qqqqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。
其他文献
布局问题是VLSI布图设计中的重要问题,传统的方法很难得到满意的解答。针对该问题,文中提出了一个基于遗传算法的求解方法,并将它应用到VLSI门阵列模式布局设计中,构造了一个较完
在分析了现有的Web服务标准和语义Web的基础上,介绍了一种把二者结合起来的语义Web服务(SwS)。它可以实现在不需要人的参与下,Web服务的自动发现、自动调用和自动组合。对于语义W
在社会信息化发展和企业智能化管理的要求下,煤炭销售企业为了适应竞争激烈的市场环境,要求财务部门为企业的经营和管理活动提供及时可靠的财务信息,以便企业迅速做出应对市
针对西山煤电集团西曲煤矿北三下组集中运煤巷道掘进出现应力较大的问题,按照工程实际情况,采用FLAC3D软件进行数值模拟,计算分析了巷道围岩在不同掘进程度的应力分布和塑性
Linpack是目前测试机群浮点运算性能的通用标准。文中旨在解决Linpack采用通用参数配置时因盲目配置参数多而导致测试周期长的缺陷,提出了一种可大幅度减少测试周期的基于最优
分析了常见调度算法的特点,提出一种基于嵌入式实时操作系统的闭环反馈控制调度策略。针对任务的特点.从任务的周期与非周期性、I/O消耗和处理器消耗型两个方面对任务进行相应的