用XML实现WEB异构数据的转换与集成

来源 :武汉大学 | 被引量 : 0次 | 上传用户:cyydn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决"数据丰富而知识贫乏"的问题,我们需要对海量的Web数据进行数据挖掘,用以从因特网上发现有用的知识.但Web数据挖掘比单个数据仓库的挖掘要复杂的多,其主要原因在于Web数据的异构性妨碍了我们直接利用现有挖掘工具去挖掘其中的数据.XML的出现为解决这一难题带来了机会.由于XML能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样的不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望.XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,即能描述收集的Web页中的数据记录.同时,由于基于XML的数据是自我描述的,因而数据不需要有内部描述就能被交换和处理.该文首先介绍了XML的相关知识和特点,随即探讨了对Web异构数据进行规格化的方式和方法,然后给出了一些具体的例子,初步实现了Web异构数据的转换与集成.相信在以后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松.
其他文献
伴随着互联网技术的迅猛发展,在软件行业也开始出现一些介于合法应用软件和病毒木马软件之间的流氓软件,它们的特点是:具有用户需要的一些正常应用软件功能之外,但同时也拥有一部
论文首先介绍了"天地网同步实时教学系统"(SkyClass系统)的总体设计框架,并就其系统功能、网络模型和实现的层次结构作了简要地描述;其次,从系统的管理框架、管理分布和通信
该论文首先讨论了纱线的计算机模拟.纱线是组成织物的基本单元,纱线模拟好坏直接关系到织物模拟的效果.纱线计算机模拟作为织物设计软件的重要组成部分,是利用计算机图形技术
在计算机领域,有大量研究的基础的人脸跟踪中的计算机视觉和模式识别领域的主题。基本上,所有的研究都可以简单地分为两大类:一个是实时人脸检测,另一个是人脸检测和人脸跟踪[3~
该文研究了移动ad hoc网络中的路由协议.提出了适用于分时网络中的一种分布式QoS路由算法AQRA.AQRA在进行路由选择时,只需要根据局部的节点状态信息和链路状态信息就可以进行
该论文首先在对ERP内涵和理论渊源进行阐述的基础上,对ERP在中国的发展进行研究,指出面向未来企业的ERP发展趋势.从理论和实践的角度对企业如何选择和实施ERP问题进行深入的
分析目前高性能计算的几种主流技术,并以此为基础指出网格计算是高性能计算领域中一次伟大的浪潮,计算正面临着从集群向网格的过渡。侧重介绍网格计算技术的思想和内涵、网格计
该论文采用内存零拷贝及改进的Raw I/O技术,解决了100MB/s网络环境中,基于Intel X86 PC系统对网络数据包的捕获、存储难以满足100MB/s网络流量的问题,通过设计分布式并发取证
三维网格是计算机图形学领域中用来模拟三维模型的主要方式。近年来随着三维扫描技术和三维建模技术的发展,三维模型的数据规模也越来越大,很多高分辨率的三维模型都用具有成千
随着计算机网络技术的发展和分布式应用的迅速普及,将应用从客户端/服务器模型向客户端/中间件/服务器三层模型进行转移已成为用户的迫切需求,也是当今计算机技术发展的一个主流趋