XML技术在Web数据挖掘中的应用

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:lixianhua021389
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的 Web应用,而且可以实现Web中的信息共享与交换。 XML是“可扩展标记语言”的缩写。XML规格是由全球信息网标准制定组织(W3C)制定,并于1992年成为推荐规格,目前已有许多家厂商采用,且视为关键性技术,如Adobe、IBM、Microsoft、Netscape、Oracle、Sun等。目前许多新版的软件,如Navigator、Internet、Explorer及 RealPlayer,都已经在软件内部使用了XML的技术。 XML技术在Web数据挖掘中应用于以下几方面:
  
  1.实现以标准的HTML无法完成的Web应用
  
  XML的应用可以分成以下4类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见,标准的HTML无法完成的Web应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠 XML来实现。
  
  2.利用XML规范的格式来标记和交换数据
  
  XML已经成为正式的规范,开发人员能够在数据表现层、数据交换层、数据组织层这三层架构上为数据处理提供很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。
  
  3.赋予基于Web的应用软件强大的功能和灵活性
  
  XML给开发者和用户带来了许多好处。比如搜索多样不兼容的数据库,并且Web数据可被XML惟一地标识。XML能够使不同来源的结构化的数据很容易地结合在一起,软件代理商可以在中间层的服务器上对从后端数据库和其他应用处传来的数据进行集成。然后,把数据发送到客户或其他服务器进一步集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的 Web页到数据记录,从而通过多种应用得到数据。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。
    4.以简单开放扩展的方式描述结构化的数据
  
  HTML描述数据的外观,而XML描述数据本身并被广泛地用来描述用户界面。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、用户选择或其他标准决定的方式动态地表现出来。CSS和XLL为数据的显示提供了公布的机制。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个用户界面就能够显示出来。但在目前,只要一条数据变化了,一整页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据间进行传递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAG来表达数据的逻辑结构和含义。
  
  5.大量运算负荷分布在客户端
  
  如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序,但假如用户的需求繁杂而多变,那么仍然将所有业务逻辑集中在服务器端是不合适的,因为服务器端的编程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很被动。XML可将负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件,应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
  
  参考文献
  
  1 符绍宏,雷菊霞,饶伟红.因特网信息资源检索与利用.北京:清华大学出版社,2000,6
  2 http://www.xml.org.cn
  3 http://www.ascc.net/xml
  4 http:www-900.ibm.com
  5 沈洁等.一种基于XML的Web数据挖掘模型.系统工程理论与实践,2002(9)
  6 左开中等.XML语言在Web数据挖掘中的应用.微机发展,2002(3)
  7 陈莉等.Internet/Web数据挖掘研究现状及最新进展.西安电子科技大学学报,2002(28)
  8 Jiawei Han Micheline Kamber.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,2001
  9 Julian Kulkarni,Richard King.Bussiness Intelligence System and Data Mining.ASAS Institute White Paper, 1996
其他文献
一、信息技术产业    对经济的影响  调查显示,被调查国家和地区的信息技术产业近几年来增长迅速,其产值和在GDP中所占的份额都有不同程度的提高。总体而言,在宏观经济水平上信息技术产业的总量不大,但对经济增长的贡献度却很大,成为这些国家和地区经济发展的支柱行业之一,在促进国民经济结构的转型中起到了巨大的推动作用。信息技术产业在企业层次上的重要性也日趋显现,虽然难以进行全部量化统计,但有限的数据表明
期刊
本刊讯 2005年1月9日至10日,中国信息协会第四届会员代表大会暨信息化发展战略高层论坛在北京举行。参加会议的有政府官员、专家、学者,以及来自全国各地的会员单位代表约300人。这次会议的主要内容为:选举中国信息协会新一届领导成员,修改《中国信息协会章程》,确定协会发展定位;探讨我国信息化发展道路和发展战略。  在信息化发展战略高层论坛上,国家发展和改革委员会副主任朱之鑫,国务院信息化工作办公室
期刊
本刊讯 1月19日,中国互联网络信息中心(CNNIC)在京发布“中国互联网络发展状况统计报告”,这是CNNIC自1997年10月首次发布中国互联网络发展状况统计报告以来的第15次发布。本次报告显示,我国互联网继续保持了增长态势。上网用户总数为9400万,比去年同期增长8.0%,其中使用宽带上网的人数达到4280万;上网计算机达到 4160万台,增长了14.6%;CN下注册的域名数、网站数分别达到
期刊
一、组织原理     1.序化:所谓序化就是将若干种网络信息载体按信息的某种特征(内容、外表特征)标识排列成一个序列,并将信息用户的信息需求转换成相应的特征标识,从而使用户在排列后的信息序列中找到自己所特定需要的网络信息。概而言之,序化是把杂乱无序的事物整理为有序的活动,网络信息经过组织,把无序信息变成有序信息,以方便用户利用。  2.重组优化:重组是把网络信息载体的各种特征、事项、概念、数据乃
期刊
从中国互联网络信息中心(CNNIC)发布的“第十五次中国互联网络发展状况统计报告”来看, 2004年下半年中国互联网在整体上仍保持增长态势,具体体现在上网计算机数、上网用户人数、CN下注册的域名数、WWW站点数、网络的国际出口带宽、以及IP地址数等宏观数据方面。    1.上网计算机数    截止到2004年12月31日,我国的上网计算机总数达到了4160万台,同上一次调查结果相比,我国的上网计算
期刊
从外部市场环境来看,日益激烈的竞争要求企业实施ERP系统。现代的市场竞争实质上是以核心大企业为主导的产业链之间的竞争,中小企业要在这样的竞争生态环境下求生存就必须及时沟通产业链上下游信息,以响应市场需求,适时调整生产。但由于中小企业规模小,信息渠道有限,且无力去进行大规模的市场调查,加之我国缺乏有效和完善的市场信息系统,从而导致了中小企业经营活动的盲目性。实施 ERP系统,就是为企业摆脱信息闭塞的
期刊
近些年来,我国发布了一系列网络不良信息规制方面的行政法规和部门规章,如国务院于1994年发布的《中华人民共和国计算机信息系统安全保护条例》、1997年发布的《中国互联网络域名注册暂行管理办法》、1996年制订又于1997年修正的《中华人民共和国计算机信息网络国际联网管理暂行规定》;新闻出版总署 1997年发布的《电子出版物管理规定》;国家版权局1999年发布的《关于制作数字化制品的著作权规定》;公
期刊
入世以来,为了适应WTO的规则和进一步促进信息产业的发展,我国政府出台了一系列政策,并对现有的信息政策与法规有步骤、有计划地进行修订、增补和废止。  近年来,我国共清理了2300多件法律法规,还废止、停止执行或修改了19万多件地方性法规、地方政府规章和其他政策措施,调整或者取消了一批不符合世贸组织规则的条款。这一系列政策调整有力推动了我国信息产业的高速发展。但是要使我国信息产业融入国际市场,与WT
期刊
众所周知,根据IPv4(Internet Protocol Version4)协议,每个连入互联网上的主机和路由器必须分配一个32位的Ⅳ地址,但事实上,最初没有合理地规划IPv4地址,导致IPv4的地址在全球范围分配极不合理并且造成地址浪费的现象。随着电子技术及网络通信技术的发展、计算机网络将逐步深入人们的日常生活,人们身边的移动设备和家庭电器都要接入全球因特网,这些都需要大量的IP地址的支持。而
期刊
随着从2003年开始中小企业 ERP市场的急剧回升,国外的SAP及国内的用友、金蝶等ERP厂商纷纷发布了针对中小企业的ERP软件产品,一时间市场上充斥着各种各样的ERP软件产品,然而由于 ERP相关知识的缺乏,许多中小企业在ERP实施中败下阵来。那么,如何才能提高ERP的实施成功率呢?笔者认为,树立正确的理念是中小企业ERP实施的重中之重,在此提出了ERP实施中应当遵循的五项理念。    ERP本
期刊