论文部分内容阅读
面向Web的数据挖掘是一个非常前沿的研究问题,其主要目标就是找出符合Web的数据结构及相关模型。现在,人们通常把Web的结构看作是半结构化的。面向Web的数据挖掘首要解决的是寻找半结构化数据源模型问题。以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以良好地兼容原有的 Web应用,而且可以实现Web中的信息共享与交换。 XML是“可扩展标记语言”的缩写。XML规格是由全球信息网标准制定组织(W3C)制定,并于1992年成为推荐规格,目前已有许多家厂商采用,且视为关键性技术,如Adobe、IBM、Microsoft、Netscape、Oracle、Sun等。目前许多新版的软件,如Navigator、Internet、Explorer及 RealPlayer,都已经在软件内部使用了XML的技术。 XML技术在Web数据挖掘中应用于以下几方面:
1.实现以标准的HTML无法完成的Web应用
XML的应用可以分成以下4类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见,标准的HTML无法完成的Web应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠 XML来实现。
2.利用XML规范的格式来标记和交换数据
XML已经成为正式的规范,开发人员能够在数据表现层、数据交换层、数据组织层这三层架构上为数据处理提供很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。
3.赋予基于Web的应用软件强大的功能和灵活性
XML给开发者和用户带来了许多好处。比如搜索多样不兼容的数据库,并且Web数据可被XML惟一地标识。XML能够使不同来源的结构化的数据很容易地结合在一起,软件代理商可以在中间层的服务器上对从后端数据库和其他应用处传来的数据进行集成。然后,把数据发送到客户或其他服务器进一步集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的 Web页到数据记录,从而通过多种应用得到数据。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。
4.以简单开放扩展的方式描述结构化的数据
HTML描述数据的外观,而XML描述数据本身并被广泛地用来描述用户界面。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、用户选择或其他标准决定的方式动态地表现出来。CSS和XLL为数据的显示提供了公布的机制。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个用户界面就能够显示出来。但在目前,只要一条数据变化了,一整页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据间进行传递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAG来表达数据的逻辑结构和含义。
5.大量运算负荷分布在客户端
如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序,但假如用户的需求繁杂而多变,那么仍然将所有业务逻辑集中在服务器端是不合适的,因为服务器端的编程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很被动。XML可将负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件,应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
参考文献
1 符绍宏,雷菊霞,饶伟红.因特网信息资源检索与利用.北京:清华大学出版社,2000,6
2 http://www.xml.org.cn
3 http://www.ascc.net/xml
4 http:www-900.ibm.com
5 沈洁等.一种基于XML的Web数据挖掘模型.系统工程理论与实践,2002(9)
6 左开中等.XML语言在Web数据挖掘中的应用.微机发展,2002(3)
7 陈莉等.Internet/Web数据挖掘研究现状及最新进展.西安电子科技大学学报,2002(28)
8 Jiawei Han Micheline Kamber.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,2001
9 Julian Kulkarni,Richard King.Bussiness Intelligence System and Data Mining.ASAS Institute White Paper, 1996
1.实现以标准的HTML无法完成的Web应用
XML的应用可以分成以下4类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见,标准的HTML无法完成的Web应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠 XML来实现。
2.利用XML规范的格式来标记和交换数据
XML已经成为正式的规范,开发人员能够在数据表现层、数据交换层、数据组织层这三层架构上为数据处理提供很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。
3.赋予基于Web的应用软件强大的功能和灵活性
XML给开发者和用户带来了许多好处。比如搜索多样不兼容的数据库,并且Web数据可被XML惟一地标识。XML能够使不同来源的结构化的数据很容易地结合在一起,软件代理商可以在中间层的服务器上对从后端数据库和其他应用处传来的数据进行集成。然后,把数据发送到客户或其他服务器进一步集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的 Web页到数据记录,从而通过多种应用得到数据。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。
4.以简单开放扩展的方式描述结构化的数据
HTML描述数据的外观,而XML描述数据本身并被广泛地用来描述用户界面。由于数据显示与内容分开,XML定义的数据允许指定不同的显示方式,使数据更合理地表现出来。本地的数据能够以客户配置、用户选择或其他标准决定的方式动态地表现出来。CSS和XLL为数据的显示提供了公布的机制。每当一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给客户,变化的数据不需要刷新整个用户界面就能够显示出来。但在目前,只要一条数据变化了,一整页都必须重建。这严重限制了服务器的升级性能。XML也允许加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。XML应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那就是XML。由于XML的自定义及可扩展性,它足以表达各种类型的数据。客户收到数据后可以进行处理,也可以在不同数据间进行传递。总之,在这类应用中,XML解决了数据的统一接口问题。但是,与其他的数据传递标准不同的是,XML并没有定义数据文件中数据出现的具体规范,而是在数据中附加TAG来表达数据的逻辑结构和含义。
5.大量运算负荷分布在客户端
如按传统的“Client/Server”工作方式,客户向服务器发出不同的请求,服务器分别予以响应,这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以做出相应不同的程序,但假如用户的需求繁杂而多变,那么仍然将所有业务逻辑集中在服务器端是不合适的,因为服务器端的编程人员可能来不及满足众多的应用需求,也来不及跟上需求的变化,双方都很被动。XML可将负荷分布在客户端,即客户可根据自己的需求选择和制作不同的应用程序以处理数据,而服务器只须发出同一个XML文件,应用XML则将处理数据的主动权交给了客户,服务器所作的只是尽可能完善、准确地将数据封装进XML文件中。XML的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义,从而使广泛、通用的分布式计算成为可能。
参考文献
1 符绍宏,雷菊霞,饶伟红.因特网信息资源检索与利用.北京:清华大学出版社,2000,6
2 http://www.xml.org.cn
3 http://www.ascc.net/xml
4 http:www-900.ibm.com
5 沈洁等.一种基于XML的Web数据挖掘模型.系统工程理论与实践,2002(9)
6 左开中等.XML语言在Web数据挖掘中的应用.微机发展,2002(3)
7 陈莉等.Internet/Web数据挖掘研究现状及最新进展.西安电子科技大学学报,2002(28)
8 Jiawei Han Micheline Kamber.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,2001
9 Julian Kulkarni,Richard King.Bussiness Intelligence System and Data Mining.ASAS Institute White Paper, 1996