基于XML的Web内容挖掘研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xqjulia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,WWW上信息的快速增长,WWW为人们提供了大量的信息,但也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量庞太大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,从大量的Wed文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。根据Web挖掘研究的对象,Web挖掘分为三类:Web内容挖掘, Web结构挖掘和Web使用记录挖掘,Web内容挖掘是论文研究的主要内容。由于现有的搜索引擎仅用于Web上的信息检索,无法发现Web上潜在的知识,多数用户在用搜索引擎给出的搜索结果时都很难从中发现自己感兴趣的内容,为了解决这个现状,论文展开了对Web内容挖掘技术的研究。论文分析了现有的数据挖掘、Web挖掘和XML技术的一些基本概念、方法和技术,通过对半结构化数据的处理及所涉及的关键技术,如抽取方法、转换算法等方面的研究,提出了一种基于栈结构的数据格式转换方案,将半结构化的HTML数据转换为XML格式的结构化数据,得到有效的XML格式的待挖掘数据。提出了利用XML数据建立供挖掘使用的多层Web数据库的方法。通过对现有数据挖掘的决策树算法和聚类分类算法的研究,根据实际应用的需要对这两个算法进行了修改,使之适用于当前Web挖掘任务。论文的构想通过构建一个基于XML的Web挖掘系统---Web_srm得到实现。该原型系统根据用户输入的查询信息对搜索到的Web页面内容进行挖掘,系统由Web页面数据采集器、预处理器、数据转换/抽取器、挖掘综合器、和用户界面以及多层数据库6大部分组成,为人们提供了一个对在Web上得到的搜索结果进行分析挖掘的Web挖掘工具,可帮助人们更快捷、有效地从搜索结果中获取感兴趣的内容。
其他文献
针对流媒体等应用的不断出现和流行,目前面临的突出问题是:如何满足新应用对网络资源的高要求和高消耗。为此,我们迫切需要一个高性能的内容分发系统,并且高效利用其网络资源
本文对XML的文档结构和模型、XML的查询语言XQuery、XMY解析器以及文档对象模型(DOM)等进行了研究。分析了当前对XML文档进行查询的一些不足之处,综合XQuery查询处理和XML数据
本文主要是利用组件化软件开发方法,针对无线数据通用平台BREW的功能、技术特点、软件开发方法研究:BREW的体系结构:把BREW划分为一个前台用户界面层、中间接口层、后台模块库三
随着Internet的飞速发展,IPv4的许多不足逐渐显露出来,诸如地址资源匾乏、路由表膨胀、缺乏对传输信息的加密和认证、缺乏QoS支持等。为了解决这些问题,IETF制定了新一代的IP
当前,随着Internet的迅速发展、手机的广泛普及以及两者之间业务的结合,电信业务量得到了惊人的增长。尤其短信业务已经成为我国电信运营商的一个主要业务。同时,电信运营商
近来,视频点播系统(VOD)在社会上受到了广泛的关注,并在技术上、理论上取得了长足的进步。对使用者进行计费与计费的管理作为视频点播不可或缺的一部分,在其发展中起到了重要的
本文对基于WEB GIS的水资源优化配置系统的实现进行了研究。文章提出了系统的总体建设目标、主要功能、模块结构划分以及系统得以实现的技术平台,建立了系统的总体框架。其中
随着各行业智能化、信息化的迅猛发展,嵌入式实时操作系统的采用也日益扩大。应用于产品质量检测领域的视觉传感器,主要利用基于嵌入式实时操作系统的图像检测,基于嵌入式实时操
在企业的经营管理中,牛产成本的控制和管理是非常重要的。物料清单(BOM)是成本篱理的基础,研究基于BOM的成本管理算法对于企业信息化有着重要意义。 在制造业中,分布最广泛的
随着社会的发展,交通问题日益突出,人们对智能交通系统投入了越来越多的关注,其中道路网模型作为智能交通系统的基础成为研究热点。目前,在大多数的研究中,道路网作为空间网