论文部分内容阅读
随着互联网的发展,WWW上信息的快速增长,WWW为人们提供了大量的信息,但也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量庞太大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,从大量的Wed文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。根据Web挖掘研究的对象,Web挖掘分为三类:Web内容挖掘, Web结构挖掘和Web使用记录挖掘,Web内容挖掘是论文研究的主要内容。由于现有的搜索引擎仅用于Web上的信息检索,无法发现Web上潜在的知识,多数用户在用搜索引擎给出的搜索结果时都很难从中发现自己感兴趣的内容,为了解决这个现状,论文展开了对Web内容挖掘技术的研究。论文分析了现有的数据挖掘、Web挖掘和XML技术的一些基本概念、方法和技术,通过对半结构化数据的处理及所涉及的关键技术,如抽取方法、转换算法等方面的研究,提出了一种基于栈结构的数据格式转换方案,将半结构化的HTML数据转换为XML格式的结构化数据,得到有效的XML格式的待挖掘数据。提出了利用XML数据建立供挖掘使用的多层Web数据库的方法。通过对现有数据挖掘的决策树算法和聚类分类算法的研究,根据实际应用的需要对这两个算法进行了修改,使之适用于当前Web挖掘任务。论文的构想通过构建一个基于XML的Web挖掘系统---Web_srm得到实现。该原型系统根据用户输入的查询信息对搜索到的Web页面内容进行挖掘,系统由Web页面数据采集器、预处理器、数据转换/抽取器、挖掘综合器、和用户界面以及多层数据库6大部分组成,为人们提供了一个对在Web上得到的搜索结果进行分析挖掘的Web挖掘工具,可帮助人们更快捷、有效地从搜索结果中获取感兴趣的内容。