论文部分内容阅读
Web使用挖掘的研究对象是Web日志数据。Web日志数据记录了用户对Web站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问习惯,可帮助实现网页的预存取和缓存;对于页面重组、优化网站的结构等方面都具有十分重要的意义。本文对Web使用日志这些半结构化的数据进行预处理,结合实例网站的实际数据,创建了适合实例网站的点击流数据仓库模型,然后运用SQL 2005 AnalysisService中的Sequence Cluster模型进行数据挖掘,最后对数据挖掘结果进行数据分析,给网站的管理者提供网站结构优化的建议。论文所做的主要工作如下:1.对数据挖掘和Web使用挖掘的相关知识和技术进行了概述,阐述了Web使用挖掘的意义、研究现状以及面临的问题;2.讨论了Web使用挖掘的三个阶段:数据预处理、模式识别和模式分析,分析了Web使用挖掘的应用领域和研究方向;3.为数据预处理的数据采集、数据净化、用户识别和会话识别等部分提供了详细的算法。Web日志数据通过这些算法进行预处理后,为数据仓库的建立提供了可靠的准备数据。4.利用日志分析工具Deep Log Analyzer对经过预处理的日志数据进行分析,得到基本的统计数据及图表。接着分析建立点击流数据仓库的必要性。根据MarkSweiger等提供的标准点击流仓库模型,提出适合实例网站的数据仓库逻辑模型,并在此逻辑模型的基础上,建立相应的物理模型。5.最后将上述的数据预处理算法和数据仓库模型应用在实例网站的访问日志中,然后运用SQL Server 2005 Analysis Service中的Sequence Cluster模型分析数据仓库中的数据,并将分析结果应用于网站结构的调整。