论文部分内容阅读
随着因特网技术的迅速发展和不断的普及。Web日志资源越来越丰富,如何充分利用这些资源,从中提取到用户所感兴趣的信息数据,是当前计算机领域的一大挑战。Web日志挖掘就是利用数据挖掘的思想对经过处理的服务器日志进行挖掘。本文在研究了数据挖掘的基础上,重点研究了Web日志挖掘的特点、方法和相关的技术。讨论了Web日志预处理的一系列过程及预处理的实现方法。并对现有的预处理的相应算法进行了有效改进。实现了分割日志数据为单独的用户和用户会话过程。有效的利用中粒度法将XML形式的Web日志数据转换到关系数据库中。本文深入研究了关联规则和频繁路径模式的特点,结合两者的优点。改进了关联规则的AprioriTid算法。