论文部分内容阅读
随着Web应用的快速发展,Web数据挖掘成为数据挖掘的热点之一,根据Web挖掘的目的和数据对象的不同,web数据挖掘可以分为Web内容挖掘、Web结构挖掘、Web日志挖掘。Web日志挖掘是对用户访问网站是留下的日志文件使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。本文在对预处理各个步骤研究分析的基础上,提出了基于用户访问树的Web日志挖掘数据预处理方法,根据服务器用户访问日志建立用户访问树,并在用户访问树的基础上进行用户和事务识别,从而解决了在动态网站拓扑结构难以获取的情况下进行预处理的困难,并通过实验验证了该算法识别事务的准确性,为下一步序列模式挖掘打下坚实的基础。
对于从Web日志中挖掘出用户的访问序列模式,传统的序列模式挖掘算法在挖掘时往往效率很低,它们采用的频繁模式搜索策略经常导致算法构造大量的中间数据。本文对当前主要使用的PrefixSpan算法提出改进,在构建投影数据库时合弃非频繁项存储并在投影序列数小于最小支持度时结束扫描投影数据库,同时通过检查序列关于前缀的前缀,避免序列数据库中重复投影数据库的产生以及对投影数据库进行的重复扫描,提高了算法执行效率,并通过实验对其时空性能与原算法进行对比。
本文最后在前面工作的基础上,设计实现了一个Web用户访问日志挖掘原型系统,并就原型的各模块进行了分析,通过对高校网站服务器的真实日志数据进行挖掘,展示了完整的Web日志挖掘过程,实验证明系统是可行的和有效的,同时将得到用户访问序列模式提供给网站系统管理员参考以便更好地经营网站。