论文部分内容阅读
Web数据挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志,页面内容等)中发现用户的浏览模式或寻找相关的Web页面等。Web使用挖掘主要是对Web日志进行分析处理,而Web日志数据通常是大量的,冗余的,日志中的页面之间的关系也是模糊的,不确定的。粗糙集理论是有效处理不精确、不确定和含糊信息的软计算工具。Web使用挖掘可以从网站的日志数据中抽取用户感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。基于粗糙集的模糊粗糙聚类理论算法的Web使用模式挖掘方法的研究具有一定的理论意义和学术价值。
本文工作主要包括以下几个方面:
首先,Web使用挖掘的数据预处理研究。其次,基于粗糙集理论的Web使用模式挖掘研究。再次,应用粗糙集方法对Web上的用户访问事务进行聚类,介绍的算法是基于凝聚方法的聚类,该方法能够实现对Web页面的有效分类。最后,进行总结,并对下一步的研究进行了展望。论文的创新之处主要有:(1)在事务的识别阶段提出了一种新的最大向前引用序列挖掘算法——剪枝算法。(2)结合Matlab语言和粗糙集理论的特点,提出了集合的二进制表示方案,巧妙地解决了变精度粗糙集的程序设计的问题。