论文部分内容阅读
Internet的迅速发展使得WWW已经深入到社会生活的方方面面,网上的数据资源空前丰富。面对着庞大的信息,如何能够让用户及时地发现有用的信息则变得越来越困难,而对于网站,想及时了解自己组织结构的合理性也变得很困难。
Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的。然而,Web服务器的log日志却有着完整的结构。因此我们提出“基于Web挖掘的个性化服务”,就是利用Web挖掘技术从服务器的日志文件中获取用户的访问模式,并根据这种模式对用户或页面进行聚类,挖掘出具有相似访问兴趣的用户或相似页面。运用聚类的结果可以方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面,从而实现个性化服务,同时还可以优化站点的组织结构,进而提高网站的服务质量。
本文首先对数据挖掘和Web挖掘进行了概述,重点介绍了Web日志挖掘技术的相关内容。接着较详细地研究了Web日志挖掘中的数据预处理过程,并在此基础上,结合某网站的日志记录对预处理过程进行了详细的描述。
然后研究分析了基于聚类的数据挖掘的基本理论和一般方法,并介绍了模糊聚类理论的应用及研究。由于Web使用挖掘,尤其是Web用户聚类和页面聚类,有着明显的模糊特征,为此,一些学者将模糊聚类应用到其中。本文在分析了已有聚类算法不足的基础上,提出了一种新的模糊矩阵聚类的方法:通过构造一个用户/页面(Use-URL)矩阵来表示用户对页面的访问信息,在变换权值矩阵时不但将用户的访问频度作为参数,还把用户浏览时间长度作为用户兴趣度权值的因素考虑进去,更准确地表征了用户兴趣度大小。通过对模糊矩阵的列向量进行相似性分析可得到相似用户群体,对行向量进行度量得到相关Web页面,对后者做进一步处理还可得到频繁访问路径。通过实验结果表明了算法的有效性。
最后,设计了一个智能网站个性化服务的模型。通过对某网站日志的实践证明,采用这种改进的模糊矩阵聚类算法进行挖掘,并将挖掘结果用于个性化服务的思想是有效的、可行的。