论文部分内容阅读
随着Internet的日益普及和电子商务的蓬勃发展,基于电子商务的业务也面临着越来越激烈的竞争。由于电子商务站点可为数据挖掘提供极为丰富的数据源,因而如何运用数据挖掘技术对Web服务器上的日志数据和交易数据进行挖掘,从中抽取感兴趣的模式,以便更好地理解客户的访问行为,或改进站点结构和为客户提供更多的个性化推荐服务,已成为众多商家所关注焦点。因此,开展本研究课题有一定的应用价值和意义。本文首先概述了Web使用挖掘。介绍了日志挖掘技术中两大关键技术一序列模式挖掘和聚类分析,并分析了算法的优缺点,为后面的应用奠定理论基础。接着,详细讨论了Web日志挖掘的数据预处理过程,包括数据净化,用户识别,会话识别,Frame过滤,路径补充等。然后,对传统的矩阵聚类算法进行优化,改进为权值矩阵聚类算法。该算法对用户浏览时间和点击次数两个数据的离散化,来得到加权的URL-UserID访问矩阵,应用该算法分别对客户和页面的聚类分析,对客户的聚类来发现相似的客户群体,挖掘潜在客户,对页面聚类来将内容相关的页面归类;接下来,通过对聚类分析后的每一类用户访问日志分析,发现每一类用户的MFP事务数据库,再利用GSP算法找出每一类用户的频繁访问路径。最后把聚类和序列模式挖掘结果应用到电子商务推荐系统中,并给出一个个性化推荐系统PRS的原型。实验表明改进的权值矩阵聚类算法具有较高准确性和良好扩展性。将挖掘结果应用于个性化推荐系统的思想是有效的、可行的。