论文部分内容阅读
挖掘用户访问网站的模式是目前数据挖掘技术在Internet上的重要应用之一,挖掘用户访问网站的模式,可以使网站建设者清楚地了解自己网站不同用户的兴趣和整个网站页面的访问情况,从而可以通过调整网站的逻辑组织结构或建立自适应网站来方便不同用户的访问。由于Web是一个无结构的动态的分布式的信息系统,直接对它进行挖掘是困难的,获取的知识是不可靠的。然而,Web服务器的日志有着完整的结构,可以通过对Web日志文件的挖掘来实现智能个性化服务。本文通过研究相关的推荐系统的体系结构,根据目前主流的电子商务推荐的体系结构,设计实现了用户访问模式在线挖掘系统(User Navigation Pattern Mining Recommending System,UNPMRS),然后详细讲解了该系统中各个模块的构造、功能以及如何相互协作从而最终完成推荐任务;并着重研究了数据预处理和推荐算法的实现。数据预处理是Web使用挖掘过程中关键一步,其处理结果的质量直接影响后续步骤比如路径分析、用户聚类和关联规则挖掘等的效果。本文通过研究目前主流的数据预处理的流程,根据UNPMRS中访问模式聚类模块的具体需求,提出了基于天数的用户会话划分方法,提高了数据预处理过程的效率,取得了较好的试验效果。本文将聚类分析方法结合关联规则推荐算法,应用于Web日志文件的挖掘,以改进电子商务推荐系统的推荐方法,经过实验表明,该算法能够显著改进推荐测度的精确率指标和综合评价指标。所有实验数据完全为实际网站Web日志数据,非模拟生成,进一步保证了实验结果的准确性和可靠性。