论文部分内容阅读
随着Internet的普及和计算机技术的发展,网络用户的规模越来越大,用户访问网络的行为也变的越来越多样化和复杂化。网络在电子商务、提供在线服务和信息搜索等方面得到了广泛的应用。许多商业网站都在不断提高服务质量、网站性能和竞争力以便吸引更多的客户。那么如何提高站点服务性能、改进站点结构和提供个性化服务?为解决这些问题,研究人员提出了Web日志挖掘,它是目前研究比较多的一个研究方向。日志挖掘的主要数据源来自服务器端的日志数据,对其进行预处理和模式挖掘从而得到用户的访问模式,进而可以了解群体用户的访问模式和兴趣,为站点结构优化和用户个性化服务提供决策支持。通过对大量文献资料的学习和分析,本文对Web日志挖掘预处理阶段中的关键步骤进行研究并提出了相应的算法;本文还针对K-means算法的缺陷,提出了改进算法,并将其应用到Web日志挖掘中。本文首先介绍了当前国内外研究现状,接着在第2章介绍了数据挖掘概念和Web挖掘等内容。其次重点详细介绍了Web日志挖掘预处理中的数据清洗、用户识别、会话识别、路径补充和事务识别五个关键步骤。因为预处理后数据的准确性将直接影响到数据挖掘的效果,所以对日志数据的预处理是很有必要的。本文第3章对当前预处理中的数据清洗、用户识别和事务识别三个关键步骤进行了详细的分析和研究,提出了数据清洗、用户识别和事务识别三个设计算法。用户识别算法结合了时间阈值,识别的用户更加符合实际,并且能够识别出更多的用户;根据日志记录的请求页和参引页间的链接关系,再结合时间阈值设计出了新的事务识别算法,该算法能够识别出很多有意义的事务。最后介绍了聚类分析,重点研究了K-means算法,针对K-means算法的初始聚类中心随机选择的缺陷,第4章设计了改进的K-means算法,该算法结合层次聚类算法AGNES,得到密度比较高的k个初始聚类中心,经实验验证准确率明显得到提高,迭代次数减小。本文还将改进算法应用到Web日志挖掘中,进行用户聚类从而得到群体用户的需求,为网站优化和个性化服务提供决策支持。