论文部分内容阅读
缓存技术是减轻服务器负载、减少网络拥塞、降低客户访问延迟的有效途径。但仅使用Web缓存技术作用有限。为提高缓存系统的性能,引入了Web预取技术,于是选择哪些数据源进行研究以及该把哪些数据作为缓存预取的对象成为研究的关键问题之一。
网站的Web日志是客户访问最真实的反映,日志记录能够详细描述客户的访问信息。采用Web日志作为最初的数据源,利用客户连续请求的时间概率关系、客户进入网站开始会话的方式以及客户进入网站后浏览页面的关系,我们提出了基于日志引用页面、请求时间、页面间“请求距离”的数据清洗、用户识别、会话识别以及事务识别算法,对文本文件与数据库之间的转换进行了研究和实现。利用Bash Shell与Java程序各自的优点,采用两者相结合的处理方式来对数据预处理各阶段进行实现。
经过数据预处理之后,根据客户访问的时间局部性和空间局部性原理,利用数据挖掘工具—关联规则挖掘进行页面规则挖掘;通过设置可信度以及支持度等参数,选用实际运作网站的训练数据集进行规则挖掘,生成规则库,再选用测试数据集来测试这些规则的性能;然后采用无序页面关联规则以及有序页面关联规则挖掘进行分析与测试,验证结果表明:在同等条件下应用本文提出的缓存预取方法能够显著提高缓存命中率。