论文部分内容阅读
数据挖掘是数据库最活跃的领域之一。由于其广泛的应用背景和现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在国内外的学术界和信息产业界备受关注。
数据挖掘是从大量数据中发现人们感兴趣的、隐藏的、先前未知的知识。数据挖掘技术主要研究结构化的数据挖掘,而Web数据的挖掘是应用于Internet的技术研究,是从半结构或无结构的Web页面中,抽取感兴趣的、潜在的模式。尽管Internet是一个半结构化的系统,很难对它进行处理,但是Web服务器日志记录具有良好的结构,非常有利于数据挖掘的进行。此外,Web日志挖掘作为Web挖掘的一个重要组成部分,具有独特的理论和实践意义。
本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,重点讨论在Web日志的挖掘上。通过阅读文献对web使用挖掘技术进行了分析和论述,特别是对Markov模型预测方法进行了详细的讨论分析了其优缺点,通过对已有的各种运用Markov模型进行Web浏览预测的方法的分析,发现这些预测的方法单纯考虑浏览次数往往会得到多个概率相同的结果,预测精度不够高。如果把时间因素加以考虑在内,在一定程度上就能解决这些问题。在此基础上本文提出了一种带访问倾向权重的Markov模型预测方法,该方法的主要特点是:在Markov模型中增加浏览时间参数,并利用值差分度量法对时间参数进行离散化处理;引入访问倾向权重的概念,对转移概率计算方法加以改进;在此基础上还引入新的预测算法。最后进行了模拟实验,说明该方法能获得较高的预测精度,可以用于预测Web用户非常可能访问的页面。