论文部分内容阅读
随着互联网和电子商务的发展,越来越多的结构化数据、半结构化数据以及非结构化数据聚集在互联网上。例如,顾客网上购买行为、新闻浏览和跳转踪迹以及Web点击量等等。在大规模海量数据的整合处理和深层次量化分析的实际需求下,孕育了一项重大技术,即数据挖掘技术。数据挖掘大致可分为分类模式、回归模式、关联模式、时间序列模式和聚类模式。其中,关联规则是数据挖掘里面研究热点之一。传统的关联规则挖掘算法用于挖掘静态的规则,即没有考虑关联规则是随着时间变化而变化的,但实际数据库中的数据多带有时间这一特性,因此有必要把时间这一因素添加进来观测关联规则在时间上的变化,即为动态关联规则挖掘。时间序列是指一系列在一定时间间隔下获取,且具有先后顺序的观测值。时间序列自身存在趋势性、季节性以及趋势与季节混合等特点。同时,子序列在时间上可能存在一定的关联性。首先,本文根据时间序列自身的特点,通过研究时序中特定时间段内的某种趋势频繁发生,提出基于滑动窗口聚类的时序关联规则挖掘方法。滑动窗口能够将连续的时间序列离散为多个子序列,并对子序列进行符号化,从而体现出时间序列的局部趋势和特征。在此基础上,利用聚类算法对子序列进行聚类,发现相似趋势。之后利用关联规则挖掘方法挖掘相似趋势之间的相关关系。该算法不仅能使用户发现更感兴趣的规则,且能反映该规则在特定时间段内的变化趋势,同时可指导用户做短期的预测或决策。其次,为了能更加有效的发现时序中的季节性,本文通过改进ERP-growth算法得到LERP-growth算法。利用带有时间约束的聚类算法将一个时间周期划分为有意义的若干段。减少扫描数据库的次数,构造链表数据结构,在挖掘较短模式时,具有更高的效率和更好地可伸缩性,并且能够省略对冗余数据项的扫描,从而提高挖掘效率。通过这种改进,算法可以有针对性地高效地对稀疏型数据源的数据库进行挖掘,从而挖掘潜在的周期性关联规则。最后,通过实验验证和分析算法的有效性和高效性。