论文部分内容阅读
数据挖掘是一个令人兴奋而且生机勃勃的研究领域,尤其是数据流挖掘,近年来也已经得到了广泛关注。由于数据流的特点是时变和实时响应,因此现有的挖掘算法无法直接应用于数据流。因此,针对数据流挖掘领域中的各个方面,例如:离群点检测、分类等,研究人员纷纷提出了更快、更有效的算法。一些典型的应用,如欺诈检测、网络流量监控、电话流量分析、数据管理、Web搜索和信用卡消费记录监控等,均需要连续挖掘大量数据流,以便发现最新的模式和离群点,而这些挖掘结果对于及时的战略决策是至关重要的。在数据流的离群点挖掘研究中面临着许多挑战,首先是设计适用于数据流的快速、轻型算法,利用有限存储空间实现对数据单遍扣描。由于数据流高速、时变的特征,带来的另一个挑战是需要迅速检测出概念变化和数据分布的改变,并及时适应新的数据特征。最后,现有数据流挖掘方法保存了最近数据的一个快照。
因此,本文调研并分析了大量的离群点检测方法,例如:基于聚类的方法,基于最近邻居的方法,基于密度的方法,并在此方面提出了一些新的有效算法,取得了一定的成果。本文的主要工作和创新性成果如下:
提出了基于聚类的离群点检测算法。该算法将数据流划分为若干块,在每个块上使用k-mean方法进行聚类。该算法为将要到达的若干数据流块维护候选离群点和每个聚类的平均值,以检查发现的候选离群点是否为真实的离群点,而不是采用在数据流聚类中使用的常见方法那样,仅仅维护统计信息。通过比较前一个块的聚类的平均值和当前块的平均值,可以为数据流发现更好的离群点。该算法以增量式使用k-mean聚类方法。
提出了基于距离的最近邻居算法。为了降低计算最近邻居的开销,该算法使用分而治之策略。数据流被分为若干块,这些块再被分为聚类,以降低最近邻居搜索的范围。该算法仅使用少量内存资源,因为算法只要考虑少数的块,在发现候选离群点后还可以丢弃这些块。更进一步的,这些候选离群点还可以在后继到来的数据流块中被确认为真正的离群点。
提出了本地离群点检测算法,使用密度估计来为每个离群点赋予离群度。现有的基于密度的方法存在计算开销过大的问题。本文提出了一个有效的分区算法来发现密度估计方法,并且提出了新的离群度赋值方法来匹配现有的扫描整个表面一次的算法产生的结果。每个块都被划分到安全的候选区域中,然后在每个区域中应用不同策略的离群点检测方法。使用该算法可以在少量的内存中发现高质量的离群点并且能节省大量计算资源。
提出的检测技术已经通过模拟数据和真实数据的试验证明其有效性和效率。