Detecting Outliers for Data Stream Under Limited Resources

来源 :中山大学 | 被引量 : 0次 | 上传用户:naizhi1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个令人兴奋而且生机勃勃的研究领域,尤其是数据流挖掘,近年来也已经得到了广泛关注。由于数据流的特点是时变和实时响应,因此现有的挖掘算法无法直接应用于数据流。因此,针对数据流挖掘领域中的各个方面,例如:离群点检测、分类等,研究人员纷纷提出了更快、更有效的算法。一些典型的应用,如欺诈检测、网络流量监控、电话流量分析、数据管理、Web搜索和信用卡消费记录监控等,均需要连续挖掘大量数据流,以便发现最新的模式和离群点,而这些挖掘结果对于及时的战略决策是至关重要的。在数据流的离群点挖掘研究中面临着许多挑战,首先是设计适用于数据流的快速、轻型算法,利用有限存储空间实现对数据单遍扣描。由于数据流高速、时变的特征,带来的另一个挑战是需要迅速检测出概念变化和数据分布的改变,并及时适应新的数据特征。最后,现有数据流挖掘方法保存了最近数据的一个快照。   因此,本文调研并分析了大量的离群点检测方法,例如:基于聚类的方法,基于最近邻居的方法,基于密度的方法,并在此方面提出了一些新的有效算法,取得了一定的成果。本文的主要工作和创新性成果如下:   提出了基于聚类的离群点检测算法。该算法将数据流划分为若干块,在每个块上使用k-mean方法进行聚类。该算法为将要到达的若干数据流块维护候选离群点和每个聚类的平均值,以检查发现的候选离群点是否为真实的离群点,而不是采用在数据流聚类中使用的常见方法那样,仅仅维护统计信息。通过比较前一个块的聚类的平均值和当前块的平均值,可以为数据流发现更好的离群点。该算法以增量式使用k-mean聚类方法。   提出了基于距离的最近邻居算法。为了降低计算最近邻居的开销,该算法使用分而治之策略。数据流被分为若干块,这些块再被分为聚类,以降低最近邻居搜索的范围。该算法仅使用少量内存资源,因为算法只要考虑少数的块,在发现候选离群点后还可以丢弃这些块。更进一步的,这些候选离群点还可以在后继到来的数据流块中被确认为真正的离群点。   提出了本地离群点检测算法,使用密度估计来为每个离群点赋予离群度。现有的基于密度的方法存在计算开销过大的问题。本文提出了一个有效的分区算法来发现密度估计方法,并且提出了新的离群度赋值方法来匹配现有的扫描整个表面一次的算法产生的结果。每个块都被划分到安全的候选区域中,然后在每个区域中应用不同策略的离群点检测方法。使用该算法可以在少量的内存中发现高质量的离群点并且能节省大量计算资源。   提出的检测技术已经通过模拟数据和真实数据的试验证明其有效性和效率。
其他文献
随着海洋技术的发展和海洋工作的不断深入,海洋数据快速增加,同时数据源也愈加丰富,数据类型变得异常复杂。因此,为了实现对海洋数据的集中、有效的管理,能够快速准确地提供各种服
现在互联网上的网页数目与日俱增,速度发展之快,始料未及。使得人们在摆脱了信息匮乏的困境之余,又陷入了“信息过量”的境地。由于从互联网的海量信息中寻找有用知识的信息
客观世界是不断变化和发展的,而衡量软件好坏的一个重要的标准是软件是否具有自修正能力。为了适应Internet开放环境和用户需求的不断变化,软件系统需要不断地进行自我调整,
协作学习是一种多人学习策略。为达到一个共同的学习目标,多名学生通过互助、合作、面对面讨论等方式进行协作学习。随着图形用户界面的出现和网络技术的迅速发展,计算机已成
随着数据库与信息技术的深入和发展,信息系统面临许多新的应用和新的需求,对时态信息处理的需求越来越迫切。时态信息处理已成为许多新一代数据库与信息系统的关键技术,其中,针对
基于SOA(Service Oriented Architecture)的架构设计把原有的功能封装成服务,以服务或服务组合的形式组成业务流程,提高了已部署系统的灵活性,同时避免了因为业务变化而重新构建
现代物流的日益增长要求集装箱码头的货物周转速度越来越快,岸吊作为操作集装箱必不可少的工具,理所当然地要提高操作速度。岸吊的主要工作是将各种规格不等的集装箱从货船上
人脸检测问题是计算机视觉领域的研究热点,具有十分重要的理论研究价值和实际应用价值。在理论研究与实际应用场景中,人脸检测问题还面临着不少的挑战,例如不同姿态、光照、遮挡
Ad Hoc网络是一个多跳的、自组织、无中心的网络,由一组带有无线收发装置的移动终端组成,无需任何固定的基础设施便能实现网络的快速部署,因此适用于救援、会议、探险、军事
随着语义Web的发展,利用已有的数据资源构建本体受到越来越多的重视。资源描述框架(RDF)及其模式语言(RDF Schema)在语义Web中占有非常重要的地位。目前,RDF(S)已被广泛地应