论文部分内容阅读
随着信息技术的发展,出现了一种新的数据类型——流数据,它是一种顺序、量大、快速、连续到达的数据序列,存在于人们生产和生活的各个领域,如网络监控、气象测控、股票交易、火车票售票系统和传感器网络等。与传统数据相比,流数据具有实时到达、数据量大和不易预测等特点,这决定了很多传统数据集上的挖掘算法无法应用于流数据,它要求算法能在有限的空间和时间内实时处理数据。因此,研究针对流数据的挖掘算法具有十分重要的现实意义。离群点数据广泛存在于现实应用中,如:银行交易数据中,少量的离群数据可能预示着金融欺诈行为;疾病监控类信息中,实时监控离群数据可以及时发现疾病的变异或预防重大疾病的爆发;在机场安检系统中,及时检测离群数据可以避免机器故障等带来的危害;网络评论中,有效检测出离群数据可以及时避免恶意信息的传播。目前,离群点检测(OutlierDetection,OD)研究已取得一些较好的成果,主要有基于统计、偏离、聚类、距离、密度等的检测技术,但难以应用于检测精度和实时性要求比较高的场合,如流数据序列中的离群点检测。本文针对这一问题展开如下三方面研究:(1)通过对流数据挖掘和离群点检测方法的分析,结合特异性因子(Peculiarity Factor,PF)和滑动窗口,给出了基于窗口的离群点定义;(2)分析窗口内数据的特点的基础上,提出了基于最优窗口的离群点检测算法,设计了最优窗口学习方法,用于流数据离群点检测,并在多个数据集上进行实验,结果表明所提方法有效可行;(3)探索了流数据离群点检测方法在观点挖掘中的应用。