论文部分内容阅读
异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式的数据,它往往代表一种偏差或者新模式的开始,因此对异常数据的识别会比正常数据更有价值。异常数据挖掘作为数据挖掘的重要分支之一,已广泛应用于故障诊断、入侵检测、欺诈检测、新颖文本挖掘及图像处理等领域。迄今为止,研究人员已提出了许多不同的异常数据挖掘算法,这些算法能够有效地发现数据集中的异常数据,但在实际应用中,面对复杂的应用环境这些算法往往会不同程度地存在计算时间效率低下、需要过多的人工干预、以及参数难以选择的缺点,本文针对已有异常数据挖掘算法在实际应用中的不足,从不同角度研究了这些算法并提出了改进。论文的主要工作如下:1.针对LOF算法在动态增量数据库环境中,进行二次异常数据挖掘,需要重新计算所有数据对象的局部异常因子,计算时间较长的缺点,提出了一种基于聚类和快速计算的异常数据挖掘算法。该算法利用DBSCAN算法在原数据集聚类的基础上仅对异常簇中的数据对象计算局部异常因子,当新增数据对象到达时,为避免调用DBSCAN算法重新聚类提出了一种改进的聚类算法,并在该算法的基础上,判断聚类簇中的每个数据对象是否是异常数据对象;最后仅对新增的异常数据对象和原异常簇中受影响的数据对象重新计算局部异常因子。实验结果表明,该方法在动态增量数据库环境下,不仅比LOF与lncLOF算法计算时间效率高,而且提高了挖掘异常数据的精度。2.聚类方法作为一种常用的异常数据挖掘方法已应用于入侵检测中,其中k-means算法作为一种经典的划分算法在入侵检测中得到了广泛地应用,但是该算法要事先指定聚类数目以及易陷入局部最优,为了避免上述不足,本文提出了一种自动确定聚类数的算法。该算法首先通过多次执行样本抽样技术,用最大最小距离算法产生一系列较优的聚类中心和聚类数目,作为差分进化算法的初始种群,然后在种群进化过程中以最优种群个体为指引,动态调整个体聚类中心和聚类数目,并且利用差分进化算法的全局寻优能力和k-means算法的局部搜索能力,对聚类中心和聚类数目同时进行优化,从而得到最佳的聚类划分和聚类数目。在该算法的基础上,还提出了一种异常数据检测方法,通过对KDD CUP1999网络入侵数据集的仿真实验结果表明,该算法具有较好的入侵检测效果,能够有效地检测出网络中的入侵数据。3.变压器异常故障诊断作为异常数据挖掘的一类实际应用,其关键是能够从变压器油中溶解气体数据中发现异常数据,并能识别这些异常数据的类型,支持向量机作为一种分类方法已用于变压器异常故障诊断中,但是该方法对参数选择比较敏感,为了获取最优分类参数,本文提出将萤火虫算法来优化支持向量机的参数,并建立了基于二叉树的变压器异常故障诊断多级分类模型,通过仿真实验表明该方法具有较好的故障诊断效果,优于传统的国际IEC三比值法和神经网络的方法。