论文部分内容阅读
离群模式挖掘(Outlier Derection and Analysis)是知识发现和数据挖掘领域中备受关注的研究方向和最为活跃的研究主题之一,用于从海量数据中发现那些与众不同的、远离常规数据对象的离群数据,并对这类数据展开进一步的分析。离群数据与常规数据有着明显的差别,既有可能是在数据形成过程中出现的错误所导致,也有可能是一类全新的数据且蕴含着极重要的信息,代表了一种新的模式和知识的出现。离群模式挖掘除了具有重要的理论研究价值以外,还具有巨大的应用前景和潜在的经济价值,包括医学诊断分析、欺诈检测、入侵检测、图像处理、生物信息学等领域。
近年来,离群模式挖掘处于飞速发展阶段,其中基于局部特征的离群点检测方法(Local Outlier Detection)日益成为主流方法之一。该类方法通过分析数据与其邻域间的上下文关系来区分正常数据与离群数据,能够更好地适应疏密不均的大规模复杂数据集,避免了传统离群模式挖掘方法需要假设正常数据服从的分布模型等缺陷。与基于全局特征的方法只能标记数据是否为离群数据相比,该类方法用连续的离群特征值(OutlierScore)作为软标签来表示数据为离群数据的可能性,有利于后续的数据处理与分析,如Top-N离群点分析等。本文主要围绕基于局部特征的离群点检测算法及其在入侵检测和图像处理领域的应用展开研究,主要工作包括:
①提出了一种基于局部核密度估计的无监督离群模式挖掘算法。经典的基于局部特征的离群点检测方法通过分析比较数据在特征空间内的局部密度和其邻域密度来计算数据的离群特征值。大部分基于局部密度估计的算法包含两个缺陷:局部密度估计不够准确、不够平滑和算法性能严重依赖于数据邻域的范围参数。为此,我们提出了基于局部核密度估计和加权邻域密度估计的离群模式挖掘算法来解决上述两个问题,并且针对离群模式挖掘的特点提出了一个新的核函数:Volcano Kernel。
②提出了一种基于局部核回归模型的多层次离群模式挖掘算法。我们从理论上对离群模式挖掘问题进行抽象描述,将无监督的离群模式挖掘问题转化为有监督的回归模型学习问题。结合信息传递机制和无监督的局部核回归模型,我们提出了多层次的离群模式挖掘算法,实现了全局视角和局部视角的融合,大幅度提高了离群特征值计算的准确性。同时,我们提出了基于上下文关系的核函数,从多个角度衡量数据间的相关性来提高局部核回归估计的鲁棒性。
③提出了基于排序融合的集成式离群模式挖掘算法。我们提出了用于Top-N离群点检测的集成式离群模式挖掘的基本框架,并分别提出了基于离群特征值融合和基于次序信息融合的集成式学习算法。基于离群特征值的融合算法通过将离群特征值转化为数据为离群点的后验概率值实现了不同类型离群特征值的归一化处理,并融合不同离群点检测模型得到的Top-N离群点列表得到更加准确的排序结果。基于次序信息的融合算法采用Distance-based Mallows Model来描述最优序列和多个由基本离群点检测算法得到的观测序列之间的概率关系,进而通过无监督EM算法求解该概率模型和最优序列。
④提出了一种可在线学习的动态分布式入侵检测系统。入侵行为检测是离群模式挖掘在网络信息安全领域的重要应用。为了满足当前网络信息安全对在线学习、实时检测、分布式处理的新要求,我们提出了全新的基于参数模型的动态分布式检测系统,包括局部检测模型构建和全局检测模型构建两个部分。我们采用基于混合高斯模型的贝叶斯分类器构建用于集成式学习的弱分类器,并提出基于竞争规则的在线Adaboost集成式学习算法来构建局部检测模型;提出基于粒子群优化和支持向量机分类器的有监督学习算法来融合各个分布式站点的检测模型,构建更加均衡、更加全面的全局检测模型,以提高整个分布式入侵检测系统的性能。
⑤提出了基于离群模式分析的图像显著性检测算法。图像显著性检测通过模拟人类的视觉注意机制来提取图像中的显著性区域,以便于进一步的图像理解和分析。当前流行的图像显著性检测算法大多只能将部分显著性区域从图像背景区域中提取出来,如显著性物体的轮廓等。为了解决这个问题,我们从离群模式挖掘的角度出发,将图像的显著性区域视为离群数据,将图像的背景区域视为正常数据,提出了基于颜色空间内局部密度估计的图像显著性映射图构建算法和基于图像平面空间的显著性特征值传播算法。该算法融合图像的视觉特征空间分布信息和二维平面空间分布信息来更加均匀地突显整个显著性区域,从而能够更加准确地区分图像显著性区域与背景区域。