论文部分内容阅读
近些年来,计算机技术得到了迅猛的发展,相应的,也带动了数据库领域和信息技术领域相关技术的飞快升级。数据挖掘技术被广泛的应用于天气预报、疾病分析、信用卡欺诈分析、股票市场分析等各个领域之中。虽然传统的异常点检测方法已经可以完成大多数数据集的检测任务,但是有些时候,传统的异常点检测方法考虑的方面可能不全,这就会影响异常点检测的效果和精度。模糊c-均值聚类(简称FCM)算法与其他的聚类算法类似,具有一定的数据聚类能力,但是在利用FCM算法进行数据聚类时,会存在一个不可避免的问题,异常数据应与其一个范围之内邻域数据的分布相关,但这种算法却没有考虑邻域的影响。本文通过对FCM算法的目标函数进行改进,得到了一种考虑了邻域因素的邻域-模糊c-均值算法(简称NFCM),并分别应用改进前后的算法对数据集进行分类。局部离群因子(简称LOF)算法是一种已经十分完善的基于密度的离群点检测方法,但其仍然存在上述没有考虑邻域影响的缺点,本文中将对基于密度的LOF算法进行改进,对数据集进行分类后,根据数据对象的分类情况,通过改进其可达距离和可达密度的形式,得到考虑了邻域对检测结果影响的模糊-LOF算法(简称NFu-LOF),并分别应用改进前后的算法对数据集进行检测和分析。本文中选取四个数据集,首先分别应用模糊c-均值(FCM)算法、改进的邻域模糊c-均值(简称NFCM)算法对这四个数据集进行数值试验,通过数值试验的结果对比分析改进后的邻域模糊c-均值(简称NFCM)算法的召回性和优越性。然后将分别应用LOF算法、改进的模糊LOF算法对其中两个数据集进行数值试验,通过数值试验的结果对比分析改进后的模糊-LOF算法的准确性和优越性。