论文部分内容阅读
近年来,随着现代科学技术与信息技术的飞速发展,积累了隐藏着有价值信息的海量数据。为了充分利用这些数据,数据挖掘技术成为一个重要的研究领域。数据挖掘的主要功能是从大量的、完整性不足的的数据集中,找出人们无法预知的、但又极具价值的知识。离群点检测是数据挖掘的一个非常重要的研究分支,其主要功能是从庞大的而复杂的数据集中提取与主流数据(正常数据)有着极大区别同时又属于极少数的数据。离群点检测在人们的生产生活中有着非常广泛的应用,如医疗诊断分析、气象研究等。目前研究人员已经提出了大量的离群点检测算法。如,基于聚类的离群点检测算法,基于统计的离群点检测算法等。然而现有的大多数离群点检测算法都具有时间复杂度高的缺点。于是,研究学者们又开发了许多改善算法性能的技术,如,剪枝技术。剪枝非离群点可以减小目标数据集的大小,从而有效降低算法的时间复杂度。本文为了改进LDOF算法的缺点,提出了一个基于多重聚类的局部离群点检测算法PMLDOF。该算法既可以降低离群点检测的时间复杂度,又可以避免剪枝过程中对离群点的错剪,同时通过剪枝大量非离群点降低了检测精度对最近邻参数k的敏感性。具体而言,本文的主要研究工作如下:①介绍了离群点检测的研究背景及离群点检测的国内外研究现状。②对离群检测进行了较为详细的分析,总结了各种算法的核心思想和各自的适用范围。全面系统地介绍了集成学习,重点讨论了集成学习的核心思想和所用的相关技术。③为了改进局部离群点检测算法LDOF时间复杂度高和对最近邻参数k的敏感的缺点,提出了基于DBSCAN剪枝的局部离群检测算法PLDOF。但是,PLDOF却存在错误剪枝离群点的缺点。为了克服此缺点,本文引入了多重聚类的思想,利用多重聚类可以对簇的边缘稀疏区域进行筛选处理的特点,提出一种基于多重聚类的局部离群点检测算法PMLDOF。④在对多重聚类进行集成整合前,必须解决不同聚类划分间逻辑等价簇不匹配的问题。本文分析了不同聚类划分间聚类不匹配的各种情况,提出了一个解决此问题的方法,并在正文中给出了该方法的详细描述。⑤对PMLDOF算法的性能进行了理论分析,并在模拟数据集和真实数据集上对该算法的有效性进行了验证。⑥合理地总结了本论文所做的研究工作,并简单介绍了下一步的研究工作。