论文部分内容阅读
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。这时,数据挖掘技术应运而生。数据挖掘又称数据库中的知识发现,是指从大型数据集中发现有趣的、有用的且预先未知的知识的过程。数据挖掘是数据库研究最活跃的领域之一,通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息,这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和边界模式检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。而聚类和边界模式检测算法的研究也已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类是数据挖掘的一项重要内容,它把没有类别标记的样本按照某种准则划分为若干类,使类内样本的相似性尽可能大,而类间样本的相似性尽可能小。它是一种非监督的学习方法。传统的基于密度的聚类算法DBSCAN可以发现不同大小、任意形状的聚类,但算法的高复杂度限制了它的应用。传统的网格聚类算法具有很高的效率,但是精度不高。本文提出了基于网格的高效DBSCAN算法GbDBSCAN,综合了基于密度聚类算法和网格聚类算法的优点,使用网格划分和数据分箱技术,提高DBSCAN算法的效率。并且,算法能够识别和处理边界点。实验结果表明,GbDBSCAN在不降低DBSCAN聚类质量的前提下,大大提高了DBSCAN算法处理低维数据集的效率。在现实应用中有着重要意义的边界模式检测技术对数据挖掘有着重要的意义。为有效地检测聚类边界点,本文提出了基于统计信息的边界模式检测算法BOURN(Boundary Pattern Detection based on Statistics Information)。该算法根据数据对象的k距离统计信息设定邻域半径,再根据对象邻域范围内邻居的k距离统计信息寻找边界点。实验结果表明:BOURN算法可以有效地检测出任意形状、不同大小和不同密度聚类的边界点,并能有效地消除噪声。