论文部分内容阅读
聚类分析是探索未知数据内在结构的一种统计分析方法,起源于分类学,其重要性及在其他研究方向的交叉性得到研究者们的一致肯定。聚类分析是一种把数据集划分成有意义的或者有用的组/簇的技术,它已经成为数据挖掘、模式识别等领域的主要研究内容。目前,聚类算法在彩色图像分割、机器视觉、文本聚类、数据压缩和信息检索等领域已经得到了广泛的应用。另外,聚类还可以应用于多关系数据挖掘、时空数据库应用、序列和异类数据分析、生物信息学以及市场营销等学科。现存的划分聚类算法对孤立点和噪声敏感,严重影响到算法的稳定性。另外,由于数据的内在结构日趋复杂,对聚类的质量也提出了更高的要求。本论文针对划分聚类存在的问题进行了研究,主要进行了以下几个方面的工作:(1)聚类分析是在一个合理的模型框架内,对数据的内在结构进行探索的过程。然而,现存的部分模型不能很好地描述划分聚类问题。本论文首先提出一种新的聚合场模型,定义不同数据对象的特征,以此为基础设计了几种去噪和处理孤立点的策略。随后设计实现了一种基于聚合能量的改进K-Means算法——AEKMA,为K-Means提供更好的初始质心。实验结果表明,AEKMA能够为KM算法进行较好的初始化,改进算法的性能超过K-Means算法。(2)在深入研究聚合场模型原理的基础上,设计实现了一种全新的基于数据竞争的划分聚类算法——DCA。DCA认为所有的数据对象都可以作为潜在的代表点,通过数据对象间的竞争最终筛选出最适合作为代表点的数据对象的集合,随后指导完成聚类过程。实验结果表明DCA性能优越,能够去除孤立点带来的干扰,聚类结果稳定、有效,与其他常用的划分聚类算法相比较具有明显的优势。(3)对DCA在文本数据上的应用进行深入的研究,发现如果DCA直接应用于文本数据往往不能得到理想的聚类结果。其原因在于文本数据大多非结构化、空间结构复杂、高维稀疏,存在维数灾难现象。所以,优化和改善文本的内在结构是解决文本聚类的一个新思路。谱聚类集成算法本质上是完成数据从高维到低维的谱映射,可以获得空间结构相对简单的原数据的低维嵌入,为聚类算法提供空间结构简单的数据。据此,设计实现了一种基于数据竞争的文本谱聚类集成算法——DCCESA,实验结果表明DCCESA获得了比常用聚类集成算法更优越的结果。该方法不仅聚类质量高,而且算法的运行效率也较好,是解决文本聚类集成问题的有效方法。(4)进一步研究DCA在图像分割领域中的应用,由于DCA时间复杂度为O n2,不太适合处理大图像。但是,一系列的实验表明DCA虽然在一定的软硬件条件下不能胜任大图像分割任务,但是在小图像上却能够获得较好的分割结果。为了扩展DCA在大图像的处理能力和分割质量,首先采用Mean Shift算法对大图像进行预分割,随后引入谱聚类集成思想对Mean Shift预分割后的图像进行处理,以此设计实现了一种结合MeanShift和DCCESA的图像分割聚类新算法MS-DCCESA。实验结果表明MS-DCCESA能够获得比其他常用的算法更好的分割效果,验证了本论文提出算法的有效性。