论文部分内容阅读
聚类分析是一种无监督的数据分析方法,它基于相似性将样本集划分成簇,使得属于相同簇的样本点比属于不同簇的样本点更相似。聚类分析问题是目前的研究热点,研究成果已经成功应用在模式识别、语音识别、机器学习、工业过程故障诊断、生物信息等方面。针对不同类型的数据集,对应着不同的聚类分析方法,目前有大量的聚类算法被提出,但是并没有一种通用的聚类算法适用于所有类型的数据集。 谱聚类是最近几年发展起来的一种聚类方法,由于其可以针对任意形状的数据集聚类并且取得令人满意的结果,谱聚类算法受到了越来越多学者的关注。谱聚类算法的理论依据是谱图理论,谱聚类算法通过将聚类问题转化为图的划分问题,可以避免聚类过程中收敛于局部最优解的问题,因此,谱聚类算法对比于传统的k-means、c-means算法,可以处理更加广泛的数据集,对于谱聚类算法的研究已经成为聚类问题研究的一个热点研究方向。 已经有多种经典的谱聚类算法被提出,很多针对这些经典谱聚类算法的改进算法也被提出,对于谱聚类算法的研究是一个开放性的问题,目前对于谱聚类算法的研究方向主要有:相似性计算方法的研究、最优聚类数目确定方法、特征向量选择方法、聚类评价指标选择、大数据领域应用、与其他数学方法结合问题等。本文将首先介绍经典的谱聚类算法,并详细讨论特征向量选择方法、相似性计算方法、与其他数学方法结合问题、以及在图像分割领域的应用。 本文的研究内容包括: (1)谱聚类的特征向量与聚类关系分析 从理论上论述如何选择特征向量,引入了谱聚类算法的扰动分析理论,分别从理想情况与一般情况两个方面介绍了谱聚类的扰动分析理论,得出了两种情况之下如何从特征向量中提取聚类信息,给出了两种情况下的聚类算法,并提出基于权矩阵的谱聚类算法。将以上研究成果应用于模态划分问题以验证理论分析的有效性,提出丫基于谱聚类特征向量分析的模态划分方法,给出稳态多模态过程划分算法与动态多模态过程划分算法。最后设计实验验证提出的模态划分方法的有效性,也间接证明谱聚类特征向量分析理论的正确性。 (2)基于密度相关距离的自整定谱聚类算法 在谱聚类算法应用中,最常用的相似度矩阵计算方法是使用高斯核函数,经典的谱聚类算法如NJW算法等都使用这种方法,在一些聚类问题中,使用高斯核函数可以获得令人满意的结果,但是对于多重尺度数据集等复杂的聚类问题,使用高斯核函数计算相似性将不能得到满意结果,目前针对高斯核函数很多改进算法被提出。本文将针对高斯核函数做出改进,提出基于密度相关距离的相似度计算方法,并给出参数自整定的解决方法。新的相似性计算方法可以对参数进行自整定,避免人共选取核参数,而且对于多重尺度数据集等复杂聚类问题可以得到令人满意的聚类结果,最后设计实验验证本文提出基于密度距离的相似性计算方法的有效性。 (3)基于HMM的谱聚类图像分割算法 基于聚类分析的图像分割问题,往往需要对大规模数据集进行聚类,由于谱聚类算法需要求任意两个像素点之间的相似性,这需要消耗大量内存,所以传统的谱聚类算法在处理图像分割问题时会受到算法复杂度的制约。本文将提出一种新的图像分割框架,与HMM算法结合,首先使用HMM算法将原始图片划分为不同的组件,然后使用本文对于谱聚类算法的研究成果,将组件合并为最终的图像分割结果。重点研究了HMM预分割组件个数的确定算法,组件的合并算法。最后通过设计实验验证新的图像分割框架的有效性。