论文部分内容阅读
聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。它把一个没有类别标记的样本集按某种准则划分成若干个子集,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。许多实际应用中,可以将属于同类的数据样本作为一个整体来处理。目前,聚类分析已经广泛应用于图像分割、模式识别、机器视觉等领域。聚类分析中,最基本的问题便是样本间相似性的度量,经典的聚类算法中,普遍采用欧氏距离作为相似性度量。这种相似性度量,对形状为凸的数据集的聚类具有良好的性能。然而,对于一些具有点对称性的,交叉的,重叠的数据集,欧氏距离的效果较差。由于聚类问题的复杂性,对于这种问题,现在还没有完全的解决办法。针对具有中心对称性形状的数据的聚类问题,本文基于克隆选择原理,提出三种改进的基于点对称距离的克隆选择聚类算法。主要包括:(1)基于克隆选择原理及点对称距离提出了基于点对称距离克隆选择聚类算法(Point Symmetry-based Clonal Selection Clustering Algorithm, PSCSCA)。该算法不但利用克隆算子能将全局搜索和局部搜索有机结合的特性,而且通过在经典的克隆选择算法框架中,引入免疫疫苗算子实现了在线自适应动态获得先验知识和个体间的信息共享,提高算法多样性和加快收敛速度。同时算法通过对基于点对称距离的亲合度函数的优化,实现对具有中心对称的数据的有效聚类。(2)基于拉马克学习机制以及克隆选择原理,提出了克隆选择自动聚类算法(Clonal Selection Automatic Clustering Algorithm, CSACA)。通过引入拉马克学习算子来改进现有克隆选择算法的局部搜索能力。针对具有中心对称性的数据集的自动聚类问题,利用改进的克隆选择算法对基于点对称距离的聚类有效性评价函数的优化在实现获得数据最优类别数的判别同时获得最优划分。(3)基于量子并行机制以及克隆选择算法,提出了基于点对称距离的量子克隆选择聚类算法(Point Symmetry-based Quantum Clonal Selection Clustering Algorithm, PSQCSCA),针对具有中心对称性的数据集的自动聚类问题,通过将量子并行机制引入克隆选择聚类算法,充分利用量子染色体上携带着多个状态的信息,在保证种群的多样性同时,能有效防止早熟,从而获得较好的聚类精度。