论文部分内容阅读
随着多视图数据越来越多,如何将传统的聚类算法应用于多视图数据也被广泛地研究。其中,K-means聚类算法因其在各种类型数据集上的有效性和高效性而被广泛地利用。在K-means聚类算法的基础上,本文设计了一种基于内部约束的多视图K-means聚类算法(Internal Constrained Multi-view K-means,简称ICMK),该算法可以自动形成多视图交互结构,也能够得到更高质量的聚类结果,同时不需要任何相关的领域知识。首先,ICMK算法根据多视图数据的特性以及本文新提出的“视图质心”、“上帝质心”,自动形成多视图交互结构。该步骤的基本思想如下:在对多视图数据进行无监督聚类的时候,不同的视图相当于从不同的角度对样本进行“观察”或者“描写”,可以认为大多数视图看到的是正确的,即“少数服从多数”。但如果大多数的视图与聚类的目标无关甚至相反,该方法可能不适用。在这一步中会根据视图数据的特点,利用K-means聚类,将视图进行线性的排序,并赋予它们等级;排序中处于第一位的(也就是等级最高的)视图,可以认为是一般多视图聚类方法中所指的主视图。通过在标准数据集上的评估,同时与多视图数据集的实际视图关系进行对比,验证了该算法的有效性。其次,本文在传统无监督K-means聚类算法的基础上,通过“标记置信样本”、“种子样本的修改累积”等功能,实现了对于该算法的两种改进的算法,即:改进的无监督K-means聚类、改进的半监督K-means聚类。通过在标准数据集上的评估,同时与传统的无监督K-means聚类算法的结果以及改进的算法所预想的结果进行对比,验证了改进的无监督K-means聚类算法和改进的半监督K-means聚类算法的正确性。最后,在自动形成的多视图交互结构的基础上,通过利用改进的无监督K-means聚类算法、改进的半监督K-means聚类算法,在视图之间传递、修改、积累样本置信度,所有样本的置信度组成了置信矩阵。置信矩阵代表了样本的聚类结果。为了验证该算法的有效性,在三个标准数据集上对该算法进行了评估,同时与一些其它方法进行了对比。实验结果表明,ICMK算法能够得到更高质量的聚类结果。值得一提的是,该算法在WTP标准数据集上的提升效果非常大。同时,根据算法中参数的特点以及上一步中对标准数据集的聚类结果分析,本文继续设置了实验,以便对如下问题得到启发:ICMK算法中如何选择最优参数。