论文部分内容阅读
聚类技术作为机器学习领域中的重要技术之一,已经被广泛地用于解决不同领域的实际问题,聚类可根据对象间的相似性把分布未知的数据集划分为不同的簇,并遵循类内(intra-class)对象相似度最大而类间(inter-class)对象相似度最小的原则。然而,大多数用于解决聚类问题的算法是无监督的方法,无法有效地利用已知的先验知识;另外,由于数据结构的复杂性以及聚类算法优化准则的多样性,单一的聚类算法仍然难以计算出样本集的实际分布结构。为提高聚类算法的稳定性,相关学者提出了聚类集成技术,而传统的聚类集成方法不能利用先验知识来指导聚类集成过程,为更好地提高聚类集成的性能,半监督聚类集成技术应运而生。近年来,半监督聚类技术因其充分地利用了先验知识来提高聚类的性能在聚类领域获得了广泛的关注,尤其是对象间的Must-Link和Cannot-Link成对约束已经广泛地应用于半监督聚类学习中。虽然成对约束包含的的潜在信息可以提高聚类的准确率,但是约束集合的数量和质量往往决定了算法性能能够提升的程度。本文通过组合自动和主动的约束选取方法提出了一种有效地提高约束质量和扩展约束集合的方法,该方法基于某个簇中大部分数据对象是核心对象以及少部分对象是边界对象这一特征来构造约束选取方法,因此,在核心对象之间考虑使用自动的约束选取方法,而在边界对象间使用主动的约束选取方法。实验结果表明,本文提出的混合约束选取方法在选取高质量的约束信息方面有较好的竞争优势,选取的约束可以明显地提高聚类方法的准确率。聚类集成技术可以有效地提高聚类算法的性能,通过融合有差异性的聚类结果,从而得到更加准确和稳定的划分结果。传统的聚类集成方法没有有效地利用先验知识来指导集成过程,本文基于有限混合模型的集成方法提出了一种半监督聚类集成模型,在混合模型集成的EM迭代过程中根据类标签来优化计算方法,将类标签信息用于指导EM方法从而提高算法的性能。实验结果表明,与不加入先验知识的混合模型集成方法以及其它无监督聚类集成方法相比,该方法能有效地提高聚类的质量。