论文部分内容阅读
作为一种重要的数据挖掘技术,聚类自发将相似的物体划分在一起,而将差别较大的物体划分开。传统的聚类算法基于无监督学习机制,仅依据某种特定的距离或相似度进行划分。然而,无监督学习机制使传统的聚类算法不能融合和满足用户提出的要求,并且聚类结果常常难以理解,准确性和稳定性也较低。为了改善、解决这些问题,许多研究者提出了半监督聚类算法。通过少量先验知识的融合即可有效辅助聚类,提升用户的满意度及聚类划分的可理解性。
作为一种重要的先验信息,成对约束描述了物体间关联和非关联关系。相比于标签,成对约束与聚类的定义更加吻合。在实际应用中,除了给定成对约束这种实例层知识,用户往往还会提供属性层知识。作为一种有效的属性层知识,属性排序能够表示属性之间的重要性程度差异。通过融合属性排序形式的属性层知识,可使重要属性的作用变得明显,从而获得令人满意的结果。
在实际中,同时利用这两种不同种类的先验信息,往往能够得到更好的聚类效果。为此,本文探讨了融合实例层和属性层两种知识进行半监督聚类的问题,主要工作包括:
(1)提出了一种基于测度学习策略融合成对约束形式的实例层知识和属性排序形式的属性层知识的半监督聚类算法。通过构建优化问题同时融合实例层和属性层知识,利用优化问题求解得到属性权重、获取新的距离度量,最终采用新的距离度量对数据集进行划分。实验结果证实了该算法的有效性。
(2)提出了一种基于属性选择的实例层和属性层知识融合的半监督聚类框架。该框架按先后顺序融合成对约束形式的实例层知识和属性排序形式的属性层知识。首先,基于测度学习策略融合成对约束以得到初始属性权重;然后,依据初始属性权重进行属性选择,并添加属性排序,采用基于距离度量和软约束的策略学习两种知识。实验结果证实了该框架优于仅融合一种知识(实例层知识或属性层知识)的半监督聚类算法,且优于基于测度学习策略融合实例层和属性层知识的半监督聚类框架。
(3)提出了一种融合成对约束形式的实例层知识和重要词形式的属性层知识的半监督文本聚类方法。采用基于距离度量和软约束的策略,按先后顺序融合两种知识辅助文本聚类。实验结果证实了融合两种知识可有效辅助文本聚类。