论文部分内容阅读
互联网上的数据经常呈现多种视图的表达,例如,网页数据可能包含文本、图片、视频等视图;即使单一类型数据,由于使用不同的特征描述,也可能呈现多个视图,例如图像数据,可以使用像素表示,颜色直方图表示等等。随着这种多视图数据在互联网上的广泛使用,多视图学习引起了越来越多的关注。本文系统地研究基于多视图数据集成的机器学习方法,主要的研究成果总结如下: 1.多视图鲁棒学习。针对数据容易受到噪声或异常点污染的问题,我们提出一种新的多视图鲁棒集成框架,该框架显式地抽取出数据中的结构化噪声,恢复出干净的数据,然后进行一致性融合。我们将发现噪声、去除噪声和多源融合集成到一个统一框架下,并将它应用到多核聚类和聚类集成两个任务中,形成鲁棒多核聚类方法和鲁棒聚类集成方法。实验表明,我们的方法明显优于其他主流的对比算法。 2.多视图嵌入。传统多视图嵌入方法通过学习线性映射,将不同视图的数据嵌入到一个统一的同构空间中。由于使用线性映射,这些方法表达能力有限。针对该问题,我们提出一种新的基于局部线性嵌入的非线性多视图嵌入方法,不仅满足有监督的异构约束,同时保持了同构数据间的流形结构,因而能得到一种更好的数据表示。跨媒体数据实验表明,我们的方法能够得到更好的检索结果。 3.多视图增量式学习。传统多视图学习同时应用所有视图得到一致性结果,因此存在两个问题:(1)可扩展性差,难以处理有大量视图的数据;(2)难以处理流式视图数据,这类数据随时间不断产生新的视图。针对这两个问题,我们提出多视图增量式学习框架,即使用初始的少量视图构造一个初始模型,当新的视图出现时,更新这个模型,并应用它学习新的一致性结果,而不是在所有视图上重新学习模型,从而既解决了可扩展性问题,又可以处理流式视图数据。我们将该增量式学习框架分别应用到谱聚类和支持向量机分类模型,得到了增量式多视图谱聚类学习方法和增量式多视图支持向量机学习方法。实验结果表明,我们提出的增量式方法在保证可扩展性的前提下,其聚类和分类性能接近甚至超过现有主流的多视图学习方法。