论文部分内容阅读
在当下很多机器学习任务中,数据存在形态正经历着由单源数据向多源数据进行转变的过程。数据形态的变化使得传统的机器学习模型不再适用,进而研究适用于多源数据的新模型显得尤为迫切。本文把这种针对多源数据新模型的研究统称为多源数据融合。在已有研究文献中,两种最常见的多源数据形态分别是多分布多源数据和多特征集多源数据,而针对这两种数据形态最常用的两种多源数据融合策略分别是迁移学习和协同学习。本文针对不同的多源数据形态提出了三个新的多源数据融合模型,较之于单源数据模型和已有的多源数据模型,所提算法在理论和性能表现上都有显著提升。如下为本文针对多源数据融合问题的三个主要工作:1)第一个工作是针对多特征集多源数据的聚类新方法研究。已有的此类算法使用的协同聚类策略基本都是基于原型聚类,谱聚类等算法的改进,比较适用于样本间距离可度量的数据。而对于共现数据来说,数据中的值代表的是样本和特征的共现频数,从而每个源的数据可以看作一个已知的联合概率分布。基于此假设,本文提出了一种针对多特征集共现数据的多源数据信息理论协同聚类算法,所提算法将整个问题在信息论的框架下求解。从而使得聚类过程利用的并非样本之间的距离信息,而是样本和特征的概率分布信息。实验结果证明了所提算法对于多特征集多源共现数据的有效性。2)第二个工作是针对多分布多源数据的表示学习新方法研究。此类算法的核心思想是通过迁移策略对多源数据的特征进行分布匹配,其中最核心的内容就是特征变化方法的选择。已有算法选择的基本都是基于核函数的特征变化方法,它们的缺陷是一方面对于不同的数据集核函数的选择是个难题,另一方面基于核函数的特征变化往往缺乏可解释性。为了解决上述问题,本文引入了模糊系统,提出了一个基于模糊系统进行特征变化的多源数据迁移表示学习算法。所提算法将传统用于回归任务的模糊系统当做了一种特征学习方法,一方面令特征变化过程的可解释性更强,另一方面避免了核函数的选择。而且所提算法能够根据数据集复杂程度可缩放地选择不同规模的模糊系统进行特征变化。大量的实验验证了所提算法在可解释性和迁移性能上较之于已有方法的优势。3)第三个工作是针对以往研究中极少关注的一种新的多源数据形态。多特征集多源数据最重要的特点就是多个源的数据是以配对形式存在的,而多分布多源数据并没有上述要求,只是每个源的数据分布不同。在实际应用中存在着一种融合了上述两种特点的多源数据形态,即多分布多源数据之间也存在着配对样本。本文针对这种数据形态提出了一种新的多源数据融合模型,所提算法同时利用了迁移学习和协同学习策略,充分利用了此种多源数据中的有效信息。在这种包含配对样本的多分布多源数据上,大量的文本和图像实验验证了所提算法较之于已有算法表现出了显著优势。