论文部分内容阅读
在传统机器学习中,为了保证训练得到的分类模型具有高准确性和可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签样本数据可能变得不可用,与新来的测试样本的分布产生语义、分布上的缺口。另外,有标签的样本数据往往很缺乏,很难获得而且人工标记费时耗力。为了解决这两个问题,迁移学习研究成为近年来十分重要和具有挑战性的课题。迁移学习是运用已有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。
本文对迁移学习中分类算法进行了研究,由浅入深,由简单到复杂,提出了几种迁移学习分类算法。首先研究了从单个源领域(也叫训练集)到单个目标领域(也叫测试集)的学习算法,然后对多个源领域到单个目标领域的算法进行了研究,继而到更加一般的情况,研究同时处理多个源领域与多个目标领域的学习算法。最后,对本文提出的几个多源跨领域学习算法进行比较。取得的主要成果如下:
1.提出基于混合正则化的无标签领域归纳迁移学习方法。首先,分析了直推式迁移学习(Transductive Transfer Learning)方法桥接精化(Bridged Refinement)中存在的类别比例漂移问题,然后提出归一化的方法使得预测的类别比例接近于实际样本类别比例。更进一步,提出了一种基于混合正则化框架的归纳迁移学习算法。其中包括目标领域分布结构的流形正则化,预测概率的熵正则化,以及类别比例的期望正则化。实验结果表明,1)加入类别先验可以提高桥接精化算法的分类性能;2)本文提出的归纳迁移学习算法优越于其他现有常用算法,同时最后得到的模型可以直接对新来的目标数据进行预测。
2.提出一种有效挖掘词特征聚类与文档类别关联关系的迁移学习算法。虽然文本分类问题中源领域与目标领域数据在原始词特征上分布不一样,但不同数据领域可能共享词特征聚类与文档类别之间的关联关系。非负矩阵分解算法已经广泛运用于文本分类,聚类,模式识别等机器学习领域,而且非负矩阵分解算法可以很好的利用该关联关系,因此本文把非负矩阵分解算法引入到迁移学习领域,提出一种有效挖掘词特征聚类与文档类别关联关系的联合优化框架。为了求解该优化问题,设计了一个迭代算法并从理论上分析了该迭代算法的收敛性。大量实验表明,所提出的算法可以有效解决迁移学习分类问题,并且在知识迁移比较困难的情况下表现更加优异。
3.提出基于一致性正则化的多源跨领域学习框架。在实际应用中,有标签样本往往来自于多个源领域,而且多个源领域之间分布不同但语义相关。因此,如何开发利用多个源领域之间的分布差异性来进行知识迁移,使得在目标领域数据上的分类性能尽可能好?这是一个比从单个源领域学习更有挑战性的研究问题。本文提出了基于一致性正则化从多源领域到目标领域的跨领域分类学习框架。在这个框架下,局部的子分类器不仅考虑在源领域上可利用的局部数据,而且考虑了这些由源领域标签数据得到的子分类器在目标领域上的预测的一致性。更进一步,从理论上分析了一致性正则化框架的有效性。最后,为了处理各个源领域数据在地理上分布的情况,提出一致性正则化框架的分布式实现,可避免收集各个领域数据到中心节点,而只是传递一些统计变量,这在一定程度上减轻了数据信息的隐私性担忧。
4.研究基于生成模型的挖掘多领域之间共性与特性的跨领域分类方法。该项工作对有效挖掘词特征聚类与文档类别关联关系进行了深入研究。基于非负矩阵的迁移学习方法缺乏完整的概率解释,而且很难用到多个源领域和多个目标领域数据。本文进一步提出基于生成模型的有效挖掘多领域之间共性与特性的跨领域分类方法。共性是指与领域数据独立的词特征聚类与文档类别之间的关联关系,而特性是指不同的领域数据用不同的关键词特征来表示同一词概念。因此可以有效开发利用不同领域之间的共性作为知识迁移的桥梁。为了求解该算法,设计了一个EM算法。实验结果表明该算法可以同时处理多个源领域和多个目标领域,而且可以有效解决分布不同性程度较高的迁移学习问题。
5.对多源跨领域学习算法进行比较。该项工作首先扩展基于非负矩阵分解的跨领域学习方法到处理多源领域的情况,然后对基于生成模型跨领域学习算法进行改进。最后进行了系统的实验比较。实验表明,该算法优于传统的监督学习算法,也比以往的跨领域学习方法优越,而且能够处理迁移学习比较难的分类问题,具有较强的迁移学习能力。