论文部分内容阅读
传统机器学习技术必须建立在训练数据集和测试数据集来自同一分布的样本集的假设前提下。若测试数据集数据分布发生改变,那么就需要重新训练预测分类器以适应这种变化。然而,新的训练数据集的获得却需要付出很高的代价,并且完全丢弃已有的训练数据集也是一件非常浪费的事。迁移学习方法通过利用已有源领域数据集的可迁移性知识辅助目标领域预测分类模型的建立,减少了目标领域预测模型建立对于目标领域带标记数据的需求。另外,迁移学习方法的分类效果在很大程度上依赖于源领域与目标领域之间的可迁移性关系,而多源迁移学习方法能够从多个源领域数据集中选择合适的数据集进行知识迁移以减少负迁移,从而避免了单一领域数据集可能带来的风险。论文研究了基于样本迁移的迁移学习方法,给出了一种基于简单投票制的样本迁移学习方法,有效提高了目标领域预测分类器的分类效果。对TrAdaBoost算法进行了权值更新策略方面的改进,解决了TrAdaBoost算法源领域与目标领域样本权值之间易出现的两极分化问题。然后以TCA/SSTCA算法为基础,对其进行了归纳式扩展,并结合聚类算法对源领域数据集数据分布作进一步修正。实验证明,改进后的算法更加高效和稳定。此外,还研究了多源迁移学习方法。结合多标签学习算法,根据多个源领域数据集对目标数据集进行多标签化,并提取标签间共享信息以协助预测分类模型建立。取得了较MultiSourceTrAdaBoost算法更好的分类和时间实验效果。