论文部分内容阅读
机器学习算法作为一类针对于大数据场景的解决方案,已经被广泛应用于图像识别,自然语言处理,推荐系统等实际问题中。但大多数机器学习算法所表现出的高性能,需要依靠海量数据的支撑。同时模型训练也是一个费时费力的过程,要求使用者能够提供足够的计算资源,这也限制了机器学习算法的应用范围。现在只有在掌握足够计算和数据资源的组织和机构里,这些算法才可能会发挥出它们应有的效果。除此之外,参数调整与模型选择也会引入大量的人力和物力成本,而它们又是确保机器学习算法有效不可避免的操作。这些实际问题一直是机器学习研究者们最关注的领域之一。元学习,也被称为“学习如何去学习”,旨在设计一类模型,使得在只有少量训练样本的条件下,可以快速地学习新的技能或者适应新的环境。而在人工智能系统中,元学习可以被简单定义为获取知识的多功能性。人类作为最聪明的生物之一,能够以很少的信息快速完成各种各样的任务。例如,人类可以只通过看过几幅新物体的图片就可以识别它。亦或是可以快速完成更复杂任务,像是人类可以再学会骑自行车的情况下学会驾驶摩托车。虽然人工智能系统可以代替人类完成一些简单的任务,甚至表现超过人类,但它们在多任务处理方面仍然表现很差。因此,实现真正的“智能”需要人工智能系统“学会如何学习”,这也就是元学习算法考虑的问题。本文提出了一个新的元学习算法,它是一种不依赖模型的元学习算法,并与任何使用梯度下降训练的模型兼容,适用于多种不同的机器学习问题,包括分类、回归和强化学习等。该算法基于PAC-Bayes框架,但在设置方面区别于类似的工作。现有的大多数研究考虑从各个任务的与数据相关后验提取公有信息,并整合于同一个数据无关先验分布,然后使用该先验信息加速新任务的学习过程。该框架要求各个任务具有很强的相似性,才能保证学到的先验可以实现加速新任务的目的。但由于数据分布在大多数情况下是未知的,也就是说这个假设在大多数情况下是很难保证的。为了增加该假设的灵活性,本文提出了一个新的元学习泛化误差PAC-Bayes界,该结论允许引入与数据相关的先验分布。除此之外,将后验概率设置为Gibbs分布,同时借助优化算法Entropy-SGD,并通过简化最小化误差界的方式解决元学习问题。本文通过在真实数据集以及模拟数据上做实验,证明该算法可以在元学习任务中展现出优于传统竞争对手的效果。