论文部分内容阅读
近年来,基于机器学习的图像识别技术得到了广泛的应用,并在多个领域发挥着极其重要的作用。相对于其他数据来说,图像中包含的信息量巨大而冗余。众所周知,机器学习方法的性能很大程度上取决于数据特征的选择,因而构建一个好的图像识别系统往往需要拥有一个较好的特征提取器,将原始数据转换成合适的特征表示或特征向量,以帮助分类器正确地进行图像的识别。以往的图像识别方法大多采用人工提取特征的方式,其设计过程不仅困难,而且需要相当的工程技巧和问题领域的专业知识。深度学习是一种允许机器自动从原始数据中学习到特征表示的方法,通过组合那些能够将某层特征表示转换到更加抽象的高层特征表示的简单非线性模块,深度学习方法能够学习到多层特征表示。对于分类任务来说,高层的特征表示能够放大输入中具有判别信息的部分,同时忽略输入中不相关的因素,从而提高分类性能。将深度学习用于图像识别问题已经成为图像识别领域的研究热点,并且取得了非常好的效果。本文提出了MPNIN模型用于解决图像识别问题。NIN模型使用了一种称为mlpconv层的非线性卷积层代替传统CNN模型中的线性卷积层,能够增强模型的非线性拟合能力。MPNIN模型的的主要思想是基于mlpconv层的有监督预训练,与传统的逐层有监督预训练算法有相似之处,但与传统逐层有监督预训练相比,基于mlpconv层的有监督预训练可以避免前者所存在的由于非线性表达能力不足而导致的过于贪婪的问题。另外,MPNIN模型中的有监督预训练为各层提供的监督信息能够有效抑制深度模型中常见的梯度弥散问题。尽管MPNIN模型已经取得了比较优越的识别效果,但CNN本身是一种训练过程非常慢的算法。针对CNN训练时间过长的问题,本文提出了R2CELM和R2ELM-LRF模型,这两者将ELM和堆叠泛化理论结合起来构建深度模型。ELM算法的学习速度非常快,具有优越的泛化性能,并且可以有效的解决局部最小值和过拟合问题。特别是其中的R2ELM-LRF模型是一种将基于局部感受野的特征提取与ELM相结合的算法,具有识别图像中局部相关性结构的优势和ELM不需要反向传播调整权值的优点。实验表明,新提出的模型不仅具有较好的识别性能,同时其收敛速度较常用的其他深度学习算法有很大提高。