论文部分内容阅读
在人脸图像分类识别领域,相较于传统的机器学习法而言,卷积神经网络(Convolutional Neural Network,CNN)能够更好地自主捕获图像中的潜在特征,替代了以往需要人工进行捕获的手段,进而取得了广泛的应用。尤其是在2012年出现Alex Net神经网络之后,深度CNN为图像领域带来了深刻的变革,它可以提取到更深层次的抽象特征,这会帮助它极大地提升模型的分类、识别的准确率。但是,这同样也会带来一些问题,主要的缺点在于它会使得参数量变得巨大,训练非常耗时。如今完善的建模理论还没有面世,关于网络结构的进一步优化也有待于解决,并且笔者发现网络训练过程中采用的算法有着明显的局限性,这些都会对网络模型产生影响。本文将就CNN模型结构展开探索,希望能够对该模型的训练过程进行优化,从而实现高效CNN模型的构建,并将该模型迁移学习到新的应用场景中。具体的研究内容如下:(1)本文首先分析研究了VGGNet网络模型的结构和参数,选取了最为常用且高效的VGG-16作为改进模型的原型。在VGG-16卷积部分的最后加入多尺度采样层(Multi-scale Sampling Layer),使得模型可以输入任意大小的图片进行训练和测试,同时减少了全连接层的神经元数量,在保证准确率的前提下提升了模型的训练速度。(2)深度卷积神经网络训练过程中使用频率比较高的为随机梯度下降算法。该算法的优点是思想简单,可以获得一个理想的运算速度,然而该算法并不适合在深度CNN参数训练时使用,其主要原因是它在实际训练中会出现局部最优的问题和梯度弥散现象。本文对粒子群算法(Particle Swarm Optimization,PSO)的实现原理进行了一定的探索,并将其应用到深度卷积神经网络的参数初始化中,这样在一定程度上缓解了反向训练中显露的梯度弥散现象,并保障能够产生较全局最优解。(3)人脸多属性分类属于人脸图像分类的范畴,但目前关于人脸多属性标注的图片很少,单纯使用数量级较低的训练数据无法获取性能相对优良的分类模型。为了训练得到高效的网络模型并且扩大深度神经网络的应用范围,本文选择将VGG-MSL模型通过迁移学习的方式应用到人脸多属性分类问题中,取得了较高的分类准确率。上述研究内容均设计实验进行验证。实验结果表明,改进后的VGG-MSL模型在保证准确率的前提下比VGG16模型的训练速率提高了近13%~16%,且不受图片大小的约束;利用粒子群算法优化的VGG-MSL模型相较于未优化模型,其分类准确率平均提升了2%,这是一个值得肯定的提升;将VGG-MSL迁移学习到人脸多属性分类问题上,其分类准确率与单纯利用数据训练的模型相比高了40%,具备较好的人脸多属性分类能力。