论文部分内容阅读
近些年来,得益于公开的大规模数据集和高性能计算机系统的进步,机器学习(特别是深度学习)飞速发展,网络模型不断推陈出新。以深度学习为代表的机器学习技术广泛地应用于图像分类、目标检测、自动驾驶等众多领域,其中图像分类是计算机视觉中的热点方向之一。而VGGNet是图像分类发展过程中最重要的模型之一,它不仅以7.3%的top-5错误率取得ILSVRC 2014比赛的亚军,而且指明了深度对卷积网络性能提升的重要意义,对后续深度学习模型的结构设计与发展起到了重要的作用。另一方面,VGGNet存在网络参数量大,计算量大,需要逐个模型循序训练,易产生过度拟合等问题。因此如何降低网络参数数量、缩减模型训练时间、防止过度拟合是VGGNet模型优化面临的三个重要挑战。本文提出一种改进的VGGNet模型:Inception-VGGNet。该网络模型使用Inception-1、Inception-2和Inception-3三种模块替换部分3×3卷积,这增加了网络宽度,也增加了网络深度。其次,Inception-VGGNet在卷积之后激活函数之前使用批归一化,这减少了数据内部的协方差偏移,使各层输入的数据分布趋于一致,从而有利于加速网络训练。再者,改进型网络使用全局平均池化取代全连接层,这极大地减少了网络参数数量,也具有防止过度拟合的作用。最后,为了方便模型针对不同数据集进行微调,在分类器前增加一层线性层。本文在ILSVRC2012和CIFAR数据集上进行分类实验,结果表明Inception-VGGNet以7.3M的参数数量、17.3GFLOPs的计算量和6.92%的分类错误率超越了VGGNet系列网络。此外,实验结果显示在使用批归一化的情况下,Inception-VGGNet更容易收敛。本文在Inception-VGGNet的基础上,基于密集连接和残差学习两种特征复用方式,提出了Dense Inception Res-VGGNet。该网络将残差学习引入Inception模块内部,提出了三种基于残差连接的Inception Res模块,增强了模块内部的特征复用。其次,该网络在Inception Res模块栈之间使用密集连接,进一步利用了特征复用。相比于Inception-VGGNet,基于特征复用的新网络在几乎不增加网络参数和计算量的情况下,增加了网络路径,减轻了梯度消失和梯度爆炸问题、减少了网络奇点、增强了信息的流动、提高了低层信息的利用率。本文继续在ILSVRC2012和CIFAR数据集上测试了Dense Inception Res-VGGNet,结果显示其性能优于同等参数量和计算量的Inception-VGGNet。本文也测试了Dense Inception Res-VGGNe的鲁棒性和深度可扩展性,实验结果表明该网络性能稳定而且深度可扩展。