论文部分内容阅读
场景识别是目前计算机视觉领域中较为重要的问题之一,在目前许多实际的图像处理应用场景中、如无人驾驶、增强现实等,都对场景识别的性能提出了要求。场景识别问题相对于传统图像分类问题有着数据范围广、输入信息复杂等特点。本文设计出了两种适用于场景识别的卷积神经网络,并针对网络的输入大小与特征尺寸对网络进行了改进。同时优化了大尺寸正方形的卷积单元,将其转变为两种卷积操作的叠加,从而加深网络深度,从而提升神经网络的适应性。随后本文针对神经网络中的部分细节进行改进,使用PReLU单元作为激活函数,增加了Batch Normalization标准化层,最终得到了两种不同的场景分类卷积神经网络结构。另外,在网络训练的过程中,本文又提出了更加适合于大规模数据集的随机裁切方法,这种方法相比于传统方法可以保持输入的宽高比保持不变;在输入数据时增加多种噪声,提升神经网络的鲁棒性。在网络的测试阶段,本文使用了多尺度验证的方法提高网络在验证集上面的表现。最后,本文提出的两种神经网络分别在Places场景分类数据集上面达到了五选准确率85.44%及85.04%的性能,超过了2015年评测中领先的WM Team的83.13%的成绩。