论文部分内容阅读
目标检测是指从图像或视频等输入信息中挑选和识别目标对象。目标检测是机器视觉、神经网络和人工智能的融合点,在图像检索、视频监控和无人机、无人驾驶等领域有广阔的应用前景。随着深度学习在目标检测领域的应用,基于深度学习的实时目标检测发展迅速,如R-CNN系列算法、SSD、YOLO系列算法等,推动了目标检测的快速发展。由于现实环境中的目标对象受到多个因素影响,因此实时目标检测依旧具有很大的挑战性:(1)真实环境存在诸多干扰因素:雨、雾等客观因素,目标旋转、缩放和遮挡等都会对检测产生很多干扰和影响,因此检测过程如何消除环境因素对目标对象的影响;(2)实时检测场景中图像是连续变化,怎样使得检测系统的检测速度达到实时要求,如何提升目标检测速度;(3)检测需求不断提升,比如同一个目标的种类差异化,模型需要对其进行准确分辨,检测系统需要同时准确获取目标对象的类别信息与位置信息,在保证检测速度的同时,检测系统的检测精度也变得至关重要。基于上述实时目标检测场景中存在的多个问题,本文结合YOLO系列算法,提出的统一的实时目标检测模型,主要分为以下几个内容:(1)检测模型可以直接从输入图像回归到目标类别的分数和目标对象所处位置。尽管在实时场景中物体的位置连续变化,依旧可以独立地处理图像。它的单一网络结构在PASCAL VOC2007数据集上以45fps的速度处理图像,具有很好的检测精度和检测速度;(2)结合视频帧间信息的内存映射技术,在实时场景中使用M帧存储器对之前M-1帧的检测,保留视频中丰富的临时帧间信息。将内存映射部分附加到原始网络的最后一层,不会对整个网络结构产生影响,有助于检测模型更好地适用于实时视频流中的目标对象检测;(3)为消除环境因素影响,在模型中增加视频去雾算法模块,采用基于暗通道先验的图像去雾方法,以此增强网络中输入图像的清晰度,降低真实环境中干扰因素对目标对象的影响,从而来提升检测模型的精确度。本文实验首先在ImageNet数据集进行预训练,之后在专门用于自动驾驶的KITTI数据集上进行测试。本文从多个方面对检测模型性能进行了试验分析,同时在多个场景下做了对比实验。KITTI是本文的主要数据集,为了拓宽模型的适用范围此外,在其他三个数据集:Pascal VOC 2007/2012、Road Sign路标数据集以及FDDB面部检测数据集上做了相应的测试实验。实验结果表明:检测模型几种类型的数据集有很好的测试结果,并且可以通过改变模型灵活权衡检测精度与检测速度。