论文部分内容阅读
行人检测任务作为一项传统的计算机视觉任务,广泛应用于智慧交通和智能监控等方面,对于保障智能化设备的安全工作有着重要作用。卷积运算具有局部连接、权重值共享等特点,使其在计算机视觉任务中得到广泛的应用。在卷积神经网络兴起后,行人检测任务取得了突破性的进展。但由于行人目标距离拍摄装置的距离不同,行人在图片中的大小尺度也不相同,这为行人检测任务增加较大难度。对于多尺度目标的检测,卷积神经网络中的特征金字塔结构一直备受研究者的青睐。RetinaNet便是一种利用该结构来实现多尺度目标检测的卷积神经网络算法,但利用特征金字塔提取的特征缺乏足够的边缘纹理特征,以及存在一定的混叠效应的问题,从而影响检测精度。本文在RetinaNet的基础上做出相应的改进,具体的研究工作包括:(1)RetinaNet作为通用目标检测网络,与行人检测任务存在参数不匹配的问题。因而本文利用INRIA数据集训练改进的RetinaNet,分别确定其主网络结构、预选框的尺度和宽高比以及Focal Loss的权重系数和聚焦系数。除此之外,本文还利用多尺度训练的方法,使不同批次的训练图片的分辨率互不相同,从而提高神经网络对不同尺度的行人的检测能力。(2)本文提出了双特征金字塔的特征融合架构来提高多尺度行人检测精度,该方法通过引入更浅层卷积特征来解决各层特征尤其是深层特征缺乏边缘特征信息的问题。在INRIA数据集,IOU分别为0.5和0.7时,相较于特征金字塔结构,该方法的漏检率分别降低0.23%和1.03%,在Caltech数据集大尺度检测实验中,漏检率降低3.22%。为了进一步提高多尺度行人检测精度,本文还在该框架中加入了扩张卷积模块,从而提高深层卷积特征的感受野,强化深层行人类别特征,通过特征融合来提高各卷积特征的多尺度行人检测精度。(3)本文采用特征增强方式,通过建立卷积特征通道之间的相互依赖性来对特征重新校准,从而选择性地强调有益行人特征。通过改进预测模块来进一步整合和调整融合后的特征以使其更适合行人检测任务,以及在后处理过程中利用弱化的非极大值抑制来代替非极大值抑制算法,从而来提高拥挤状态下行人检测的精度。在Caltech数据集的检测实验All的漏检率达到56.65%,INRIA数据集IOU为0.5和0.7的漏检率分别达到5.19%和9.65%,在与其他算法的对比中,改进的RetinaNet综合性能较为优异。