论文部分内容阅读
交通驾驶场景是一个立体多元、瞬态变化、动静结合的复杂环境,场景中不仅有静态刺激(或目标),如停放在路边的汽车,也有动态的刺激(或目标),如行驶的汽车或行人。受视觉选择性注意机制影响,有经验的驾驶员会选择性关注与驾驶安全或驾驶目的密切相关的交通场景显著区域和显著区域内的重要目标,而自动忽略掉大部分与驾驶安全无关的场景信息或目标,以达到安全驾驶的目的。通过模拟交通场景中驾驶员视觉选择性注意机制,开展交通场景显著性区域内目标检测研究,可以为未来自动驾驶(或无人驾驶)车辆提供一种快速又安全的目标检测驾驶策略,大大减少自动车辆的计算能耗。本论文在本实验室已有的驾驶员眼动数据集和显著性区域计算模型基础上,建立了一个新的显著性区域内目标检测数据集。将视觉注意机制融合到现有目标检测模型中,提出了一个新的交通场景显著性区域目标检测模型ID-YOLO(Increase-Decrease Based You Only Look Once),实验测试结果表明,ID-YOLO可以准确快速地检测出交通驾驶环境中显著性区域内的重要目标。论文主要内容如下:首先,论文介绍了基于有经验驾驶员眼动机制的显著区域目标检测数据集的构建。然后,论文采用目前常用的基于Faster R-CNN[1](Faster Regions with CNN features)和YOLOv3[2](You Only Look Once v3)的交通场景显著性区域目标检测模型对本文构建的显著性目标检测(Salient Object Detection,SOD)数据集进行处理和分析,发现这两种基础方法在交通场景显著性目标检测中性能比较差,基础Faster R-CNN存在检测速度达不到实时和容易多检的问题,而基础YOLOv3则存在漏检,误检等问题。鉴于基础算法存在的不足,接下来论文提出了一种基于改进YOLOv3的显著性区域目标检测网络模型ID-YOLO。在速度上,ID-YOLO将YOLOv3的特征提取网络进行精简,在不降低特征提取效果的前提下,使模型的检测速度提升不少。在检测精度上,受视觉选择性注意机制的启发,ID-YOLO使用更低级的特征去学习目标的位置信息,并相应增加两个尺度检测目标,这样的操作使目标的边界框更精准,对于小目标的检测也有提升。最后,本论文从定性和定量两个角度对ID-YOLO的检测性能进行了评价。实验结果显示,本文使用的聚类算法得到先验框,减少特征提取网络和使用低级特征增加多尺度预测都相应地提高了模型性能。ID-YOLO在SOD数据集上达到了79.52%的检测精度,比Faster R-CNN有大约8%的提高,比YOLOv3有大约3%的提高。