论文部分内容阅读
“十四五”规划纲要提出要加快建设交通强国,而自动驾驶作为传统交通运输行业和人工智能结合的产物,是建设交通强国的重要组成部分。近年来,深度学习的发展为自动驾驶提供了全新的活力,这其中伴随着大量检测和感知算法的性能提升和商业落地。这些算法通常需要高分辨率双目图像作为输入,同时通过在线学习网络更新的方式保证模型效果。这一方式要求双目图像在客户端和服务器间进行无损传输,以及在数据库中进行高效存储。为保证压缩质量的同时降低带宽占用,无损压缩算法至关重要。目前大量基于非学习的无损压缩算法已被提出,但这些算法针对不同场景下的图片可能不是最优的。同时,鲜有学者针对自动驾驶的双目图像无损压缩算法进行研究。基于此,本文进行了以下工作:1.本文分析了以PNG、WebP和FLIF为代表的较为流行的非学习图像无损压缩算法,介绍了以L3C算法为代表的基于学习的无损压缩算法。根据分析结果,给出了非学习算法的共同点,并于自动驾驶数据集KITTI 2012上进行了上述算法的对比实验。实验结果表明,当前基于学习的算法优势十分微弱,非学习算法与其并不存在显著差距。2.本文针对双目图像存在相似区域的特性,提出了一种多尺度无损压缩模型L3C-Stereo。该模型主要由两个模块组成:变形模块和概率估计模块。变形模块利用左视图的信息对右视图的特征进行调优。概率估计模块为自适应算术编码提供像素级的混合逻辑分布。同时,本文在KITTI 2012数据集上进行了对比实验。初步实验结果表明,L3C-Stereo在压缩效果上明显优于所有与之对比的压缩算法。3.本文选取了有代表性的数据集对算法表现进行了充分的实验。实验结果表明,相较于本文所提及的其它算法,L3C-Stereo在KITTI 2012/2015、In Stereo2K和Scene Flow数据集上均展现了其优势,且对低噪图像的压缩效果提升尤为显著。随后本文探索了多个超参数对L3C-Stereo的影响,通过选择合适的超参数,进一步地提升了模型的效果。最后本文评估了多个模型的复杂度,结果表明L3CStereo在压缩效果有显著提高的同时,并未显著提升算法复杂度。针对双目图像无损压缩任务,本文提出了一种基于视差图估计和卷积神经网络的算法。实验结果表明,该算法的压缩效果优于PNG、WebP、FLIF、L3C等基于非学习和学习的压缩算法,为自动驾驶场景下的图像无损压缩提供了新的思路。