论文部分内容阅读
视频传感技术具有直观形象、所见即所得的优点,使得机场视觉感知成为当前的研究热点,基于视觉感知的机场智能化应用,大都以运动目标分割为基础。但是机场场面环境具有特殊的复杂性,使得传统的检测算法性能大为降低,检测结果受天气变化影响较大且常常出现断裂缺损的情况。相比传统方法,深度学习方法能够针对不同的任务及不同的数据集学习到更有代表性的特征表达,得到更为精确的识别效果。因此研究深度学习方法训练一个针对机场特殊环境的运动目标分割模型是非常重要且有意义的。本文主要工作如下:1.由于机场场面开阔,目标尺度变化大,且存在遮挡和相似静止目标干扰等问题,单独的基于空间信息的图像分割网络难以解决上述问题。综合考虑视频时间上的运动信息及空间上的外观信息,构建时空双流网络结构。基于全卷积网络建立外观模型,并加入了空洞卷积、多尺度融合等思想。运动模型的建立使用PWC-Net在线实时估计光流,并通过金字塔池化模块完成光流到分割结果的映射。最后结合外观模型于运动模型的优缺点,提出使用余弦相似度定义光流误差,并以此为融合置信度对时间流输出结果和空间流输出结果进行融合。在CDnet 2014公开数据集及机场数据集上进行实验,实验证明时空双流网络在各种复杂场景下都能取得很好的检测效果,表现出良好的精确度和鲁棒性。2.视频的运动信息和目标外观信息有一定的相关性及一致性,引入多任务联合学习思想,将光流估计与目标分割联合起来优化。特征提取阶段,光流分支和分割分支权值共享,减少对图片特征的重复提取,大幅减少计算量,另外在分割分支及光流分支的上采样阶段构建分支间的通信,使光流估计及目标分割都能综合利用运动信息及外观信息。3.针对真实数据的光流标签难以获取的问题,基于光流的亮度恒定假设及局部平滑假设,设计以目标图像与通过光流插值得到的翘曲图像的差异作为监督信号,再加上对光流输出的局部平滑约束,作为光流损失函数,在没有光流真实标注的情况下指导光流估计训练。针对视频目标分割中的前景背景类别不平衡问题,使用Focal loss指导分割训练,在解决类别不平衡的同时,加强网络对困难样本的关注,提升训练效果。