论文部分内容阅读
随着多媒体技术和通信技术的发展,大量的视频数据快速涌现。越来越多的人选择拍摄视频并上传到网络上分享生活。我们称这样的视频为UGC视频,而这些视频的质量往往偏低。视频增强超分辨技术在工业界和学术界都有重要的应用价值。但是,在目前的视频增强超分辨数据集中,低质量视频往往由高分辨率视频下采样得到,这种低质量视频不包含真实场景中的失真,例如白噪声,压缩失真和传输失真,因此,根据这些数据集训练出来的模型往往在真实的UGC视频中表现较差。为了解决这个问题,我们构建一个真实且数据量巨大的视频增强超分辨数据集,称为VESR-Wild。该数据集从工业界的视频应用中构建而来,并且包含真实失真,并且该数据集包含10,000段视频,总共1百万帧视频帧。据我们所知,这是目前最大的视频增强超分辨数据集。我们在该数据集上比较了流行的视频增强超分辨算法,并进一步讨论了未来视频增强超分辨的研究方向。我们希望该数据集可以让研究者对目前视频增强超分辨算法有更深入的认识,并促进该领域在真实UGC视频场景下的探究。另外,在本论文中,我们提出一个新的视频增强超分辨网络结构,称为VESR-Net。我们设计了一个分离非局部模块来捕捉帧间关系,提高视频帧融合的效率,并引入基于通道注意力机制的残差模块来提升视频帧重建的性能。我们设计了实验来分析VESR-Net的有效性,并说明VESR-Net优于目前的视频增强超分辨算法。值得一提的是,该方案在优酷视频增强超分辨挑战赛中取得第一名。在真实场景的应用中,视频超分辨通常与视频分类共同使用。考虑到视频分类的性能可能会受到低质量UGC视频的影响,我们进行了充分的实验来探究视频增强超分辨对视频分类的影响。另外,UGC视频中因为存在运动模糊,物体遮挡和低光照环境等情况,所以这仍然是一个很有挑战的课题。我们提出了多支路的投票网络,并构建了一个UGC视频分类数据集,希望能够促进视频分类在真实场景的探索。