论文部分内容阅读
异常检测是计算机视觉中一个活跃的领域,已经广泛应用于众多场景,尤其是在视频监控中。目前,智能化视频监控系统可以实时检测出异常行为,减小异常事件带来的损失。然而,在许多真实的场景下,获取和标注异常样本是一项费时费力的工作,对此,基于无监督或者半监督学习的异常检测不失为一种有优势的方法。这类异常检测算法主要利用输入空间和输出空间的特征差异来检测异常,然而它们既没有利用高层次和潜在空间中的特征信息,也没有充分考虑正常模式和异常模式的多样性。为了弥补以上的缺陷,本文采用基于深度学习的方法提出三个无监督异常检测模型,具体内容和研究成果如下:首先,本文回顾了异常检测的研究现状,对当前的研究方法进行归纳分类,指出现阶段亟待解决的问题;同时,介绍异常检测的深度学习基础和两种常用的异常检测框架:自编码器和生成式对抗网络。接着,针对目前的方法忽略潜在空间的特征信息这一缺陷,本文设计了一个通过对抗训练的潜在特征自编码器,提出加权特征一致性损失和特征判别损失。潜在特征自编码器利用自编码器和判别器潜在空间中的特征信息,在CIFAR-10和CIFAR-100数据集上的AUC分别取得85.1%和80.6%,并且在UCSD Ped2数据集上的检测速度能达到每秒60帧,充分体现了潜在空间特征的重要利用价值。然后,为了结合潜在空间特征和时间特征信息,本文研究了基于预测的视频异常检测算法,提出一个内存模块自编码器和内存三元组损失。内存模块自编码器的输入是连续的视频帧,输出是未来帧,结合预测损失和多规模结构相似性度量来检测多视角、多规模的异常,在UCSD Ped2数据集上的AUC和检测速度能达到97.2%和每秒75帧,可以应用于真实的智能化视频监控系统中。最后,在以上方法的基础上,本文研究了基于事件补全的视频异常检测算法,并提出一个多模态事件补全自编码器(MECA)。该算法利用目标检测算法和梯度图像生成不完整的视频事件,再结合外观模态和运动模态的特征对不完整视频事件进行补全,可以同时利用潜在空间特征、时间特征、运动特征和高层次的语义信息。MECA在UCSD Ped2和CUHK Avenue数据集上的AUC分别达到97.8%和90.8%,在多个数据集数据集上的实验结果证明了MECA的有效性,并且优于内存指导自编码器(MNAD)、内存扩展深度自编码器(Mem AE)、视频事件补全(VEC)等主流方法。