论文部分内容阅读
随着“平安城市”的概念出现在大众面前,安防建设逐渐得到了各个城市的重视,视频监控技术也得到了不断的发展与应用。但是随着实际应用的功能需求越来越多样化,视频监控系统也需要更加智能化。目前,实现智能化的视频监控系统主要面临着以下几个关键问题:(1)如何解决视频信号的高效存储及传输问题;(2)视频流的全互联网共享问题;(3)智能视频分析算法的准确性和高效性。前两个问题涉及到硬件及编码技术,因此本文将研究重点放在智能视频分析方法上。智能视频分析方法的应用,一方面可以将事后分析变为事中分析,及时的对异常行为进行报警;另一方面可以为监控人员在大量的视频数据中对目标片段进行快速的检索及定位提供便利。近几年,深度学习开启了人工智能的新时代,在计算机视觉,自然语言处理及语音识别等许多领域均取得了非常好的效果,这也为智能视频分析技术提供了新的解决方案。因此本文结合实际的问题,针对异常行为中较为复杂的暴力行为,基于深度学习的方法进行了以下的研究:1、针对监控系统中异常行为特别是暴力行为检测效率低下、准确度不高的问题,提出了一种基于卷积神经网络(Convolution Neural Network,CNN)与轨迹结合的暴力行为检测方法。该方法利用了手工特征和深度特征的优点,通过卷积神经网络提取视频的空间特征和时间特征并与轨迹特征进行结合,从而提高了视频中暴力行为检测的准确率。实验结果表明,本文提出的方法在有遮挡变化、人群密集以及清晰单一的场景下均能进行准确的识别。同时整个检测过程的处理速度为每秒21帧,兼顾了实时性与鲁棒性,并且处理速度可以通过提升GPU设备的性能来提高。2、针对异常行为在长时序视频下难以被准确检索定位的问题,本文提出了一种基于DEC3D网络模型的二阶段暴力行为时序定位方法。该方法综合考虑冗长视频所带来的检测速度低,定位不准确的问题,建立了第一阶段的基于三维卷积神经网络(3D Convolution,C3D)的候选视频生成模型以及第二阶段的DEC3D(Deconvolution 3D Convolution)网络定位模型,通过提取空间和时序的特征,然后利用C3D网络模型在空间上进行卷积操作的同时能够在时序上进行反卷积操作的特点,实现了对暴力行为发生时间精确到帧级的定位,提高了长时序视频下对目标行为检索定位的准确率。