论文部分内容阅读
视频行为识别是计算机视觉领域的热点研究方向之一,在视频智能化分析、监控视频异常行为检测和人机交互等领域有广阔的应用前景。视频数据不仅包含空间域表观信息,还包含时间域运动信息,而且在很多视频如体育视频中,运动信息与行为有很大相关性,是行为识别中常用的数据模态。如何提取有效的运动信息并用于行为识别是一个非常值得研究的问题。视频中的运动信息包括全局运动和局部运动。目前的行为识别算法大多采用光流估计来获取帧间运动场,其本质上是全局和局部运动相互叠加的混合运动。实际上,全局和局部运动来自于不同的主体,全局运动是相机运动的结果,它体现了拍摄者的意图;局部运动来自于镜头中的人或物体。有些视频如监控视频中,局部运动通常和事件直接相关,是我们关注的,外界环境干扰引起的相机运动而产生的全局运动有可能是一种噪声。有些视频如体育视频中,局部运动是由事件的主体——运动员产生,而相机运动是为了更好地表达事件,因此二者之间有较强的关联性,但不同类型的比赛视频如NCAA、NBA、CBA等篮球比赛中,同一事件的转播方式不完全相同,全局运动不完全一致。因此,为了提升行为识别的性能,有必要将全局和局部运动分别考虑。论文面向全局和局部运动分离及其在行为识别中的应用开展研究。主要研究工作如下:(1)提出一种适用于行为识别任务的单变量全局运动模型。在面向行为识别的视频如体育视频中,常见的相机运动包括平移、缩放和摇动。在已有全局运动模型中,平移变换模型和仿射变换模型无法精确表达摇动变换,透视变换模型可以表达上述所有相机运动但是模型参数过多,较为复杂。针对这一问题,本文通过分析基本的相机运动的特点,提出了一种单变量全局运动模型,引入二次方项精确表达摇动变换,同时水平和垂直方向运动独立表示降低模型复杂度。对比实验结果表明,提出模型在复杂度和全局运动表达准确性方面取得了较好平衡,适用于行为识别应用中的全局运动建模,为全局和局部运动估计奠定基础。(2)全局运动估计算法研究。全局运动由相机运动产生,具有空间移不变特点,因此可以由局部区域的全局运动点来估计适用于整幅图像的全局运动参数。已有RANSAC算法即通过多次随机采样像素点来估计模型参数,但耗时较高且估计精度存在不确定性。针对这一问题,本文首先提出了基于统计分析的全局运动估计算法,基于局部运动出在视频帧边缘区域的概率比较低这一特点,由图像四个边缘上的像素点通过统计分析估计全局运动模型参数,算法具有运算速度快的优点。但如果边缘区域有运动目标,则参数估计精度会受到影响。本文进一步提出了基于迭代优化的全局运动估计算法,逐步去除包含局部运动的异常点,由越来越多的只有全局运动的点拟合得到模型参数。迭代优化算法得到精确的模型估计结果,然而迭代运算耗时长,且无法进行并行计算。最后,本文提出了基于神经网络的全局运动估计算法,设计神经网络结构,初步实现由混合光流到全局运动的端到端计算。对比已有RANSAC算法,三种算法有各自的优缺点,基于统计分析的算法运算速度最快,但参数估计误差较大;基于迭代优化的算法参数估计准确性最优,但运行速度需提升;基于神经网络的算法模型设计比较初步,运算速度较快,但参数估计精度还不能令人满意。(3)基于运动模式的行为识别。首先,基于上一步的全局运动估计结果,提出了一种基于时空域阈值的局部运动估计算法,通过空间域和时间域两阶段优化,有效抑制场景中的非局部运动分量,从混合运动中分离出局部运动。进一步基于局部运动模式(局部运动变化规律)进行行为识别。在UCF101上的实验结果表明,在行为识别任务中,局部运动模式在准确性和收敛性方面均优于混合运动模式。最后,以篮球比赛视频为研究对象,基于分离的全局和局部运动,采用双流3D卷积神经网络实现全局和局部运动模式的特征提取与融合,并最终应用于群体行为识别。在此基础上,结合场景关键区域(篮筐区域)的视觉特征变化规律,将基于运动模式的群体行为识别与基于关键视觉信息的成功失败分类相结合,实现篮球语义事件识别。在NCAA上的实验结果表明,融合全局和局部运动模式能够有效提升群体行为识别性能。运动模式和视频关键视觉信息相结合的语义事件识别算法取得最好性能。