论文部分内容阅读
视频识别是计算机视觉中重要的研究领域之一,其在当前社会中具有重要的工程应用价值。近年来,随着网络硬件和软件的发展以及大众文化的走向,越来越多的视频数据在网络上流传,这些数据几乎可以用海量来形容。对于很多视频数据平台,单纯依赖人工得到妥善管理是不可能的事情,这些数据需要良好的视频管理系统对其进行自动化操作,视频动作识别系统的研究正是为了解决这类问题。动作识别是视频识别中的一个热门研究方向,视频中的动作识别容易受到光照,尺度等因素的影响,构建良好的视频动作识别系统是科学界一直在研究的问题。在目前的研究中,主流的视频动作识别系统采用的方案主要是基于“提取视频对象动作特征+机器学习构建分类模型”的理念构建的。良好的特征提取方案以及优异的机器学习器能够保证最终生成的视频动作识别模型的能力。在现有的视频动作特征提取方法中,分别有基于视频和基于单帧图像的特征提取方法,这些方法提取的特征用于表达视频中对象的运动信息,对于提取好的视频对象动作特征和类别,使用机器学习器进行学习,进而可以生成强悍的视频动作识别模型。在机器学习方法中,神经网络是近年来一种常用的深度学习方法,其中卷积神经网络是在神经网络基础上提出的一种强大的网络结构。集成学习是近些年来新提出的机器学习方法,其目的是弥补传统机器学习方法的学习能力较弱这一不足。本文通过进行大量的文献查看和实验测试,研究了不同环境下所常用的视频识别方法,分析了不同环境下所用的多种动作特征提取方法,将其进行深层结合,提出了新型的视频动作特征提取方法,并通过实验设计,将极限梯度提升树这种集成学习系统用于视频动作识别领域,以构建良好的视频动作识别模型。本文的主要工作如下:(1)针对大噪声视频环境,提出了基于方向梯度直方图、光流方向信息图和卷积神经网络的时空双流特征融合方案。该方案基于单帧图像和视频流提取两种特征,在空间上,基于动作的所在单帧RGB图像提取动作的方向梯度直方图特征,作为视频中当前动作的空间特征;在时间上,基于动作视频初始帧到当前帧的动作光流图像,使用卷积神经网络将其进行特征提取,作为当前动作的时间特征。最后将这两种特征作为视频中对象的运动特征,并使用机器学习方法生成动作识别模型,通过仿真实验对比,最终证明了基于该融合特征方法生成的视频动作识别系统在大噪声视频环境下的有效性。(2)针对小噪声视频环境,使用基于运动历史图像的特征提取方法并对其进行了改进,构建了多重运动历史图像方法。将视频动作流提取多重运动历史图像作为动作的浅层特征,并在此基础上提取了图像的几何不变矩特征中的Hu矩特征和Zernike矩特征作为动作的深层特征,然后使用多种机器学习方法进行仿真实验,实验结果证明了改进的多重运动历史图像相比较运动历史图像可以更好的支持几何矩特征的提取,也证明了基于该融合特征方法构建的视频动作识别系统在小噪声视频环境下的有效性。(3)构建了特定的XGBoost集成分类系统,用于支持两种不同强度噪声环境的视频提取的动作融合特征。结合前面提出的两种融合特征方案构建了两种不同的视频动作识别系统,分别作用于大噪声视频数据和小噪声视频数据。这两种系统主要使用构建的XGBoost集成学习系统生成最终的视频动作识别模型。通过仿真实验,将该分类方法生成的模型与其他几种机器学习方法生成的模型进行了对比。测试结果表明,本文构建的XGBoost集成学习系统最终生成的视频动作识别模型,在小噪声视频数据集KTH的测试样本上达到了91.667%的识别准确率,在大噪声视频数据集UCF101的部分测试样本上达到了97.000%的准确率,且在模型构建的时间效率上表现良好,证明了XGBoost集成方法在视频动作识别领域的良好的应用前景。