论文部分内容阅读
视频行为分类主要对视频中人体动作进行识别分类,在视频理解领域有着广泛地应用前景。视频中包含丰富的空域信息和时域信息,如何充分有效地提取视频的时空特征仍是视频理解中的关键技术,同时也是视频理解的难点。为提高视频分类的性能,该文应用视频信息深度表示与融合方法对该问题展开研究,具体研究内容如下:
首先,针对时空网络随着网络深度的加深,提取特征更加抽象,造成模型最后忽略数据中的细节信息问题,提出多层次特征融合的深度时空网络。为充分利用视觉模态信息,对主流的3D卷积神经网络进行改进,通过金字塔池化、自适应池化及注意力池化三种不同的池化单元,获取不同层次的时空特征信息,最后进行级联融合与分类,同时对不同的池化单元和主体网络架构进行对比。
其次,针对如何利用视频中空域C3D与光流2D网络的互补性、光流高效计算与存储问题,提出基于端到端时空双流卷积网络融合的动作视频分类算法,可融合C3D与自学习端到端光流卷积网络的优点。针对空间流,使用3D ResNeXt-101残差网络进行空域视频分类;另一支路使用端到端时间流网络,由TVnet网络实时进行光流学习,其次针对堆叠光流特征数据利用BN-Inception网络进行视频分类;最后将双流支路的视频分类结果进行加权融合形成最后判决。
最后,针对逐帧解析视频以及提取帧间光流信息进行时间建模使计算成本和存储要求高的问题,提出基于卷积神经网络的多信息融合压缩视频分类算法,直接从压缩视频中提取I帧、运动矢量MV和残差Res信息进行分类。I帧为压缩视频中的关键帧,包含完整的图像信息,使用ResNet-152网络进行分类;运动矢量包含类似于光流的运动信息,残差包含视频中运动物体的轮廓信息,使用R(2+1)D网络对运动矢量和残差进行分类,最后将三种信息的结果进行加权融合产生分类结果。
首先,针对时空网络随着网络深度的加深,提取特征更加抽象,造成模型最后忽略数据中的细节信息问题,提出多层次特征融合的深度时空网络。为充分利用视觉模态信息,对主流的3D卷积神经网络进行改进,通过金字塔池化、自适应池化及注意力池化三种不同的池化单元,获取不同层次的时空特征信息,最后进行级联融合与分类,同时对不同的池化单元和主体网络架构进行对比。
其次,针对如何利用视频中空域C3D与光流2D网络的互补性、光流高效计算与存储问题,提出基于端到端时空双流卷积网络融合的动作视频分类算法,可融合C3D与自学习端到端光流卷积网络的优点。针对空间流,使用3D ResNeXt-101残差网络进行空域视频分类;另一支路使用端到端时间流网络,由TVnet网络实时进行光流学习,其次针对堆叠光流特征数据利用BN-Inception网络进行视频分类;最后将双流支路的视频分类结果进行加权融合形成最后判决。
最后,针对逐帧解析视频以及提取帧间光流信息进行时间建模使计算成本和存储要求高的问题,提出基于卷积神经网络的多信息融合压缩视频分类算法,直接从压缩视频中提取I帧、运动矢量MV和残差Res信息进行分类。I帧为压缩视频中的关键帧,包含完整的图像信息,使用ResNet-152网络进行分类;运动矢量包含类似于光流的运动信息,残差包含视频中运动物体的轮廓信息,使用R(2+1)D网络对运动矢量和残差进行分类,最后将三种信息的结果进行加权融合产生分类结果。