论文部分内容阅读
随着互联网的快速发展,以计算机视觉为基础的各种电子产品在人们的日常生活中起到了愈发重要的作用。而人体行为识别作为计算机视觉的重要课题之一,近年来成为了该领域的主要研究热点。本论文以基于视频的人体行为识别为研究课题,重点针对行为识别领域中亟待解决的关键性问题,如有效提取视频中的时空特征、解决视频中长距离依赖问题等,从以下两个方面对行为识别方法进行研究。1、基于双速帧率的时间金字塔网络的行为识别研究方法。人体行为是一个动态连续过程,每个行为动作具备其独特的运动节拍,这种特性使得不一样的行为动作具备不一样的视觉节奏信息。因此,本研究方法重点关注行为动作中的视觉节奏信息。在分析目前的三维卷积神经网络的基础上,本方法从数据输入和中间特征提取两个层面对行为动作的视觉节奏信息进行处理,提出了一种新的基于双速帧率的时间金字塔网络结构。其中,双速帧率模型采用改进后的ResNet-50网络作为主体网络,在数据输入层方面通过两路不同的视频采样速率对行为动作的高层信息和底层信息进行捕捉。与此同时,时间金字塔网络以双速帧率网络为骨干网络,在中间特征层方面加强时空特征的融合,进而促进整体网络的性能提升。通过在公开数据集上的实验验证,结果表明本网络模型的识别准确率优于同类型的其他网络模型。2、基于双速帧率的时间金字塔网络的优化研究。本方法针对时间金字塔网络中时域变速模块的特征提取方式过于简单,进而造成时空特征提取不够全面的问题进行改进。考虑到循环神经网络在长时间视频时域建模中的优异表现,本研究方法采用卷积长短期记忆网络(ConvLSTM)以及卷积门控循环单元(ConvGRU)来改进时间金字塔网络中的时序速率调整模块,进而加强时空特征融合。实验结果表明,通过ConvLSTM改进的时间金字塔网络最为优异,可以表现出比原先更好的识别效果,证明了本方法的有效性和可行性。最后,对本论文提出的行为识别方法进行总结,提出今后可以改进的地方以及对未来行为识别领域的发展作出相应展望。