论文部分内容阅读
人的不安全行为是生产过程中事故发生的主要原因之一,传统视频监控系统依靠人力无法及时有效地发现作业人员的不安全行为,采用基于计算机视觉的行为识别技术,可以自动、非接触地识别监控视频中作业人员的行为,提高视频监控系统的工作效率和准确性,减少人因失误造成的事故。现有基于计算机视觉的行为识别方法,对兼顾行为视频空间特征和时序特征提取的问题上存在不足,难以充分利用行为视频的空间外观信息或帧间时序信息,输入数据类型较为单一,通常只考虑原始视频帧和光流图。为了提升现有行为识别方法的准确率,本文选择基于深度学习的方法以获得更强的特征提取能力和模型泛化能力,并使用CNN-LSTM模型对视频行为的视觉外观信息和时序关系进行建模。通过分析CNN-LSTM行为识别相关文献,确定了提升行为识别准确率的两个研究思路,即输入数据类型和模型时空建模能力,据此研究了以下内容:基于视频人体骨架图和CNN-LSTM的行为识别模型。为了增加可与现有模型输入数据信息互补的新模态,本文在原始视频帧中提取了人体行为骨架图,用于表征视频中人的姿态和运动变化;本文使用CNN-LSTM模型以同时利用骨架图的帧内视觉空间信息和帧间时序信息,为了更有效地提取行为视频的空间特征,采用inception V3取代现有方法中使用的卷积神经网络,间接增加了CNN-LSTM模型的整体性能。基于多路CNN-LSTM融合模型的行为识别。为了使原始视频帧、光流图、人体骨架图的能够有效信息互补,建立多模态的多路CNN-LSTM模型,并采用加权融合、自适应融合等多种模型后期融合策略,使多模态输入数据能够信息互补,提升行为识别准确率。最后在Caffe深度学习建模平台上对inception V3空间特征提取性能、CNN-LSTM模型对骨架图的识别性能、多模态CNN-LSTM模型的识别性能进行实验验证。实验表明,inception V3网络可有效提高行为视频的空间特征提取能力,CNN-LSTM模型可有效识别基于骨架图的行为视频,增加骨架图后的多模态CNN-LSTM模型能提高现有CNN-LSTM模型的行为识别准确率。