论文部分内容阅读
在煤炭行业,如何智能化理解煤矿井下监控视频中的语义信息,并对其包含的异常事件进行描述,是预防与缓解安全事故频发的有效手段之一。煤矿监控视频数据质量较差,对视频中异常事件的检测与视频的文本语义描述会产生一定的影响。传统的异常事件检测方法大多依赖于手工特征,存在智能化程度不高、识别精度低、表达能力不足等问题,使用深度学习网络能够完成自主抽取特征并且有较强的泛化能力,但是在视频异常事件语义描述研究中仍存在异常事件的识别率低、文本描述准确率不高的问题,针对这些问题对煤矿井下监控视频中异常事件的文本描述方法进行了研究,主要研究内容如下:(1)针对煤矿井下监控视频中异常事件的检测问题,提出了基于注意力机制的VGGNet-LSTM视频异常事件检测方法。首先,本文对视频的帧序列进行预处理以降低视频质量对最终预测分类结果的影响;其次,使用VGGNet网络获取视频帧的全局特征表示,并输入到LSTM网络中;之后,利用视觉注意力机制,融合到VGGNet与LSTM网络中,对视频帧中的目标分配不同的权重;最后,通过softmax分类器做出分类预测。在煤矿井下视频数据集中的实验结果表明,本文提出的方法能够有效提升异常事件检测的准确率。(2)针对煤矿井下监控视频中异常事件语义的文本描述问题,提出了一种基于注意力机制与多特征融合的视频文本描述方法并应用于包含异常事件的煤矿监控视频中。首先,本文提取视频帧序列的全局特征、局部特征及视频特征以获取更多的视觉特征信息,并将特征进行加权以实现前期融合;其次,将融合后的特征在文本语义描述模型上进行训练;在解码器部分引入注意力机制对视觉信息与文本信息自动分配权重以实现后期融合;最后,输出视频异常事件的文本语义描述。将本文所提方法在煤矿井下视频数据集上进行了实验验证,结果表明本文提出的方法能够有效的提升文本描述的准确性。