【摘 要】
:
在日常生活中,视频监控无处不在,广场、火车站、住宅小区、交通道路等常见场所,分布着大大小小,不计其数的摄像头。视频监控,可实现犯罪预防、交通管制、意外等作用,在维护社会安全中发挥着越来越重要的作用。本文是基于视频内容分析技术针对监控视频中的目标检测和行为识别开展研究,对视频中出现的目标进行检测,跟踪及行为识别。论文的主要工作和成果如下:在目标检测中,由于监控中的行人检测存在背景复杂,目标尺度和姿态
【基金项目】
:
“监控视频中的行为识别与预测技术”;
论文部分内容阅读
在日常生活中,视频监控无处不在,广场、火车站、住宅小区、交通道路等常见场所,分布着大大小小,不计其数的摄像头。视频监控,可实现犯罪预防、交通管制、意外等作用,在维护社会安全中发挥着越来越重要的作用。本文是基于视频内容分析技术针对监控视频中的目标检测和行为识别开展研究,对视频中出现的目标进行检测,跟踪及行为识别。论文的主要工作和成果如下:在目标检测中,由于监控中的行人检测存在背景复杂,目标尺度和姿态多样性及人与周围物体互相遮挡的问题,造成yolov3对部分目标检测不准确,会产生误检、漏检或重复检测的情况。因此,在yolov3的网络基础上,利用残差结构思想,将浅层特征和深层特征进行上采样连接融合得到104?104尺度检测层,并将k-means算法聚类得到的边界框尺寸应用到各尺度网络层,增加网络对多尺度、多姿态目标的检测效果。同时,利用预测框对周围其它目标的斥力损失更新yolov3损失函数,改善目标间互相遮挡而影响的检测效果。实验结果证明,在MOT16数据集上,相比yolov3算法,提出的网络模型具有更好的检测效果,证明了方法的有效性。针对视频图像中时空信息的分布不平衡问题,充分捕捉视频空间信息和动态运动信息,更好地揭示动作特征,提出了一种引入注意力机制的2D/3D混合卷积网络。借助双流卷积网络结构思想,分别搭建了2D卷积和3D卷积并行神经网络。在2D卷积神经网络中,利用残差结构和LSTM网络模型着重提取视频行为的空间特征信息。其次,利用Inception结构搭建的3D卷积神经网络提取视频行为的时空特征信息。在提取的两种高层语义的基础上,引入注意力机制对特征进行融合。最后,利用得到的显著性特征向量进行视频行为识别。在UCF101和HMDB51数据集上同其他网络模型进行对比实验,从结果可以看出,提出的2D/3D混合卷积网络具有很好的识别性能和鲁棒性。由于多目标跟踪中出现的不可靠检测和类别内遮挡情况导致轨迹匹配时数据关联出现歧义,影响其跟踪效果,提出了一个基于高性能检测和融合外观、运动和形状信息的关联方法进行多目标跟踪。首先,在检测阶段选择改进的yolov3网络模型对数据集进行目标检测,得到高性能的检测结果。其次,利用构建的宽残差网络模型对检测结果进行特征提取,得到具有外观信息和位置信息的特征向量。最后,通过计算特征向量的外观、运动和形状相似度进行轨迹匹配实现多目标跟踪。实验结果证明,在MOT16数据集上,提出的多目标跟踪模型具有好的跟踪效果,证明了方法的有效性。
其他文献
21世纪是以创新为特征的知识时代,在这个动态变化的环境中,随着技术的升级和变革的加快,创新已然成为企业盛衰的关键。为了顺应这一趋势,全国各地都在争相进行“人才大战”,人才红利越来越受到重视,然而在这一进程中,不可避免地出现了劳动力过度胜任的现象,而且在国际和国内劳动力就业市场普遍存在。随着时代的发展,团队合作的形式逐渐被大多数企业采用,如何充分发挥过度胜任者在团队中的积极作用,激励他们增加创新行为
复杂时间序列预测问题普遍存在于智能交通、天气预报、食品安全、金融经济等复杂系统中,不仅与日常生活息息相关,还与社会发展和经济发展紧密联系。如果能够准确地把握时间序列的波动方向,则可以帮助管理者制定更好的决策,提高效率并减小损失。然而,由于实际获取的时间序列具有高度波动性与复杂性,在一定程度上加大了预测难度,准确预测含有复杂噪声的非线性时间序列仍是一个挑战。本文从非线性时序数据预测方法研究着手,结合
图像作为一种语义丰富的信息载体,在物流管理的实时监控中发挥着越来越重要的作用。一个异常物体通常与特定区域密切相关。对特定区域的异常目标进行检测,有利于提高检测分析的准确性,从而提高物流管理水平。在物流运输领域中,由于快递物品数量很多,快速分拣货物,导致掉件丢件的事情屡见不鲜。而在装卸搬运的过程中,包装底部柔软且凹凸不平等物品在传送带进行传送时产生物品掉落的现象和由于工人工作繁忙,物品遗忘在传送带下
三维数据作为一种新兴的数字媒体,广泛应用于文物修复、医学诊断、数字娱乐、智能制造、智慧城市、3D打印等诸多领域。随着三维扫描设备和技术的发展,三维数据的获取更加的方便和普及。然而在三维数据获取过程中,遮挡、错匹配、抖动等情况不可避免,导致获取的数据缺失和不完整,使得重建出的三维模型存在孔洞,影响后续对模型的分析、编辑等操作,使模型在各领域应用中受限。因此,三维数据修复至关重要。三维数据修复的目标是
随着图像处理需求增多,深度学习的作用显著提高,图像处理深度学习模型在生活、生产、安防等领域的作用显著提升,如YOLO、SSD等目标检测与识别网络,为自动驾驶、行为识别等任务带来了极大的便利。但是,庞大的深度学习网络参数也给计算力提出了要求,大量的参数计算不仅影响了运算结果的实时性,也给要求低功耗的嵌入式端带来了巨大的能量消耗。在深度学习网络、FPGA技术及嵌入式技术的基础上,针对在嵌入式端实现图像
本文针对双流卷积神经网络在处理复杂视频分类时存在的相近种类易发生混淆和识别准确率较低的问题,提出了一种时空关系特征提取结合特征聚合及融合机制的三流深度学习网络框架。将关系流网络引入由空间流网络与时间流网络构成的双流网络中,重点解决双流法在视频特征提取中常常会出现的稳定性差、语义理解不足等问题;同时提出一种基于局部聚合描述符向量的特征聚合方法对时空关系特征进行聚合,可以减小类内差异,对时空关系网络所