论文部分内容阅读
近年来,人群计数因其广泛的应用,如公共安全、避免拥挤、流量分析等,引起了人们的广泛关注。人群计数的目的是估计由监控摄像头提供的拥挤图像或视频中的人数。利用计算机视觉技术进行准确、稳健的人群数量估计,对公共安全具有重要意义。目前人群计数的研究趋势已经从计算人数发展到通过密度图显示人群分布。一般情况下,由于复杂的人群场景受各种因素的影响,包括背景噪声,闭塞,和尺度变化,因此产生准确的人群密度图,并在高度拥挤嘈杂的场景进行精确的人群计数是具有挑战性的。现有的基于神经网络的方法往往使用多个输入或多个网络模型来提取尺度相关特征,但这样不可避免地会增加计算负担。另外多数的人群密度估计方法仅仅使用最后一层的特征进行预测,忽略了中间层的特征信息。因此针对上述问题,本文进行了如下工作:1.提出了一种基于卷积神经网络的静态图像密度估计方法,称为基于多尺度空洞卷积的人群密度估计(MScCNN)。该方法利用单列网络进行特征提取,结合多尺度空洞卷积进行多尺度信息聚合,解决了多输入和多网络方法的不足。多尺度空洞卷积模块在不降低感受野的前提下,利用空洞卷积对多尺度上下文信息进行系统的聚合,从而将底层细节信息集成到高层语义特征中,提高算法对小目标的感知能力。2.为了充分利用中间层的特征信息,设计了另一种基于卷积神经网络的静态图像密度估计算法,称为基于多阶段特征的卷积神经网络人群密度估计(MStCNN)。网络结构分为两个部分,一部分使用经过预训练的并且拥有强大传输能力的VGG16基础网络;另一部分是多阶段特征融合网络,对VGG16不同最大池化层的特征使用空洞卷积做进一步的密度图拟合。该方法充分使用不同阶段特征,即包含低层的语义特征又包含丰富的高层语义特征,获得很好的拟合效果。3.设计了将前两种算法相结合的算法,即基于多阶段和多尺度特征的卷积神经网络人群密度估计(MStScCNN)。考虑到前两种网络分别对中间层特征和不同尺度特征的网络结构,该方法将以上两种网络的相结合,获得更加丰富的上下文信息,充分使用不同阶段特征和不同尺度的特征,拥有三个算法中最好的拟合效果。最后,本文在ShanghaiTech数据集、UCF_CC_50数据集和Worldexpo’10数据集上对所提出的两个网络结构进行了论证,并将结果与目前主流的人群计数算法进行了比较,证明了本文的方法优于目前的最新方法,具有很好的计数精度和鲁棒性。