论文部分内容阅读
当今,国民经济的高速发展导致社会主义城市化进度不断推进,越来越多的人口涌向城市。据此带来的社会问题也不断增加,例如:人员拥挤导致踩踏等不安全事故的发生;候车大厅人员的增加对交通调度带来的压力等。解决上述问题需要准确预测出实际场景下的人群数量及分布,而图像可以清晰直观的反映出实际场景中的人群变化情况,因此基于静态图像的人群密度估计有重要的研究价值。近年来,具有获取深层次特征能力的卷积神经网络模型在语义分割、目标检测与识别等领域发展迅速,研究人员也将其应用于人群计数领域并取得了较好的效果,但仍存在着一些挑战尚未攻克。本文在总结分析人群密度估计领域前人研究工作的基础上,做了以下几方面工作:(1)在分析了现有基于卷积神经网络的人群密度估计算法的基础上,实现了一种多列结构的人群密度估计算法。通过多列不同大小卷积核提取多尺度特征以应对图像中出现的不同大小的人头信息,解决单列结构难以处理尺度变化的问题;网络末端采用卷积层取代原有的全连接层,使得输入图片的尺寸不受限制,网络模型的应用范围更加广泛。实验结果表明,多列结构在人群密度估计任务上具有一定的优越性。(2)针对基于多列卷积神经网络人群密度估计方法存在的多尺度特征信息丢失、融合不佳等问题,提出了编码-解码多尺度卷积神经网络人群密度估计方法(Encoding-Decoding Multi-Scale Convolutional Neural Network,EDMSCNN)。网络编码器采用多列卷积捕获多尺度特征,通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量,保留尺度特征和图像的上下文信息;解码器对编码器输出进行上采样,实现高层语义信息和编码器前端低层特征信息有效融合,从而充分保证了各级特征信息的有效利用。实验结果表明,该结构不仅提升了人群密度估计的精度,也一定程度上减小了计算复杂度。(3)针对多列卷积神经网络人群密度估计算法中存在的多通道信息平均融合以及模型中存在的上采样、下采样操作导致输出密度图像素丢失问题,将条件对抗生成网络(Condition Generative Adversarial Network,CGAN)应用到多列卷积神经网络中,提出了基于多尺度条件对抗生成神经网络人群密度估计方法(Multi-Scale Generative Adversarial Network,MSGAN)。建立了生成器与判别器两个网络模型,生成器模型采用多列卷积神经网络来提取多尺度特征;判别器网络采用五层卷积结构输出相似性概率。通过两个网络的博弈来获取最为接近原始真值图的预测密度图,并通过特殊的损失函数将多尺度信息以协作的方式聚合到一起,最终得到非常接近真实值的预测密度图。实验结果表明,该方法的人群密度估计结果更为准确,且可以生成高质量的预测密度图。(4)汲取本文提出的EDMSCNN人群密度估计方法与MSGAN人群密度估计方法的优势,将上述两种方法组合到一起,提出了基于编码-解码的多尺度条件对抗生成神经网络人群密度估计方法(Encoding-Decoding Multi-Scale Convolutional Neural Network,EDMSCNN)。将EDMSCNN作为生成器网络模型用于提取多尺度特征,生成器采用五层卷积结构用于多尺度特征的合作式融合。在保证多尺度特征提取充分的情况下通过对抗网络思想将多尺度特征以协作方式聚合到一起。与对比方法的对比结果表明,该方法的人群密度估计结果最好。