论文部分内容阅读
摄像机网络行人识别是采用计算机自动方式对多个监控视频中感兴趣的行人目标进行识别的一种技术。由于同一个人在不同光照和拍摄环境下的视觉外观会出现不一致的问题,如何对行人图像进行特征表达是行人识别研究的一项重要内容。本文对有监督和无监督的深度学习网络进行研究,利用深度学习网络的多层非线性结构对行人图像进行特征建模。为在小规模行人数据集上以有监督方式训练深度网络,本文首先在大型的数据库上预训练一个初始网络,然后采用迁移预训练网络的方法在目标数据库上学习一个新的网络。在迁移之前,对预训练网络进行逐层的特征可视化,以便直观解释各层提取的特征,辅助网络的调整和指导分层特征的融合。本文训练了三种不同深度的网络,并从分类准确性和运行时间两个方面进行了分析和评价,发现七层深度网络对行人的分类性能优于六层和八层网络。为验证深度特征的有效性和可扩展性,本文提取网络不同层的特征分别用于构建特征矢量,并通过SVM分类器替代传统CNN的Softmax函数对特征进行决策层融合。通过实验发现,对同一层次的特征来讲,其在SVM上的分类准确率要高于传统CNN的Softmax函数,通过将不同层的深度特征进行融合,进一步提高了识别准确率。无监督深度学习网络的训练更为简单和高效,利用主成分分析算法便可以得到网络的卷积滤波器,不需要依赖样本标签。为应对现实世界中不断产生新数据的问题,本文在无监督网络框架的基础上又提出了增量学习算法,随着样本的积累自适应地调整模型,增量更新网络滤波器,避免因数据量变化而引起的重复学习。从实验结果来看,本文的增量学习方法有助于提取更为鲁棒的行人特征,同时节省了运行时间。