论文部分内容阅读
过去的几十年见证了生物特征识别领域的蓬勃发展。生物特征一般包括虹膜、指纹、脸部、DNA等可测量的、独特的和永久的生物特性。人耳在生物特征领域是一个比较新的特征,人耳的结构不仅是独特的,而且是永久的,并且人耳的外观在人类生活中不会轻易改变。想通过图像来获得某一可靠的生物特征进而进行身份的识别,目标检测是一种必不可少的手段。由于人耳具有以上这些非常良好的特性,自动人耳检测最近在生物特征社区引起了极大的关注。人耳对于身份识别来说是一种非常有效的特征,当监控视频中的人的面部受到遮挡时,人耳可以做为一种补充特征辅助识别。自2012年,卷积神经网络模型在Image Net 2012竞赛中获得冠军后,最近几年卷积神经网络在物体检测方面又陆续取得了非常好的成果。本文尝试使用卷积神经网络来进行人耳检测,提出了融合卷积神经网络与直接回归进行人耳检测的方法。本文主要进行了以下三个方面的研究:(1)在人耳分类器方面,本文利用迁移学习的思想,使用已有的人耳图像微调我们设计好的分类网络来获得人耳分类器。人耳分类器主要用于为后续人耳检测器提取人耳特征。同时,本文对比分析了不同深度的网络模型在分类测试集上的准确度(Accuracy),实验表明,深度的增加可以带来准确度的提升。同时将本文设计的人耳分类器与目前比较流行的卷积神经网络及传统方法进行了对比,在人耳分类任务上,本文的网络模型优于基它方法。(2)在人耳检测器方面,本文提出Conv Tran层用于人耳检测。将上面训练好的人耳分类器网络最后特有的Softmax层换成Conv Tran层来进行人耳检测。人耳检测器与人耳分类器使用相同的主网络,共享网络权重,本文利用这种方法来加速网络训练。Conv Tran主要利用边界框回归和由k-means生成锚的思想来实现人耳检测的任务。同时为了提高人耳检测的精度,本文还采用了非极大值抑制(NMS)的方法。将本文提出的人耳检测方法与传统的基于特征的人耳检测的方法和基于卷积神经网络的人耳检测方法进行对比,实验结果表明本文的方法在人耳检测中具有良好的性能,Average Precision(AP)高于其他方法。(3)在人耳位置对齐方面,当将人耳检测器用在图像序列上时,发现检测框的抖动有些严重,为此本文提出Location-Alignment模型用于对框的位置进行进一步的精修。主要思想是将检测到的人耳框在原图上扩充一部分送到卷积神经网络中进而得到更加准确的人耳框。在预测的时候,模型还使用了原始图片的信息使得预测结果的准确性进一步提升。本文对原始检测框与经过location-alignment进一步精修过的框进行了对比,后者检测框的平均IOU高于前者,在图像序列上表现更加稳定。