论文部分内容阅读
在整个人类文明进程中,手绘草图一直用作一种直观的表达方式和基本的交流工具。随着电子设备的发展和触摸屏的普及,即智能手机、平板电脑、手写画板和智能手表的出现,草图可以通过手指滑动的方法更加方便地获取到。不同于传统的包含丰富颜色和纹理信息的图像,草图在视觉线索上更加稀疏且包含的细节更少,但是人们很容易识别出草图所属的目标类别,这表明人类对物体的神经视觉表征具有内在的稀疏性,因此稀疏的草图研究可以帮助我们更好地理解人类认知过程,同时促进高效视觉分类器的设计。此外,草图作为一种沟通和交流的方式,不同的人能够快速正确地识别出感兴趣的目标和内容,从而克服了文化、语言、时间和年龄的障碍。因此,手绘草图的研究可以促进人类知识和信息的传播以及情感的交流。本文以手绘草图为研究对象,深入研究了基于深度学习的图像识别技术在草图识别相关任务中的应用,其中包括草图生成和分类、基于草图的图像检索和行为识别等热点领域。草图识别是上述任务的核心基础,本文方法旨在得到更优的草图表征方式,从而能够准确、高效地实现草图识别的目的,因此本文对草图相关问题进行研究具有非常重要的理论意义和实用价值。本文主要的研究内容和成果如下:(1)针对目前草图训练集的缺乏和基于草图的图像检索准确率低及推广能力不足的问题,本文提出了基于多尺度策略的草图生成模型。首先,提出了多尺度的卷积神经网络生成粗略草图,利用多尺度和多层次学习提取图像的底层和高层特征,从而更充分地利用了不同层次的信息;然后,提出了基于粗略草图与修正模板匹配的图像细化方法,利用图像处理中的形态学操作,基于两步走策略并通过加权求和得到最终的细化草图;最后,提出了薄板样条插值策略,对细化的草图进行非刚性变形,以解决不同背景人员在绘制过程中的草图样式变化问题。实验结果表明,本文方法在公开数据集上取得了很好的草图生成效果,同时解决了基于草图的图像检索任务中的跨域检索问题。(2)针对目前大部分深度卷积神经网络在构建草图表征时,都将草图当做普通的纹理图像,而没有考虑形状信息对提取草图特征的重要作用,本文提出了一种基于双分支的草图特征提取网络。首先,利用传统的卷积神经网络提取原始草图的外观特征;然后,提出了基于草图轮廓关键点集的神经网络来提取草图的形状特征,该分支将草图的轮廓关键点集作为输入,引入仿射变换来解决神经网络对草图旋转和平移的不变性问题,同时采用最大池化来聚合所有点的信息解决草图采样点顺序的不变性问题;最后,提出将外观特征和形状特征融合,并对特征向量进行L1归一化实现草图分类器SVM的训练。实验结果表明,考虑草图在缺乏颜色和纹理信息的情况下引入轮廓点集表示,可以挖掘出更多隐含的形状特征,进一步提高草图识别和检索两大任务的准确率。(3)针对草图具有稀疏和抽象的结构特点,前面提出的方法都没有考虑草图局部特征提取对形状表征的影响问题,同时基于深度卷积神经网络的草图识别方法虽然能够提取外观特征和形状特征,但是忽略了不同特征之间的相互学习。本文提出了一种基于互学习的端到端手绘草图双分支网络。首先,提出了多层特征融合的卷积神经网络来提取草图的外观特征,利用多个浅层中间卷积层输出的特征与最后全连接层输出相结合,并使用全局平均池化保留显著特征、降低特征维度;然后,提出了基于图卷积的神经网络提取草图的形状特征,通过对每个采样点利用K近邻算法构建图,再利用图卷积网络提取局部特征来增强草图形状的表达能力;最后,提出了互学习策略同时优化两个识别网络,通过引入类别一致性损失和视觉注意一致性损失来约束两个分支。实验结果表明,该模型的识别性能优于现有方法,可以提高草图识别和基于草图的图像检索任务的准确率,并能通过微调模型的方式推广到其他风格的草图识别任务中。(4)针对目前很多基于不同模态的神经网络进行视频行为识别时,都没有考虑人的形状信息对识别准确率影响的问题,本文将草图特征应用到行为识别的预测任务中,提出了基于中层语义表示的卷积神经网络用于行为识别。首先,提出了一种注意力导向的草图生成模型,利用草图生成网络从动作视频中提取人的形状结构以生成原始草图,与此同时,使用注意力引导机制,对原始草图进行区域修正,去掉无关区域和噪音信息,从而生成与行为识别相关的判别性区域;然后,提出了基于原始草图和点表示草图的双分支神经网络模型,对视频关键帧进行选取并输入网络,分别提取纹理信息和点集表示的形状信息,从而实现基于视频草图的行为识别;最后,对多个模态的行为识别分数进行决策级融合,将融合后的结果作为最终的行为识别结果。实验结果表明,视频草图模态对行为识别起到了积极的作用,有效提升了系统预测的性能,降低了识别误差。