论文部分内容阅读
随着大数据时代的到来以及各种高性能计算硬件的出现,基于视觉数据的应用在当今社会的发展过程中发挥着越来越重要的作用,在工业生产、人工智能、机器人导航等众多领域中视觉数据都有着广泛的应用。而视觉注意力算法的研究一直是计算机视觉领域中一个经典的研究课题,视觉注意力机制是一种能够协助人类视觉系统快速定位场景中重要区域并指导人类的视觉注意力分配的重要机制,这是人类视觉认知过程中一项基础性的预处理过程,视觉注意力机制可以大大简化后续的视觉任务的处理复杂度,提高认知效率。 视觉注意力算法的研究主要分为基于低层特征与基于高层特征这两类算法研究,二者适用的场景有所不同。基于低层特征的视觉注意力算法简单直接,可以指导视觉注意力的快速分配,在需要对视觉信息进行快速反馈的场景下比较适用。而基于高层特征的视觉注意力模型需要对场景进行较为深入的解析,需要首先获取场景的语义信息再进行视觉注意力的分配,因此处理速度相对较慢,在包含了人脸、文本等目标的自然场景下此类模型较为适用。本文主要针对这两类视觉注意力算法研究中存在的短板与缺陷,分别提出两个改进的视觉注意力算法。 在计算机视觉领域中,现有的基于低层特征的视觉注意力算法研究仍然大多局限于静态的二维图像层面,而忽略了人的视觉注意力决策是在真实的三维动态场景下发生的,因此现有的算法研究无法去对人类的视觉注意力机制进行有效的建模。针对这一局限性,本文首先提出一个融合多种特征的三维视觉注意力算法。该算法通过对场景颜色信息、运动信息与深度信息的提取来分别计算这三个低层特征空间中的视觉注意力分配结果,再通过一种动态融合的方法获取最终的预测结果。同时本文针对三维动态场景下算法测试数据集的稀缺问题,通过实验提出一个用于评价相关算法的数据集。通过与其它基于低层特征的视觉注意力算法在此数据集上的结果对比,验证了本文的算法具有明显的优势,并且更加符合人眼的视觉注意力机制。 基于高层特征的视觉注意力算法研究现今还处于起步的阶段。随着卷积神经网络在计算机视觉领域中取得的突破性进展,开始出现一些基于卷积神经网络的视觉注意力算法模型。因为卷积神经网络其层层卷积的网络结构被验证具有提取场景高层次特征的能力,所以此类算法的视觉注意力预测结果相比其它基于高层特征的视觉注意力算法有了显著的提升。本文在典型的卷积神经网络模型基础上,提出一个可以对显著性目标位置进行有效优化的网络模型,同时通过对训练数据集的扩展提升网络模型的泛化能力,最终的实验结果验证了本文提出的网络模型相比其它的网络模型较为贴合人类的视觉注意力分配。