论文部分内容阅读
基于视觉的注意力简称为视觉注意力(Visual Focus of Attention,VFOA),特指视觉关注方向和焦点,主要融合头部姿态以及视线方向信息来对其进行判断,通常将视线的视点位置判定为视觉注意力焦点位置。随着人工智能领域的飞速发展,构建全方位感知的智能时代是近年来人工智能的一个发展趋势,而视觉注意力检测技术则将视觉、推理以及情感等因素融入其中。因此,本文针对VFOA检测技术的研究不仅具有很深的理论价值,也具有广阔的应用前景。首先,本文设计了视觉注意力检测系统的总体方案。并针对低质量图像中人眼定位不精准的问题,提出基于先验多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks,MTCNN)人脸检测的人眼关键点定位方法。选取对头部姿态偏转、光照变化以及遮挡等因素具有较好鲁棒性的MTCNN-mxnet进行人脸检测和5个人脸关键点(左右瞳孔、鼻尖和左右嘴角)回归。根据得到的瞳孔关键点先验知识分割出人眼候选区域,对该区域进行灰度值和梯度积分投影,并将投影曲线极值点坐标组合与MTCNN左右瞳孔位置距离最近的两个点作为粗定位瞳孔坐标,再分别得出与其对应的MTCNN瞳孔坐标的平均位置来作为本文瞳孔精定位位置。最后,结合该瞳孔坐标,利用边缘和角点检测算法在眼部区域精确定位左外眼眦、右外眼眦、左内眼眦和右内眼眦,为下一步视线估计模型的建立奠定基础。实验结果表明,本文提出的改进的人眼定位方法较MTCNN相比,有效提升了低质量图像中人眼定位的准确率且实时性好。其次,建立行为特征融合的动态贝叶斯网络视觉注意力检测模型。分析比较了常用分类/回归方法的优缺点,选取本文采用的混合贝叶斯网络回归模型对VFOA进行估计。分别建立头部姿态和视线检测贝叶斯子模型,针对极端姿态和动态场景下导致的数据缺失问题,增加预测子模型,将各个子模型进行加权融合。实验结果表明,该方法提高了检测准确率、降低了误差值。为进一步提升本文VFOA检测算法对动态姿态变化的适应性,利用增量学习的方法对模型的相关参数以及权重因子进行动态增量更新。实验结果表明,该方法能有效估计人眼的视觉注意力,检测准确率和稳定性均有所提升,对头部自由偏转以及距离变化的鲁棒性更强。最后,在智能服务机器人平台上完成了视觉注意力检测的集成实现。构建了基于视觉注意力检测的服务机器人控制系统,设计了系统的软硬件部分,并将视觉注意力检测结果转化为对应的控制指令,实现对服务机器人的交互。实验结果表明,本文提出的视觉注意力检测方法能够有效控制服务机器人运动且实时性强,具有一定的实用价值。