论文部分内容阅读
在我国,包括盲人和低视力人士在内的视力障碍者是一个庞大的群体,由于获取环境空间信息的能力极其有限,他们在日常出行、工作、学习及生活中会遇到各种困难。本文着眼于视障人士的出行难题,基于视障辅助智能设备,利用计算机视觉的技术手段,创新性地提出了面向视障辅助的视觉感知方法,进而为视障辅助系统的可靠、实时和便携等关键性能提供重要的技术支撑。在视障出行辅助的视觉感知技术中,视觉定位和交通路口场景感知是两个重要且亟待解决的问题。视障辅助中的视觉定位具有大尺度范围、长时间跨度、相机可穿戴和输入图像离散的特点,研究界尚未针对视障辅助中的视觉定位问题开展研究。现有的交通路口下的场景感知算法较为简单,人行横道和人行道交通灯检测算法无法同时对于不同光照、不同天气、不同角度、不同距离和被遮挡的目标进行实时、准确的检测,无法适应视障辅助实际环境的需要。本文着眼于弥补研究现状中的不足,针对视障辅助感知中的视觉定位问题,基于多模态图像提出多重描述子融合和可学习深度特征两种视觉定位方案;在视障辅助中的交通路口场景识别问题上,提出基于自适应分割和一致性分析算法的人行横道检测以及基于颜色特征机器学习和时空域分析的交通灯检测方法。本文融合基于多模态图像的多重描述子,提出了一种用于视障辅助的视觉定位方法OpenMPR,同时采集了视障辅助的实际场景定位数据集,在大尺度范围、长时间跨度、使用可穿戴相机等开放室外环境下实现了关键位置预测和全路径定位功能,填补了视障辅助领域视觉定位的空白。此外,本文进一步充分利用多模态图像,同时利用并改进可学习深度特征NetVLAD,提出了一系列视觉定位和场景识别方法。本文提出的全景环带定位框架将全景环带图像和深度描述子结合,同时解决视觉定位中的视角变化和外观变化问题。本文提出的多模态分级的视觉定位框架使用图像检索的粗定位、几何验证的精确定位和序列匹配的多帧融合以获得精确的定位结果。基于紧凑型卷积网络,本文还提出了一个统一场景描述和场景识别功能的集成网络。以上方法在实际场景中的性能良好,能够实时准确地解决穿戴设备上的具有挑战性视觉变化的定位问题,并同时兼顾场景识别应用。在交通路口场景识别中,本文提出了一种新的人行横道检测算法AECA及其交互方法。算法通过自适应阈值提取人行横道的亮条带,并通过一致性分析将条带聚类形成人行横道,其中聚类的依据为条带的多种几何和灰度特征。与只能在理想场景中检测人行横道的现有算法相比,该算法在远距离人行横道、低对比度人行横道、行人遮挡、各种环境光照等具有挑战性的情况下均能实现出色的性能。同时,实地实验验证了所提出的交互方法在可穿戴设备上实现了斑马线型人行横道的导航功能。此外,本文还提出了一种基于颜色分割、HOG-SVM分类和多帧融合的实时人行道交通灯检测算法。为了在具有挑战性的情况下实现鲁棒性和效率,检测算法包括三个过程:候选对象提取、候选对象识别和时空域分析。候选对象的提取和识别过程中都充分利用了人行道交通灯的颜色和形状特征,时空域分析阶段则解决了实际使用中的待测目标图像变化可能造成的检测失败问题。所提出方法实现了不同类型、不同距离、不同天气条件等实际情况下的出色检测性能,检测精度和召回率均十分优异。本文还建立了人行道交通灯的数据集,算法在移动设备上的运行帧率也完全满足视障辅助的需要。本文研究涉及的视觉定位和场景感知技术包括视觉算法设计、实地数据采集和人机实验等内容,所提出的方法为视障辅助领域发展做出了有益探索,也能在机器人导航、自动驾驶等应用领域发挥作用。