论文部分内容阅读
近些年来,随着科技的进步,以深度学习为代表的人工智能技术被越来越多的运用在科研与工程的方方面面。自动驾驶、人机对话、基于内容的图像检索、人脸识别等等,人工智能技术在这些领域都获得了广泛的应用。名噪一时的AlphaGo也是深度学习技术被实际应用的又一个案例。人工智能技术的来源是仿生,而人类绝大部分信息源自视觉。因此,图像识别技术是人工智能的一个极重要领域。如何理解场景,如何识别物体所属类别,是人工智能系统应用的关键问题之一。传统的图像识别算法,图像的特征提取与分类两步是分开进行的。这就使得人需要手工构建、选择针对目标的特征。这不但增大了人的工作量,而且在面临复杂陌生问题时,人往往无法设计出足够优秀的特征。并且最关键的,人设计出的特征往往是肤浅的,针对于诸如梯度、颜色、纹理等某一方面的浅层特征。这就使得传统的图像识别算法有很大的局限性,性能提高空间有限。而近年来,随着硬件水平的提升,深度神经网络开始变得实用化了。其最大的特点在于特征提取与分类被整合到了一个单独的神经网咯之中。并且随着网络结构的加深,它可以提取到物体的深层高级别特征。这使得人工智能技术在近几年获得了跨越式发展。本文针对机器人以及无人车的等自然场景下的图像识别问题,研究主要基于深度学习算法,主要内容包括:(1)实现了一种快速的基于卷积神经网络的行人车辆场景检测模型。本文参考了全卷积神经网络、知识提取等前沿算法,成功的提升了原有基于卷积神经网络的行人车辆检测模型的实时性,使其与识别精度能够达成平衡。在自动驾驶领域,能够实时的处理路况信息无疑是非常重要的,因此本章的工作也就具备了很强的实际意义。(2)提出了一种基于深度学习的类别分割至目标分割转化模型。基于深度神经网络的语义分割算法,可以有效的得到被识别场景的像素级别标签。但在面对粘连的同类物体时,语义分割算法无法有效的得到单个个体,这无疑大大限制了语义分割算法的应用范围。本文提出了一种基于深度神经网络与局部特征相结合的物体分割方案,可以有效的处理同类物体粘连的问题,进而得到单个目标。(3)提出了一种基于深度神经网络的文字位置检测方法。在机器人面对自然场景时,往往需要提取其中的文字信息。但自然场景中的文字往往相互粘连,这造成了大量的漏检。本文通过使用残缺粘连的文字区域图片训练神经网络,可以使得神经网络在检测文字位置的同时,避免文字粘连所带来的漏检问题。在处理自然场景中的文字识别问题时,克服文字粘连问题无疑是很重要的。(4)基于深度学习的图像识别系统的实现:为了达成理论与工程的平衡,本文的实验均没有使用仿真工具。本文使用了当前流行的开源程序库,与自行编写的代码相结合。由于全部代码可见并且没有版权问题,这使得本文的工作具备较强的工程性与实用价值。