基于深度学习的目标检测与分割算法研究

来源 :北京工业大学 | 被引量 : 63次 | 上传用户:my_code
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着科技的进步,以深度学习为代表的人工智能技术被越来越多的运用在科研与工程的方方面面。自动驾驶、人机对话、基于内容的图像检索、人脸识别等等,人工智能技术在这些领域都获得了广泛的应用。名噪一时的AlphaGo也是深度学习技术被实际应用的又一个案例。人工智能技术的来源是仿生,而人类绝大部分信息源自视觉。因此,图像识别技术是人工智能的一个极重要领域。如何理解场景,如何识别物体所属类别,是人工智能系统应用的关键问题之一。传统的图像识别算法,图像的特征提取与分类两步是分开进行的。这就使得人需要手工构建、选择针对目标的特征。这不但增大了人的工作量,而且在面临复杂陌生问题时,人往往无法设计出足够优秀的特征。并且最关键的,人设计出的特征往往是肤浅的,针对于诸如梯度、颜色、纹理等某一方面的浅层特征。这就使得传统的图像识别算法有很大的局限性,性能提高空间有限。而近年来,随着硬件水平的提升,深度神经网络开始变得实用化了。其最大的特点在于特征提取与分类被整合到了一个单独的神经网咯之中。并且随着网络结构的加深,它可以提取到物体的深层高级别特征。这使得人工智能技术在近几年获得了跨越式发展。本文针对机器人以及无人车的等自然场景下的图像识别问题,研究主要基于深度学习算法,主要内容包括:(1)实现了一种快速的基于卷积神经网络的行人车辆场景检测模型。本文参考了全卷积神经网络、知识提取等前沿算法,成功的提升了原有基于卷积神经网络的行人车辆检测模型的实时性,使其与识别精度能够达成平衡。在自动驾驶领域,能够实时的处理路况信息无疑是非常重要的,因此本章的工作也就具备了很强的实际意义。(2)提出了一种基于深度学习的类别分割至目标分割转化模型。基于深度神经网络的语义分割算法,可以有效的得到被识别场景的像素级别标签。但在面对粘连的同类物体时,语义分割算法无法有效的得到单个个体,这无疑大大限制了语义分割算法的应用范围。本文提出了一种基于深度神经网络与局部特征相结合的物体分割方案,可以有效的处理同类物体粘连的问题,进而得到单个目标。(3)提出了一种基于深度神经网络的文字位置检测方法。在机器人面对自然场景时,往往需要提取其中的文字信息。但自然场景中的文字往往相互粘连,这造成了大量的漏检。本文通过使用残缺粘连的文字区域图片训练神经网络,可以使得神经网络在检测文字位置的同时,避免文字粘连所带来的漏检问题。在处理自然场景中的文字识别问题时,克服文字粘连问题无疑是很重要的。(4)基于深度学习的图像识别系统的实现:为了达成理论与工程的平衡,本文的实验均没有使用仿真工具。本文使用了当前流行的开源程序库,与自行编写的代码相结合。由于全部代码可见并且没有版权问题,这使得本文的工作具备较强的工程性与实用价值。
其他文献
为解决采空区下伏特厚自燃煤层综放开采回采巷道矿压显现的问题,以河南能源新疆公司永宁煤化二采区2301工作面为工程背景,通过对巷道变形破坏、围岩松动圈发育、回采工作面支
经济和社会发展脚步一直没有停歇,对于能源需求也在不断攀升.天然气是一种清洁能源,可以有效缓解目前能源紧张问题.同时,其还可以对我国能源结构产生很大影响.其具备清洁性能
当前,基础设施的严重滞后已成为我国经济实现长期快速增长的主要限制因素,对此必须从理论的高度加以认识和把握。然而现有经济理论对于基础设施建设与经济增长的关系还缺乏
他被人称作"中国研究康德的第一人",他自称"国内没人敢像我这样,拿着黑格尔的《精神现象学》一字一句地读给学生听",他时常毫不留情地针砭时弊、直抒胸臆,他是至今仍沸沸扬扬
项目投资风险分析与评估是可行性研究的重要内容之一。风险评估的基础是风险识别。本文将分析农业投资项目的特点,讨论农业投资项目风险的类型及其影响。
"会计学基础"作为会计学专业的入门课程,一直被认为是抽象、难懂、难记、易忘的一门学科.本课题组通过PBL教学模式为主,建立教学多边互动机制.通过强调学生的主动学习,把学习过
<正>南阳分行开展"三严三实"专题教育,着眼于"真",扎根于"实",全力确保专题教育不空、不虚、不走过场,取得初步成效。农发行河南省南阳市分行按照上级行党委的安排部署,扎扎
<正>一、《农村土地承包法》的立法动态(一)立法背景我国在改革开放初期实施农村土地家庭承包责任制,确定了以家庭承包经营为基础,统分结合的双层经营体制,极大地调动了农民
本文论述了先秦私学的特点及意义。认为先秦私学的意义主要体现在以下五点 :一是先秦私学使“学校”和“教育”的意义和价值体现了出来 ;二是先秦私学极大地提高了民族的文化