【摘 要】
:
图像目标检测是计算机视觉领域的一个基础任务,主要用于自动识别和定位图像中的特定目标,是许多人工智能技术的基础,有极其重要的军用民用价值。近年来,基于深度学习的目标检测方法取得了飞速的发展,也成功应用于一些工业场景。但是,可靠性不足、计算量过高、泛化能力差等问题大大限制了目标检测算法的应用范围。本文以大规模公开的数据集中的目标为对象,对图像目标检测算法展开了研究。研究工作包括三个部分:(1)总结了目
论文部分内容阅读
图像目标检测是计算机视觉领域的一个基础任务,主要用于自动识别和定位图像中的特定目标,是许多人工智能技术的基础,有极其重要的军用民用价值。近年来,基于深度学习的目标检测方法取得了飞速的发展,也成功应用于一些工业场景。但是,可靠性不足、计算量过高、泛化能力差等问题大大限制了目标检测算法的应用范围。本文以大规模公开的数据集中的目标为对象,对图像目标检测算法展开了研究。研究工作包括三个部分:(1)总结了目标检测领域的发展历史和发展现状,指出了该领域未来可能的发展方向。阐述了主流目标检测算法的过程,介绍了选用的数据集,说明了目标检测算法的评价体系。(2)提出了一种单阶段目标检测器SSD的优化方案。针对SSD的缺陷,采取了两种优化措施。第一,在原算法的基础上,提出了具有三个分支的网络结构,用于解决数据集中的数据不均衡带来的训练问题。同时,采用了分尺度的训练方法来适应多分支的网络结构。这种网络结构可以更充分地拟合不同尺度的目标。第二,引入特征融合模块来解决底层特征图上语义信息不足的问题。该模块可以有效地利用高层语义信息来提升小目标的检测性能。本文通过实验对改进算法进行评估,并说明了优化方案的有效性。(3)提出了一种小样本目标检测算法的框架,该框架由目标检测子网络和小样本分类子网络组成。在构建检测子网络时,本文采用了广义类别的训练方法,使得网络可以提取不同类别目标间共性特征,从而更好地检测未见类别;还引入了锚点框k均值聚类方法,用于生成新数据集上合适的锚点框尺寸。在构建分类子网络时,本文通过数据预处理模块,去除了图像冗余信息,提升了距离度量的准确性。实验时,本文先分别训练和测试两个子网络,获得了良好的实验结果;随后,将子网络进行融合,构建了端到端的检测框架,并通过端到端的测试实验说明本文方案的优越性。实验结果表明,相较于基准方法,本文提出的方法在性能上有所提升,具有一定的参考价值。
其他文献
唇读,旨在通过说话者嘴唇及其周围区域的视觉信息,解码其所说文本内容,是计算机视觉领域的一个重要问题,在公共安防、健康医疗、军事情报等领域有着广泛的应用价值。近年来,深度学习技术的兴起、大规模唇读数据集的构建和计算机算力的提升极大推动了唇读研究进展,取得里程碑式的突破。本课题围绕唇部运动规律和深度网络结构特点,对基于深度学习的唇读方法进行探索研究,分别对当前主流唇读方法的特征提取前端网络和序列建模后
电动舵传动系统是装备中用于高精度、高响应控制运行轨迹的关键设备系统。舰船电动舵传动系统的传动机构受盐碱环境腐蚀,其轴承等关键零部件出现的故障将对装备安全可靠服役产生重大影响。本文以电动舵传动系统为背景,重点研究低速往复运动的模拟实验台设计及滚动轴承智能故障诊断算法。文章首先提出了针对一维振动信号的多尺度卷积神经网络智能诊断模型,利用西储大学的轴承数据集验证了其优秀性能,并基于某型电动舵传动系统工作
为了更加直观和清晰地观察患者体内正常和病变组织(即肿瘤),医师通常需要借助医学影像的辅助,为患者临床诊断和制定针对性的手术方案提供科学依据和必要准备。医生在进行手术之前,可以借助医学影像分割技术,从患者的影像学资料中,得到人体的器官与病变组织分割结果。分割技术能够增加医生对肿瘤病变情况的了解程度,同时帮助医生在完全切除肿瘤病变区域的前提下,尽量保护肿瘤周围的血管、神经等正常组织,并以此增加手术的成
文学作品能够引发读者对于人性真、善、美的思考,因而具有独特的育人价值。本文聚焦英文小说类语篇,结合教学实例探讨如何挖掘小说类语篇的育人价值。在教学设计和实施中,教师可将育人与小说类语篇的文体特征及语言特点相结合,引导学生在探究语篇主题意义的过程中,辨析矛盾冲突,剖析人物心理和探析故事结局,学会认识和分析人性真、善、美及人与人之间关系的一些基本问题,从而促进思维的发展,达到育人目的。
当前,计算机相关技术在医学领域扮演了越来越重要的角色。而医学图像作为医学诊断中重要的组成部分,对于病患的病情判定,疾病的严重程度评估,以及康复预测等方面,都具有极其重要的意义。医学图像分割可以快速且准确的将医学图像中的病患区域和背景区域分割开,对于临床治疗和医学研究都有很好的辅助作用。深度学习的兴起大大提高了医疗图像分割的准确度,同时可以提取出医生很难定性定量的病理特征,甚至探究尚未发现的医学原理
吸烟有害健康,在公共场所吸烟,不仅污染空气,还有着造成火灾等灾害的隐患。对于一些严禁吸烟的场所,如机场、加油站、化工仓库等,需要采取监督和检测手段监视吸烟行为。通过人工监管或者烟雾传感器等手段检测,不仅耗费人力物力,检测效果也不甚理想。为解决吸烟检测问题,本文设计了基于机器视觉的吸烟检测算法,通过摄像头捕捉视频帧,使用基于深度学习的目标检测算法检测吸烟行为。本文创新工作如下:首先,针对实时性检测问
图像作为信息最直观的表达,应用广泛。随着前端数据采集传感器的发展,单源信息已不能满足日益复杂的需求。不同源图像具备不同特性,红外图像物体轮廓清晰、包含热度信息,但像素值低、细节缺乏;可见光图像与之相反。一个自然的想法,将这二者融合可获得更有价值的图像。另外,由于光学传感器成像原理的限制,单镜头无法保证画幅全对焦,将同视角下通过调整焦距获得不同景深目标的局部清晰图像对进行融合,以获得整体清晰的图像。
近年来,目标检测算法发展十分迅速,成果也非常显著,基于深度学习的检测算法更有着远超传统算法的性能。但是,该领域的发展仍然存在着一些问题和挑战。首先是在特定检测应用场景,比如人头检测中的虚警和漏检问题,限制了其在一些对计数准确度要求比较高的情况下的应用;其次,由于全监督下基于深度学习的检测算法一般需要大量的标签才能够训练出一个比较好的模型,为降低大量标注所带来的人力和物力上的消耗,出现了半监督和弱监
作为自然语言处理中的一项重要任务,机器阅读理解(Machine Reading Comprehension,MRC)已经受到了业界内广泛的关注,大量研究人员正积极探索这一新兴领域。其具体指的是让机器依据给定的文本信息来回答一个语义相关的问题,通常这是一个较复杂和漫长的流程,涉及到语义编码、信息融合、模块交互等众多方面。而多跳MRC则在此基础上提出了更高的要求,要求机器具备推理能力,本文就此任务展开
新型冠状病毒疫情的突发及在全球范围内的迅速蔓延,人们对于防疫用口罩的需求激增。防疫用口罩的种类繁多,各类适用的场景有所不同,在选择和使用上容易存在误区;大量的防疫用口罩产品的使用带来的环境负面影响不可小觑。此前,纺织领域的研究者已将碳足迹、水足迹及化学品足迹等生命周期评价方法的指标相结合,量化评估纺织业所产生的温室气体排放、水资源消耗和化学品污染相关的潜在环境影响。但是,国内外学者对防疫类口罩的环