基于注意力感知的声呐图像轻量级目标检测网络研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：ljmworkshop

【摘要】

：

【作者】

：

胡宏洋

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声呐作为水下机器人、航行器等载具的辅助设备,为其执行海底目标探测识别、海床建模与绘图等任务提供有效的声学数据信息。声呐图像是声呐数据信息的一种直观表现形式。当前通过声呐图像实现海底探测的自动化、智能化已经成为一种主流的形式。传统图像识别检测方法常常依赖于专业人员丰富的先验知识,需要其根据当前受检测物体进行手工特征提取,受人为因素影响大,且检测速度与检测精度不理想。深度学习目标检测算法作为当前目标检测算法的主流方向,已经在光学、医学、遥感图像上展现出其强悍的性能。声呐图像由于自身存在信噪比低、海底噪声混响干扰严重,目标形状细长/细小难回归等问题,直接应用深度学习目标检测算法的实际性能并不理想。当前学术界为提高深度学习目标检测算法的性能,对特征提取网络不断加深加宽,也导致网络的参数量和计算量成倍的增加,对算法在工业界的落地部署提出了挑战。本文针对以上问题,展开了基于注意力感知的声呐图像轻量级目标检测网络研究,主要研究内容如下:（1）针对面向于声呐图像的目标检测网络算法实际性能表现问题,本文部署了YOLOv4、Cascade R-CNN和DETR三种不同思想的深度学习目标检测网络用于声呐图像目标检测任务。实验结果表明当前深度学习目标检测模型能够对低信噪比的声呐数据集实现稳定的损失收敛。但由于模型设计思想不同,在对声呐图像中常出现的细长、细小目标的进行定位回归时,三种模型Io U精度各有差异,在检测速度与检测精度上难以达到兼顾。尽管YOLOv4模型相对地取得平衡,也仍存在参数量大、计算复杂的特点。（2）针对声呐图像类光缆目标（细长）和类水雷目标（细小）因尺度跨度大而导致的回归精度不佳的问题,本文提出一种注意力感知的YOLOv4-DT检测算法。在高分辨率特征图引入可变形卷积模块实现目标短距离形变感知,在低分辨率特征图引入多头自注意力模块实现目标长距离依赖感知,并通过Ranger梯度优化策略实现对模型的快速收敛。实验结果表明,YOLOv4-DT模型对细长/细小目标的检测精度更高,目标的回归定位更加准确,且模型的参数量与计算量有所下降,检测速度获得提高。（3）针对深度学习目标检测网络模型参数量大、计算复杂的问题,本文采取模型剪枝的方法,对改进后的YOLOv4-DT网络进行轻量化压缩。通过结构化通道剪枝的策略,在牺牲少量模型精度的前提下,压缩网络参数,减少浮点数计算量,进一步提高网络检测速度,为高效深度学习网络模型能够更轻量地部署在声呐设备载具上提供可能。

其他文献

临沂市人口结构与住房需求研究

七普与六普数据相比，临沂市呈现人口规模增长、老龄化加剧、家庭规模小型化的趋势。分析2010—2020年临沂市的人口结构和住房需求数据，用主成分分析和多元线性回归模型相结合的方法，结论显示：人口总量、收入、平均家庭户规模对临沂市住房需求影响最大。据此提出了临沂市住宅市场供需平衡发展的对策和建议。

期刊

Gamut Fitting and Compensation Methods for Color Vision Deficiency

患有色觉缺陷（CVD）的人难以区分颜色,全世界约有2亿人受到色觉缺陷疾病的影响。生活中最常见的色觉缺陷类型是L椎体细胞缺陷和M椎体细胞缺陷,我们通常称为红绿色盲。由于L椎体细胞缺陷和M椎体细胞缺陷是由性染色体X染色体上的基因决定的。因此,男性比女性更容易患上这种遗传性疾病,且目前的药物无法治愈。这种疾病会导致可识别信息的丢失,从而严重影响日常生活,甚至可能使他们面临危险。为了帮助CVD患者改善日常

学位

基于学习的三维人体重建和虚拟服装拟合方法

从单张图片中进行三维人体姿态与形状估计是计算机视觉中一个开放问题。由于图片天然缺乏深度信息,模型很难获取真实的深度信息。并且在真实场景中,遮挡问题普遍存在,导致人体可见信息不全。此外,对人体模型进行服装建模仍然是一个复杂问题。遮挡问题是人体姿态和形状估计任务中一个关键问题,其中遮挡包括人体的自我遮挡、物体与人的遮挡以及人与人之间的遮挡。为此,本文提出了一个新的框架,它整合了可遮挡感知的轮廓和2D关

学位

基于图同构网络和指针生成网络的开放型三元组抽取研究

知识图谱是一种高度结构化的语义知识库,在语义检索、个性化推荐等领域有着广泛应用。三元组抽取作为知识图谱构建过程中至关重要的步骤,目的是从文本数据获取两个物理事实之间存在的客观联系。面向限定领域的三元组抽取方法需要预先定义所有实体和关系类型,使用机器学习或深度学习的方式在大规模数据集上训练分类模型。然而,在实际应用中实体和关系类型都会随着文本量的自然增长而增加,预先定义所有实体关系类型较为困难。对此

学位

基于深度学习的多脑运动想象脑电解码研究

脑机接口系统（Brain Computer Interface System,BCIs）是一种不依靠外周神经通路和肌肉等常规信息传递通道来控制外部设备的系统。传统单脑运动想象脑机接口作为最常见的主动式脑-机交互范式,存在信息传输速率较低、稳定性差等问题,难以满足快速、高精度、多指令等复杂作业的性能需求。近几年,越来越多的学者开始研究如何将基于脑电的脑机接口单脑范式向多脑扩展,以得到更稳定的分类结果

学位

基于对比学习与图神经网络的信息智能抽取技术研究

随着大数据时代的来临,各行各业每时每刻都在互联网中产生数据,数据体量正以指数级的速度增长。然而,在执行诸如在线预定、自动存取款、库存控制等操作时往往需要结构化数据,而结构化数据的获取依赖于自然语言处理中的信息抽取技术,信息抽取技术可以实现数据从非结构化到结构化的过程。信息抽取技术的核心子任务为命名实体识别和关系抽取,通过命名实体识别和关系抽取,可以快速抽取出句子中的有效信息,服务于日常生活中的各种

学位

近年来福建省经济金融运行形势分析与思考

早在新冠肺炎疫情冲击之前，福建省已处于经济增速换档期、结构调整阵痛期和前期政策消化期等“三期叠加”的困境之中，但新冠疫情使福建省经济又面临着“需求收缩、供给冲击、预期转弱”的三重压力。全省经济加速下行，集中表现为各市场主体资产负债表的全面衰退；而金融则充分发挥了跨周期逆周期调节作用，全面体现了金融为民的使命担当。新冠疫情充分暴露了福建省经济运行中的结构性和体制性问题，同时也重塑了社会经济生活秩序，

期刊

基于体细分的三维模型交互构造及拓扑优化结果CAD重建方法研究

有限元分析作为目前广泛应用的数字化仿真技术依赖模型的离散化,模型离散化主要将模型转换成四面体网格模型或六面体网格模型。针对目前单一六面体网格生成与构造困难的问题,提出了一种基于体细分的复杂六面体网格模型交互式构造方法并构建了一个建模系统。此系统在建模阶段就以六面体网格单元作为基础形式进行构建,省去了将三角形表面网格转为六面体网格耗时的步骤,且将这种方法应用于拓扑优化结果CAD重建阶段生成Bézie

学位

基于跨域特征学习与融合的无监督人脸画像合成

人脸画像合成,是指将给定的人脸照片转换为某种艺术风格的肖像,如素描、钢笔画等。现有工作通常利用成对的照片-画像数据集,以有监督的方式训练画像合成模型,以获得较好的生成效果。然而,获取成对的照片-画像数据集需要耗费大量的时间、人力和财力。因此,无监督人脸画像合成方法,即从非成对照片-画像数据中学习照片域到画像域的映射关系,具有重要的研究价值。现在,研究人员已经提出了少量无监督人脸画像合成方法。不过,

学位

《MTZ-C型脉冲调制中频电疗机》电路设计原理

该仪器是为实施脉冲调制中频电疗方法而设计的一种新型电疗机。它将有关低频脉冲信号对中频调幅后,利用被放大的调幅波电流对人体进行治疗。经空军总医院临床实践,可治疗多种疼痛和疾病。本文介绍其电路设计原理。

期刊

基于注意力感知的声呐图像轻量级目标检测网络研究

其他学术论文