基于多阶信息的细粒度图像识别方法与应用

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：kimimoomoo

【摘要】

：

【作者】

：

王庆涛

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像分析在生产生活中有着广泛的应用,传统类别的图像分类已经取得了较大的突破。与传统的图像分析相比,细粒度图像识别是专门针对某一类别的细分类进行识别的课题,比如自然保护区的生物类识别、无人超市的商品识别等。由于细粒度图像数据集难以收集,并且细粒度图像本身存在“类内差异大,类间差异小”的问题,其分类识别存在一定挑战性。细粒度图像分类旨在学习一种鲁棒的图像表示,对相似种类的细微差异进行建模。该领域的现有方法基于深度学习来设计算法模型,并使用一阶或高阶池化来产生细粒度特征向量。尽管这些策略取得了一些进步,但使用单阶特征统计的网络仅获取了最后一个卷积层的线性或非线性信息,而忽略了不同阶的特征相互补充的事实。本文受高阶池化和特征学习的理论方法所启发,创新性地提出了基于多阶特征的细粒度图像识别方法,取得了较高的识别准确度。本文研究的主要内容包括:（1）结合多阶特征统计的图像分类模型（Multi-Order Feature Statistical model for fine-grained visual categorization,MOFS）。卷积神经网络中有一阶和高阶池化技术,不同池化方式可以捕获具有差异性的图像特征。本文创新性地构建了一个结合多阶特征统计的模型MOFS,使用两个子模型分别提取了一阶和二阶特征统计信息。模型同时结合了多层级的判别信息,包括图像的局部信息、全局信息和特征相关性信息。MOFS在三个细粒度分类数据集上实验,取得了优于其他方法的细粒度识别准确率,证明了多阶特征有助于提升模型的表示能力。（2）基于特征增强的多阶图像分类模型（Feature Enhanced Multi-Order model for fine-grained visual categorization,FEMO）。MOFS模型没有捕获多层级的高阶特征,并且其多阶特征权重需手动设置。在其基础上,本文提出基于特征增强的多阶图像分类模型FEMO,模型通过共享权重的多分支池化的形式来统计差异化的特征信息。此外模型创新性地设计了多层级特征的高阶提取方式,使得多阶的特征得到了增强。为了融合多分支的池化预测,FEMO模型最后引入了单独的自适应权重网络。最终的实验证明了多层级特征增强的有效性,并使得细粒度图像识别准确度进一步得到提高。为了验证提出的模型的泛化性和实用性,本文将FEMO迁移到机器人抓取任务中,构建了基于FEMO的抓取模型,并在相关的抓取数据集中进行训练。本文最后使用Py Bullet仿真包搭建了机器人仿真抓取环境,在仿真实验中模拟了机器人抓取检测的全部过程,实现了比单阶网络模型更高的抓取检测性能。

其他文献

交通流预测与网约车路径选择的研究

网约车系统（Online Car-Hailing System,OCS）是城市交通的重要组成部分,随着汽车保有量的快速增多,在城市运营网约车会遇到交通拥堵问题。预测交通流指导网约车进行路径选择,对缓解城市交通拥堵具有现实意义。本文针对交通流预测与网约车路径选择展开研究。目前在交通流预测领域多采用深度学习方法,并且通常只考虑少数交通流影响因素,通过综合考虑多种交通流特征预测交通流能有效提高预测精度;

学位

基于声音诱发脑电信号的说话人身份识别方法研究

在中国,每年有数以万计的人确诊听觉障碍,助听器可以有效地帮助康复治疗。大多数助听器放大有效声音的同时,也会放大环境噪声,影响体验。通过采集听者脑电信号,使用听觉注意力检测方法获取听者关注的声音并进行放大,是提升患者体验的有效手段,但是该方法通常要求听者高度集中注意力而难以推广应用。为解决该问题,本文试图通过听者脑电信号识别说话人身份,以此降低对听者要求。目前关于听者脑电信号的说话人身份识别研究非常

学位

灾难自检型大规模无线传感器网络中触发式数据的区域聚集收集系统研究

网络编码在无线传感器网络数据采集中的研究与应用是目前较为热门的课题,其能够通过编码的方式提高灾难场景下数据的可靠性。在传统的编码采集方式中,一般利用节点采集的数据互相进行交叉式编码。然而,针对只有在达到某种特定触发条件后才开始进行数据采集的触发式数据场景,这种交叉式编码由于无法产生足够的数据,难以保证数据的可靠性。而且,传统交叉编码进行区域聚集收集时需要较高的收集与解码开销。针对上述存在的问题,本

学位

移动群智感知中的位置隐私保护关键技术研究

学位

人脸艺术肖像画生成算法及服务平台

艺术肖像画生成是指让计算机根据给定的人脸图像生成风格化的画像,其在公共安全与数字娱乐领域具有独特的应用价值。近年来,研究人员提出了各种基于生成对抗网络的艺术肖像画生成方法,并取得了令人瞩目的进展。但是,现有的方法在艺术肖像画的细节纹理生成、几何结构保留等方面仍然面临着很大的挑战。为此,本文提出了一种基于人脸语义正则化约束的肖像画生成算法,并将其应用于素描和钢笔画。然后,本文提出了一种基于非对称循环

学位

基于句法分析的关系分类和关系抽取方法研究

随着信息技术的发展,人类社会进入大数据时代。知识图谱能连接相关数据并建立关系网络,为影视、医疗等行业提供有力支持。关系分类与关系抽取是构建知识图谱的关键技术,深入研究具有重要意义。关系分类旨在实体已知的情况下,预测实体之间的关系类别。关系抽取旨在实体未知的情况下,抽取文本中的关系三元组。句法分析捕获词汇间的依存关系,包含句法结构与句法依赖。使用句法分析技术能显著提升关系分类与关系抽取任务的效果。本

学位

面向边缘计算场景的服务器放置与任务卸载策略研究

随着物联网产业的逐渐成熟和5G技术的问世,海量数据从日常生活的各个领域涌现,作为当前主要计算范式的云计算已经逐渐无法负担急剧增长的数据流量。边缘计算技术的出现为解决日益增长的海量数据带来了希望。作为一种分布式计算架构,边缘计算通过将服务器部署在用户端来提供计算能力,从而可以减少骨干网络拥塞,降低计算响应延迟。然而,城市人口密度分布不均,不同区域人口数量差别较大,导致城市基站工作负载极度不平衡,用户

学位

非齐次Markovian切换IT2模糊系统的H∞控制

在模糊控制中,区间二型模糊系统不仅具有解决一型模糊系统隶属函数不确定问题的能力,且具有比二型模糊系统计算复杂度更低的优良性质。非齐次Markovian切换系统是一类以非齐次Markovian过程为模型的随机切换系统,对结构随机突变的系统进行建模时具有很大的优势。因此,本文以区间二型模糊模型为框架,研究非齐次Markovian切换系统的H∞控制问题,本文研究内容及创新点如下:一、研究一类不确定非齐次

学位

AIS信道接入协议研究及控制子系统开发

船舶自动识别系统（AIS）是一种海上辅助导航系统,该系统能够自主连续的在甚高频信道上广播信息,自动交换船舶静态信息和动态信息,实现船与船、船与基站之间实时通信,对可能发生的事故进行提前预警,有效的避免船舶碰撞,保障航行安全,推动了海上交通运输的发展。目前国内AIS设备厂商较少且大部分实现方案都是采用国外AIS信号处理专用芯片,核心技术受制于人。因此,深入研究AIS通信协议,完成AIS控制子系统的设

学位

面向对比学习的高效协同处理与优化方法研究

在深度学习中,面对不断增加的数据样本量与昂贵的人工标注成本,对比学习作为自监督学习的一种重要方法,可以脱离标签进行基于样本本身的训练。相较于传统的有监督学习,通过对比学习训练的模型可获得理解更丰富的高层次特征的能力,为下游任务提供更优秀的预训练模型。对比学习通常会采用实例识别任务（instance discrimination task）作为训练模型的借口任务（pretext task）。然而,实

学位

基于多阶信息的细粒度图像识别方法与应用

其他学术论文