基于知识引导与融合的细粒度图像识别方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xiaoxiaoxiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细粒度图像识别,是一个著名的计算机视觉任务,其目标是识别子类下的辨别性特征,由于不同类别内部具有很大的差异性,不同类别之间具有很大的相似性,这使细粒度图像识别任务增加了难度。现有的方法主要通过视觉的标注信息和基于视觉局部区域定位方法来提取特征,但是这些方法不但对图像数据有大量的标注需求,而且仅仅使用单一视觉模态信息对数据的表示能力有限,无法全面表征物体。因此,为改进上述现有问题,本篇论文提出了利用知识语义信息融合、指导和决策的方法来进行多模态细粒度分类任务。本文通过文本数据和知识库数据等多模态信息设计了一个基于知识注意力机制聚合视觉特征模型,主要从融合、引导和决策三个方面作用于细粒度图像分类。融合是对文本、知识库等多模态数据进行多嵌入语义空间融合和异步注意力方式的视觉知识空间融合。引导是通过提取视觉语义特征并学习融合语义空间的注意力权重映射的表示。知识决策过程是通过计算类别间语义信息的相似度距离以辅助图像分类概率。最后,本文对提出的方法进行了大量实验,在多个公用标准数据集上和最先进的方法进行了比较并取得了最优的效果。本文验证了通过整合多种不同类型外部数据信息,基于知识融合、引导和决策的方式可以有效的在图像模态数据上进行语义补充及表达来增强细粒度图像分类。本文提出的基于知识的方法为细粒度图像分类提供了一种新的研究思路,相信这是一个有趣的路线为细粒度图像分类继续研究。
其他文献
如今,越来越多的应用和系统都由神经网络(深度学习)所驱动,影响着或者将影响人类日常生活中的许多方面,比如推荐系统、人机交互甚至是安全防护等领域,具体场景包括信用账户评估、垃圾邮件过滤、车牌识别等等。但是神经网络本身也有缺陷,即便是基于深度神经网络的图像分类器也容易受到微小的、难以察觉扰动的影响。恶意生成的对抗样本,虽然不会对人类肉眼的识别过程造成较大的影响,但它却会利用神经网络的不稳定性,误导模型
知识图谱的表示学习旨在将实体和关系投影到低维连续的向量空间中,从而使知识图谱与机器学习模型兼容。知识图谱补全是预测实体之间缺失关系的任务,知识库中有大量的关于实体描述的重要文本信息,而现有的基于卷积网络结构的知识图补全模型只仅仅考虑表明实体之间关系的知识三元组,而没有考虑到实体的文本描述。为此,论文提出了基于门控卷积神经网络的文本增强嵌入模型(GConvTA),将三元组的结构向量与实体描述编码得到
线条画是一种简单有效的形状可视化工具,它使用简单的线条表示图像的主要信息。线条画的特点主要包括连续性与艺术性两个方面。连续性是指画家在绘画时使用连续的线条进行绘制;艺术性是指画家在绘画时有自己独特的风格,而不是单纯地临摹物体的边缘,绘制的线条画具有一定的艺术性和吸引力。针对目前方法生成的结果中存在的线条不连续的问题,提出了一种基于边缘切向流和显著性图的连续性增强的线条画生成方法。通过沿边缘切向流进
目标跟踪技术,指在第一帧框选出感兴趣的目标,随后在一段图像序列中的每一帧图像实时地跟踪感兴趣的运动目标,是计算机视觉中的一项重要技术,在视频监控、安全监控、自动驾驶和人机交互等方面有着广泛的实际应用。其中主动目标跟踪是利用带移动平台的相机,通过图像反馈控制相机运动自动跟踪感兴趣的目标并使其始终保持在视野中心,相比于静态相机跟踪,能够具有更广泛的视野,并更好的关注目标。但是这种只使用一个相机而忽略来
高尔基体从内部结构上可以被细分为三个组成部分:高尔基体顺面网络,高尔基体堆和高尔基体反面网络。高尔基体驻留蛋白质是每个组成部分功能的主要承担者,蛋白质亚高尔基定位预测是确定高尔基体驻留蛋白质在高尔基体内部的位置,有助于深入了解高尔基体内部的工作机制。本篇论文中我们首次将高尔基体堆作为高尔基体定位考虑到蛋白质亚高尔基的定位预测中,构建了第一个包含有三种类型高尔基体驻留蛋白的基准数据集。在对蛋白质序列
在数据分析、模式识别、机器学习等领域中,主成分分析是经典的特征提取算法之一。不论是一维主成分分析还是二维主成分分析,它们都是以欧式距离的平方作为相似度的度量,这样导致过分偏爱距离较远的点,算法鲁棒性较差。虽然大多数现有的鲁棒主成分分析和有关基于F范数的二维主成分分析方法可以减轻图像分析和模式识别领域中对异常值的敏感性。但是,现有方法不光没有保留优化目标中的数据结构信息,也不具有广义性能的鲁棒性。为
随着人工智能与深度学习的高速发展,将具有抽象特征的医疗影像与深度学习进行结合已经成为智能医疗诊断的发展趋势。甲状腺超声影像是基于人工智能进行甲状腺结节相关疾病辅助诊断的重要基础,但已有图像通常包含标记结节位置信息的特殊“十字”标记符号,十字标记干扰了深度学习算法提取到的特征和诊断结果,因此对含有特殊的十字标记的甲状腺结节影像进行修复具有重要的意义。目前图像修复算法在自然图像场景下的修复已经取得了良
视频显著性检测通过模拟人类视觉注视机制,快速辨别动态场景中的感兴趣区域,提高视频数据的分析和处理效率。由于视频场景复杂,包含模糊,遮挡,相机运动等多种干扰因素,加之对象数量多,对象间存在语义交互关系,因此视频显著性检测难度更大,更具挑战性。针对视频显著性检测的关键技术难点在于如何充分理解场景中的语义逻辑,运动特征以及时序关系,以推演的形式合理地计算每一帧的显著区域,以满足显著对象的时间一致性特点。
移动互联网的普及和发展给人们生活的各个方面带来了很大的便利,但是与此同时,为了使用这些便利的功能,人们需要通过互联网传输大量包含个人信息的隐私数据。各种原因导致的数据泄露也得到越来越多的关注。本文对于现有的数据泄露检测技术进行了调查研究,通过对比分析国内外的相关工作可以发现,目前的数据泄露检测方法存在一定的不足。一方面,大部分方法无法保证检测中数据的安全,另一方面,部分使用云端计算能力的方法,检测
利用复杂网络分析方法,对复杂系统中的关系结构及属性进行分析,识别网络中社团结构具有重要研究意义。课题组构建了基于复杂网络算法进行人、物、组织及相互关系的感知、理解、预测的情报分析框架IAF,从基于社会/物理/网络空间中人类电子足迹的大规模社交关联网络(复杂网络)中进行社团检测,是智能情报分析框架中理解模块中的关键功能。本文提出融合网络结构和节点属性的社团检测方法,并进行了实证。首先,提出了结合属性