基于目标检测和图卷积的跨模态检索算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhouxin313333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据时代和信息时代的到来。信息和数据越来越成为社会经济发展和人们生活提高的重要推动力。而检索作为高效获取信息方法就显得尤为重要。跨模态检索作为获取跨模态信息的重要方法,社会价值巨大,自然引起越来越多人的关注和研究。随着深度学习和人工智能的发展,跨模态检索也取得了长足发展。其中目标检测和图卷积相结合的深度学习方法越来越引起人们的注意,成为跨模态检索中的一个重要研究方向。本文同样关注这一方向,并且从以下三个方面在该方向上进行了研究。一、开发多层图卷积中不同层的学习能力,提升多层图卷积的学习能力。在跨模态检索中图卷积的应用往往是连续多层的,这样相比单层可以起到更好的效果。但是以往只使用了最后一层图卷积的输出结果,而没有对多层图卷积其它层进行立体的开发。本文利用跳跃的设计模式,将中间层跳跃过后面的图卷积直接进入下面流程,来实现对多层图卷积不同层的灵活控制,使得能够对不同层进行不同程度的学习和开发。结果表明本文的方法可以整体提升图卷积的特征学习能力,提升跨模态检索的效果。二、通过多粒度文本特征学习来提高文本部分的特征学习能力。在以往的跨模态检索中,文本部分的特征学习都是使用简单的循环神经网络GRU来完成。这样的文本特征学习方式太过简单,无法充分学习到文本信息。我们采用多粒度文本特征学习来代替GRU。通过多粒度文本特征学习,文本特征学习部分的学习能力得到增强,文本部分可以学到丰富的多种粒度的文本信息,能够将文本中的信息充分学习到。结果表明多粒度文本特征学习增强了文本特征学习能力后提高了检索的抗干扰性,当检索的数据量变大时,检索效果下降的会相对较少。三、通过混合检索来提升整体检索效果。以往的跨模态检索都是在算法中构建一个检索模型,用一个检索模型的检索能力来进行检索。受混合推荐算法的启发。我们在一个算法框架中构建两个检索模型,让两个检索模型同时起作用,通过一定方式将这两个检索模型整合在一起,使用两个检索模型整体的检索能力来进行检索。由于每个检索模型都有一定的检索能力,当这些模型叠加在一起时,检索能力会相互增强,得到的整体检索效果也就更好。当两个模型的特征向量在特征空间中的态势一致性较高时,增强的效果就会更加明显。由于是两个检索模型共同起作用,因此抗干扰性会增强,当检索的数据规模变大时,检索效果下降的会更少一些。本文集中从多层图卷积中间层使用、多粒度文本特征学习、混合检索三个方面对目标检测和图卷积相结合的跨模态检索算法进行了立体研究,并且实验证明本文的改进方法和理论创新都在一定程度上提升了检索效果。
其他文献
本文研究压缩感知中的信号恢复问题.对lp-范数正则化问题,利用连续加权技术和绝对值函数的光滑逼近函数将其光滑化,使用三项共轭梯度法来求解光滑化后的模型.证明了水平集的
产能过剩严重阻碍和制约着我国经济健康的发展,制造业成为产能过剩的重灾区,其中重工业更为严重,这主要是因为重工业大多都是资本密集型行业,实际生产过程需要大量的投资从而
非晶合金作为一种亚稳态材料,由于其微观结构的“无缺陷”—内部没有位错、晶界、相界,不存在偏析、夹杂等缺陷,所以具有比晶态金属更加致密的无序堆积状态,因此大块金属玻璃
传输泵站是煤矿供排水系统的重要组成部分。该设备的稳定、可靠运行为矿井的安全生产提供有力的保证。但其存在能耗、成本、安全、设备监测监控、劳动生产率等方面的问题,为
随着互联网的飞速发展,涉及网络和数据的服务与应用呈现爆发式增长,与此同时越来越多的网络安全风险和问题不断暴露出来。计算机病毒自我复制和传播能力强、破坏力大,从而引
毫米波技术和大规模多输入多输出系统(Massive MIMO)的集成可以增加可用带宽并且提高频谱效率,被认为是未来无线通信系统最有前景的技术之一。但是,由于毫米波频段射频链路功
双相不锈钢因兼具奥氏体铁素体两相组织特点,作为一种高性能结构材料被广泛应用于石化、化工、海水和造纸等工业领域。节Ni型双相不锈钢通过以Mn代Ni来稳定奥氏体相,由于Mn和
相对输出图像,输入图像有时来自单一传感器,或者不同传感器,通过融合技术可以将多幅输入图像组合为单幅输出图像,让其包含的场景信息优于任意一幅输入图像。近三十年来,图像
以水淬镍渣为代表的含铁、硅系废渣年排放量达1000万吨以上,然而我国镍渣的利用率较低、大量堆积在渣场,既造成资源浪费又污染环境。目前国内外的主要研究重点是火法回收其中
行人检测旨在检测出图片或视频序列中是否存在行人并对其定位,通常用于智能监控、智能机器人以及自动驾驶领域中。作为众多任务的重要前置处理环节,它常常与行人跟踪、行人重