面向跨模态检索与分类的多视图神经网络学习方法

来源 :四川大学 | 被引量 : 0次 | 上传用户:fuchengjun007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网多媒体技术的快速发展、智能手机的广泛使用以及社交网络的不断普及,人们能够随时随地在互联网上分享有趣的内容,使得互联网上不同模态的多媒体数据(如文本,图像和视频等)呈现爆炸性增长、海量性集聚的特点。如此大规模的数据标志着多媒体大数据时代的到来,同时给基于多模态学习的研究和应用带来了新的机遇和挑战。随着以深度神经网络为代表的人工智能技术的迅猛发展,如何基于深度神经网络模拟人类大脑的认知和理解过程以实现多模态数据在语义上的联系与内容上的理解,正成为人工智能和多媒体领域的研究热点,也是多模态学习中亟待解决的一个关键研究问题。该研究问题也被称作“跨模态内容理解”。跨模态内容理解在国家、社会和个人生活方面都有着至关重要的研究意义和研究价值。“跨模态检索和分类”作为“跨模态内容理解”中的一个具有实际应用价值的具体研究任务,其目标是在用户给定任意模态的查询数据的情况下,从数据库中检索和分类出所有模态中的语义相关联数据。但由于不同模态的数据组织形式和结构上有着巨大的差异(该差异也被称作“异构鸿沟”),导致难以直接度量不同模态数据间的语义相似性,使得跨模态检索和分类面临着巨大挑战。受不同监督模式的影响,跨模态内容理解也呈现出不同的特点及难点。本文面向异构鸿沟的挑战,围绕不同监督模式下跨模态内容理解的研究问题,针对跨模态检索和分类任务中的以下四个科学问题开展研究:·问题1:在多模态数据有标注的情况下,如何避免由于度量标准和损失函数不匹配而引入的误差,同时尽可能平衡地利用来自不同视图的信息?·问题2:在多模态数据有标注的情况下,如何突破多视图哈希学习过程中由于耦合训练而导致的时间局限性和空间局限性?·问题3:在有少量标注数据和大量无标注数据的情况下,如何有效地以半监督学习方式,更好地利用无标注数据帮助提高跨模态内容理解的准确性和鲁棒性?·问题4:在多模态数据没有标注的情况下,如何有效地以无监督学习方式进行跨模态内容理解,缩小不同模态数据间的异构鸿沟?针对这些问题,本文分别设计和提出了一系列不同监督模式下的多视图神经网络学习方法。本文的研究成果总结如下:1.提出了一种深度关系相似性学习方法。与现有的跨模态学习方法不同,所提出的方法直接学习成对的关系相似性矩阵,而不显式地学习公共空间。因此,它可以避免不同模态之间信息不均衡的问题。同时,将成对的关系相似性作为跨模态检索的度量,不会给损失函数和检索度量的匹配带来额外的误差。在四个公共数据集上的大量实验结果表明,提出的模型在跨模态检索任务中具有良好的性能。2.设计了一种可分离变分哈希网络学习方法,可以将任意数量的模态数据分别映射到一个公共的汉明空间。该方法的网络结构由一个标签网络和多个特定模态的网络组成。标签网络利用所有可用的标签,通过将语义标签投影到公共的二值哈希编码中来学习潜在的公共汉明空间。然后,特定模态的变分网络可以将多个模态分别投影到由标签网络学习的公共语义二值表征中。这是通过将标签网络的哈希编码向量的聚合后验与任意先验分布进行匹配的变分推理来实现的。在四个基准数据集上的实验结果和综合分析表明了该方法的有效性,与现有的最新方法相比,该方法达到了更好的跨模态检索性能,同时获得了更高效灵活的训练方式。3.提出了一种深度半监督类别与相关性坍缩的跨视图学习方法。该方法通过将同一个类的数据实例坍缩至同一个点,将不同类的数据实例同时坍缩至不同的点来学习判别性公共空间。同时,为了充分利用未标记数据,该方法提出通过将相关的数据样本坍缩到同一个点,而将不相关样本坍缩到其他点来建模未标记数据的相关性。这两个目标是通过最小化两个Kullback-Leibler散度来联合优化的。此外,该方法可以应用于两个以上的视图。在五个公共数据集上的实验表明,该方法在跨模态检索和分类任务中取得了良好效果。4.设计了一种对抗式相关自动编码器,用以学习多视图数据的公共表征。该方法通过将潜在变量的聚合后验分布与特定先验分布进行匹配来进行变分推理,使不同模态的表征可以遵循相同分布。在五个基准数据集上的综合分析实验表明,该方法在跨视图检索和分类任务中具有良好的性能。总而言之,本文针对不同监督模式下的跨模态检索与分类问题,提出了一系列多视图神经网络学习方法。这些方法在广泛使用的公共数据集上的表现证明了其有效性,其能够处理不同监督模式下的跨模态检索与分类任务,取得了良好的效果。
其他文献
文章通过文献资料法、逻辑分析法、问卷调查法,对乐营淀山湖国际营地特色课程设置满意度进行研究。文章分析得出:江苏省乐营淀山湖国际营地特色课程在实施过程中灵活运用多种方式增加了课程趣味性,能有效提升参与者的团队协作能力。其不足方面主要表现在课程结构缺乏层次性、拓展课程情境感有待提升等。
随着医疗事业的发展和进步,医疗设备、平台在不断地完善。尤其在信息时代的背景下,大数据技术的应用愈加广泛,医院已经开始采取信息化、动态化的管理模式,利用信息技术提升医疗服务水平,采用无线移动网络的同时,运用大数据健康管理平台,结合便携型的家用监测设备对患者的健康情况进行监测管理。尤其在疫情防控期间,基于医疗大数据研发的互联网医疗APP发挥了巨大的作用。本文就医疗大数据健康管理平台的建设及应用效果进行
期刊
背景:慢性肾脏疾病(Chronic kidney disease,CKD)的发病率和死亡率高,使之成为世界性公共卫生问题,给国家造成了沉重的负担。CKD患者肾功能持续恶化将发展为终末期肾病(end-stage renal disease,ESRD),并接受终身替代治疗。目前对CKD进展没有针对性治疗,患者的生存和生活均受影响。免疫功能的异常,特别是细胞免疫缺陷在CKD进展中的作用不容忽视,这一现象
学位
乳腺癌是多数国家女性人群中发病率最高的癌症,研究表明,乳腺癌的早期准确诊断并及时治疗能够大大降低其致死率。乳腺X光检查是全世界范围内使用最广泛的早期乳腺癌筛查手段之一,也是唯一被证明可以显著降低乳腺癌带致死率的医学影像学方法。使用乳腺X光进行乳腺癌筛查时,会产生一系列乳腺X光图像数据,放射医师根据这些图像数据进行良恶性诊断,而诊断结果与医生个体经验水平有着直接联系。随着计算机技术的发展,计算机辅助
新世纪以来,随着“中非合作论坛机制”的建立,中非战略合作伙伴关系的确立,尤其是中非命运共同体的构建,中国对非洲援助秉承“义利相兼”的理念,充分彰显“平等、互助、互惠、精准、包容”的援助特征,对非洲援助的力度和深度都呈现出前所未有的提升,在国际对非洲援助领域发挥着举足轻重的作用。面对国际风云变幻,中国坚守和平与发展的时代主旋律,构建中非命运共同体将成为新世纪中国对非洲援助的首要目标和行动方向。虽然国
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生
人脸识别作为人工智能的典型应用之一,具有重要的实用价值和研究意义。近年来,基于深度卷积神经网络的人脸识别技术取得了突飞猛进的发展,但主要集中于二维可见光人脸识别的研究,在真实无约束场景中仍然面临许多挑战和难题。随着人脸识别应用的推广和传感器技术的发展,异质人脸识别需求应势而生且日益增大。但异质人脸图像间显著的外观变化,使现有人脸识别系统面临识别精度大幅下降的问题。本文对异质人脸识别问题及其解决方案
心音信号和心电信号作为常见的医疗时序数据,具有易采集、价格低廉、无创无损及重复性好等特点,在医学临床中被广泛应用于疾病预防、初步诊断及病情的长期监测。对这些医学时序信号进行准确处理与分析,可更好地协助医生把握病情,制定疾病预防和治疗方案,从而提升全社会的整体健康水平。经过几十年的发展,传统信号处理方法对心音信号和心电信号的分析与应用已取得长足进步,但处理该类时序数据时仍然面临诸多挑战。尤其是在面对
现代图形学应用的飞速发展对超大规模复杂场景绘制、高分辨率显示呈现、高真实感用户体验以及实时绘制效率提出了愈加严峻的挑战。尽管计算机硬件性能在近年来得到了极大提高,但仍然无法满足越来越高的需求。作为并行计算在图形学领域的具体运用,并行图形绘制系统成为解决上述问题的有效方案之一。但是多节点间的绘制任务分配一直是制约并行图形绘制系统整体性能的瓶颈,因此,研究如何实现绘制负载平衡成为影响最终绘制效果的关键