视觉语言多模态预训练综述

来源 :中国图象图形学报 | 被引量 : 0次 | 上传用户:leobear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。
其他文献
习近平总书记在党的二十大报告中强调:“我们建设现代化,就要抓制造业,搞实体经济。”制造业作为实体经济的重要部门,做好制造业企业的纳税筹划有助于增加企业的现金流,减少纳税资金的占用,提高企业的运营效益,从而助力实体经济的发展。文章从纳税筹划的概念出发,根据MD集团的财务报表,结合MD集团纳税方面的现状,探索公司筹划空间,提出纳税筹划建议,以此最大限度地减轻制造业企业的税收负担。
<正>当下,核心素养是教育界最为热门的词语。为了培养学生的核心素养,必然要求教师具备教育的核心素养。那教师的核心素养是什么呢?这个问题,我们所有教师都绕不开,必须面对,必须回答。我认为教师的核心素养是指教师的教育情怀和教育能力。什么是教育情怀?往大一点说是爱的情怀,所谓"爱满天下","没有爱就没有教育","有了爱就有了一切"。往具体一点说是爱恋的情怀,我不说痴迷的情怀,因为痴迷的人毕竟太少了。除了
期刊
学位
目的 探讨2型糖尿病患者合并耐甲氧西林金黄色葡萄球菌(MRSA)感染的影响因素及其药敏性。方法收集2018年1月-2019年12月武汉市武昌医院收治的150例老年2型糖尿病合并金黄色葡萄球菌(SAU)感染患者的临床资料,分析感染部位分布情况,根据SAU菌株是否为MRSA感染将患者分为MRSA组和甲氧西林敏感金黄色葡萄球菌组(MSSA组),分析SAU感染分布情况,并采用单因素及二元Logistic回
<正>在小学阶段的数学教学中,教师要充分明确教学目标和要求,更要基于学生学习的实际情况来开展教学,引发学生对数学学习的思考。在全面创新课堂教学的背景下,为提升学生数学问题的解决能力,教师需要利用创新性的教学方法优化教学,培养学生自主思考的学习能力和习惯,引领数学课堂教学取得跨越式的提高。一、新时期小学数学问题解决能力的类型1.有效找到问题。有效找到问题是一种思维习惯,也是学生善于观察、思考、质疑的
期刊
曼哈顿距离不同于我们所熟悉的欧式距离,它又称为“折线距离”或“直角距离”,在高考试题或模拟试题中经常出现.掌握曼哈顿距离的几何意义与一些重要结论,为我们解决问题带来很大的便利.
分析英语听说课教学的重要性及其存在的问题。概述英语学习活动观的内涵与特征。结合北师大版高中《英语》必修2 Unit 5 Humans and Nature Listening and Speaking Professional Rescue Team,探究基于英语学习活动观的听说课教学设计,让学生在具有真实语境的学习理解、实践应用、迁移创新等层层递进的语言实践活动中,发展语言技能,提升思维品质,增
[目 的]通过探究冰刺激联合低频电刺激疗法,对改善脑卒中吞咽障碍患者吞咽功能的疗效,丰富治疗脑卒中吞咽障碍的联合干预措施,以期为临床治疗脑卒中吞咽障碍提供更多的参考经验。[方 法]1.构建脑卒中吞咽障碍患者的干预方案文献质量评价针对相关干预性研究文献进行分析,构建干预方案初稿;通过专家会议法修改并完善,形成干预方案修订稿;预实验结合临床实际情况对方案进行调整并验证其科学可行性,最终确定冰刺激联合低
报纸
语言是人们日常交流的最主要方式之一,想要学好一门语言,那么就应当多听、多说、多用。任何语言的学习都是如此,英语也不例外。在初中的英语教学中,教师应当着力培养学生的英语素养,为学生打下良好的学习基础。目前新课标强调,在高中英语教学中,应当以“英语学习活动”作为教学的主要方式。在初中英语教学中,教师也能够借鉴类似的方法。