基于视觉语义增强的视频描述生成

来源 :浙江工商大学 | 被引量 : 1次 | 上传用户:lzxldf2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的不断发展,视频描述生成作为自然语言处理和计算机视觉两个领域相结合的研究课题,在近几年来受到了广泛的关注。视频描述生成,即给定一个视频片段,让计算机自动地生成能够描述与视频片段内容相关的自然语句。其在实际生活中也有着广泛的应用,如提高人们在互联网上检索所需视频的效率,辅助残障人士理解视频内容等。目前,由于深度学习在视觉和自然语言处理等多个领域的突破性进展,越来越多的研究方向开始使用深度学习技术来解决相关问题。同样地,本文在基于深度学习的“编码器-解码器”结构的基础上,对视频描述生成进行研究。传统的描述生成模型结构中,通常使用卷积神经网络作为编码器,循环神经网络作为解码器,为视频片段生成相关句子。由于视觉信息和语义信息之间存在着差异,只通过解码器是无法很好的学习到两者之间的关系。为了缓解这个问题,本文通过视觉语义增强以提高视频描述生成的效果。具体来说,本文通过三个方面来缩小视觉和语义之间的差距。一、针对“编码器-解码器”结构只是对生成句子和标注句子进行比对,并不能很好地学习到视觉信息和语义信息之间的关系。我们在此基础上,添加视觉和语义的相关性计算,通过训练使模型学习到视觉和语义之间的关系,以此来增强模型中视觉语义的一致性,从而使模型生成的描述更贴近视觉内容。二、对视觉特征进行改进。利用视频检索文本模型,获取到含有更多语义信息和更强表达能力的视觉特征,从而增强模型对视觉信息和语义信息的理解。三、挖掘视频的语义属性。通过挖掘与视频相关的语义属性,提高模型对语义信息的利用,通过加入这些挖掘的语义属性辅助模型生成更好的句子。
其他文献
随着城市发展的不断加快,城市道路堵塞问题逐渐突出,尤其在早晚上下班高峰期愈发严重。交通流理论通过对道路交通流进行分析和研究,研究交通流内在规律,揭示交通拥堵问题的产
Donor-Acceptor(D-A)环丙烷是一种高效简洁的有机合成砌块,广泛应用于构筑多种碳环与杂环结构单元。本论文探讨了路易斯酸催化下的D-A环丙烷与噁唑类化合物的环化反应,主要内
本文主要论述的是我在读期间对创作进行思考与研究的过程和体会,从创作的构思、题材、形式的选择,传统没骨画和国外水彩画的借鉴,到传统绘画技巧和材料的研究,结合我的创作提
当前,煤矿综采工作面采煤设备逐渐趋向于自动化、智能化和无人化,但为综采工作面提供动力的移动变电站、泵站等重型设备,仍大量采用有轨绞车钢丝绳牵引方式运输,存在运输效率
分布式X射线光源,又称X射线多光源,是指在单个真空腔体中按照一定空间序列排布多个X射线点源的真空装置,该装置可根据特定的时间和空间序列触发产生X射线,为新型X射线光源和C
生物酶的活性容易受到环境因素的影响,尤其是温度的升高会改变或破坏酶的蛋白质结构和肽键形态,从而导致酶的变性。寻找有效的途径来维持酶的天然构象,是当前需要解决的关键
玻璃幕墙具有采光性好、美观等优点,广泛应用在办公楼、商场和体育馆等高大建筑中,但由于其隔热性差、透光性强导致其结构散热量大,造成了其建筑的夏季制冷负荷和冬季热负荷大。据统计,建筑能耗约占社会总能耗30%,其中建筑围护结构占建筑能耗的50%,而玻璃幕墙类围护结构能耗尤为严重。针对我国“十三五”规划提出的应对全球气候变化以及绿色低碳发展目标,开发新型玻璃幕墙技术已成为发展绿色建筑、生态建筑的前提条件。
猪肺炎性疾病是目前集约化养猪业中危害极大的一类呼吸道传染病,且病因复杂,常表现为多种病原菌的继发感染和混合感染。临床上,单一用药往往难以有效控制猪肺炎性疾病,应用两
碲化铋(Bi2Te3)基材料在近室温区半导体制冷和热电发电方面具有广泛而重要的应用。然而商业化区熔碲化铋材料存在机械性能较差、易解理等问题,不仅材料利用率较低,而且也容易造
  脉冲燃烧风洞流场的总温测量对总温探针的设计提出了更高的要求。为了达到测温要求,本文对总温探针进行了筛选试验,研究了总温探针滞止室长度、出入口面积比对总温测量精度