基于图深度学习的图像描述技术研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xyz880330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述(Image Caption)作为一种结合了计算机视觉和自然语言处理的多模态任务受到了广泛地关注。具体来说,图像描述往往先利用卷积神经网络(CNN)对图像特征进行提取,然后将特征注入到被当作解码器的循环神经网络(RNN)中生成描述句子。但是传统的图像描述任务仅关注于如何提升图像特征细粒度和如何增强解码器的表达能力,大多都忽略了输入图像中所蕴含的语义信息。同时,在解码过程中也缺乏单词级别的特征输入和引导机制。为克服上述问题,本文在改进编码-解码框架过程中做出了深入的研究。本文首先从编码端入手,利用目标检测算法确定图像目标,之后探索目标间的交互关系,构建出相应的语义图(Semantic Graph)并用图卷积神经网络(GCN)获取其特征作为图像蕴含的语义信息。此外,在实验过程中本文还发现在大数量的目标之间探索交互关系会导致模型的整体性能下降甚至消失,因此本文还设计了一种有效的目标过滤模块以筛选掉冗余目标,并最终提出基于门控过滤机制的图卷积图像描述模型。其次,本文还深入研究模型解码端,设计出了可以同时引导视觉区域、图像目标和交互关系的新型解码器,通过将其与图卷积编码器和图像区域视觉编码器结合,提出了另一种基于引导的图卷积图像描述模型。最后,本文在MS-COCO数据集上设计对比实验,结果显示本文提出的两个模型较于各自的基础方法NIC及UP-Down在指标BLEU@4上分别提升了28.9%和4.4%,在指标CIDEr上分别提升了20.4%和3.4%且整体性能远超其它对比模型。实验结果也充分证明本文探索图像语义特征及对语义信息进行引导的研究工作可以显著提升描述文本的逻辑性和准确性。
其他文献
随着互联网的发展,网络教学系统需求十分旺盛,视频教学素材的处理成为比较重要的研究和应用领域。教师在对1080P或4K的视频素材进行处理时面临巨大挑战;此外部分教学内容还存
中国的经济要想稳定向前发展,离不开农业的支撑,在十九大会议中,习近平书记明确强调了农业、农村、农民的问题是国计民生中最本质的问题,党的工作中,要时刻把解决好三农问题作为全党工作的重要任务。寻甸县属于一个农业大县,但是农业大而不强,农业对于当地经济的发展具有重要地位,在农业生产过程中,农户需要应对很多风险,不同强度农业风险的发生,致使农户对农业风险的态度出现差异,并且产生了不同的农业生产行为,形成了
在人类学习过程的启发下,迭代学习控制(Iterative Learning Control,ILC)应运而生,其关键思想是在重复中学习,从而改善系统的暂态响应和跟踪性能。若将迭代学习控制与反馈控
近些年来,作为机器学习领域的重要组成部分之一,强化学习的研究工作取得了极大进展。通过强化学习机理,智能体可以不断学习和得到环境中所包含的信息,继而可以指导自身获得最
为了更合理、方便地控制土木工程结构地震动力反应,提出了基于BP神经网络建模的结构振动模态模糊控制算法。首先以结构的地震动力反应数据训练神经网络建立结构分析模型,然后
随着世界经济的发展,人类对能源的需求与日俱增,然而化石燃料的过度开采已引发多次全球能源危机。波浪能作为一种可再生能源,由于其分布面广、蕴藏量大、能流密度高等特点,逐渐受到全社会的关注。本文对一些常见的波浪能发电装置进行分类,对比分析了各自的工作原理及优缺点,介绍了国内外波浪能发电技术的研究现状。结合我国的实际海况,设计出了一种波浪能浮子摆杆系统。该装置采用双向液压缸并联的方式来提高波浪能转换效率,
新型城镇化的快速推进,有助于改善城乡二元结构,山东省在新型城镇化建设中,将建设新型农村社区作为构建城乡一体化和缩小城乡差距的重大战略举措,实现土地集约化经营,提高农
数值预报的发展对大气参数的反演精度提出了更高的要求,发展高光谱微波辐射计对于提升大气参数反演精度具有重要意义。通过仿真研究确定通道位置是开展高光谱微波辐射计相关
随着国内外对生态经济发展提出了更高的要求,对于电力企业而言,核电已成为电力生产的一项重要途径。国务院发布的“十三五”核电规划中提出了我国要使投入运营的核电机组规模
民国初期,随着西学东渐和中国社会近代化的不断发展,近代图书馆及图书馆学随之兴起,图书馆学期刊也应运而生。《国立北平图书馆馆刊》是国立北平图书馆的馆办刊物之一,创刊于1928年5月,1937年2月停刊,共发行59期,其中有两期为合刊。《国立北平图书馆馆刊》共经历过三次更名,第一卷第五号起由《北京图书馆月刊》更名为《北平北海图书馆月刊》,第三卷第一号起更名为《国立北平图书馆月刊》,第四卷第一号起更名为