【摘 要】
:
图像描述生成是将图像识别与自然语言处理相结合为目标图像生成描述语句的过程,在儿童早教、盲人导航和人机交互等方面具有重要意义。近年来,基于深度学习的编码-解码器框架模型成为图像描述生成研究的热点。该方法使用卷积神经网络编码器提取图像特征,把图像-描述对中的描述作为解码器训练过程的参考语句并将其向量化,所得词向量与图像特征共同输入循环神经网络解码器中生成描述语句,其中训练阶段输入的词向量为真实值,测试
论文部分内容阅读
图像描述生成是将图像识别与自然语言处理相结合为目标图像生成描述语句的过程,在儿童早教、盲人导航和人机交互等方面具有重要意义。近年来,基于深度学习的编码-解码器框架模型成为图像描述生成研究的热点。该方法使用卷积神经网络编码器提取图像特征,把图像-描述对中的描述作为解码器训练过程的参考语句并将其向量化,所得词向量与图像特征共同输入循环神经网络解码器中生成描述语句,其中训练阶段输入的词向量为真实值,测试阶段输入的词向量则为前一步的预测值。在上述方法中由于测试阶段的输入依赖前面步骤的输出,因此一旦输出错误,则会导致错误累积的问题,同时存在提取图像特征不充分和词向量与参考语句意思有偏差的问题,从而影响描述语句的生成效果。针对测试阶段的错误累积问题、图像特征提取不充分问题以及词向量与参考语句的意思偏差问题,本文基于深度强化学习,同时引入上下文编码网络和Bert模型研究图像描述生成方法。本文具体工作如下:(1)设计了基于深度强化学习嵌入上下文编码网络的图像描述生成模型DR-ECRNN模型。DR-ECRNN模型基于Basic DR-ECRNN基础模型设计,图像编码阶段,在基础模型的深度残差网络的基础上嵌入上下文编码网络提取更加充分的图像特征;文本解码阶段,将所得图像特征输入LSTM中进行学习,并使用具有较强决策能力的策略网络与价值网络共同指导其生成描述语句。由实验结果可知,DR-ECRNN模型比未嵌入上下文编码网络的基础模型在Microsoft COCO Caption 2014、Flickr8k与Flickr30k数据集上的BLEU评分平均提升了0.8%、0.58%和0.6%。(2)设计了基于深度强化学习引入Bert模型的图像描述生成模型DR-BCRNN模型。DR-BCRNN模型的图像编码器与DR-ECRNN模型相同,文本解码器基于DR-ECRNN模型进行改进,使用Bert方法将参考语句向量化,增加了单词在句中所处位置和单词所属句子的相对位置的表征信息,结合上下文语境为参考语句生成更加准确的词向量,输入LSTM中进行学习,使用策略网络为其提供决策,价值网络计算当前决策的奖励值。由实验结果可见,DR-BCRNN模型比未引入Bert方法的DR-ECRNN模型在Microsoft COCO Caption 2014、Flickr8k与Flickr30k数据集上的BLEU评分平均提升了0.63%、0.6%和0.33%。基于以上工作,本文还将DR-ECRNN模型和DR-BCRNN模型与近几年相关模型m-RNN、NIC和NIC+att等进行了实验对比,结果表明,在上述三个数据集上,本文模型的BLEU评分优于其它模型,在其它评价指标上也有不同程度提升。
其他文献
本文根据对大亚湾和陵水新村湾四个航次的调查资料,结合该海域生态环境特点,从海水环境质量、初级生产力和饵料生物水平3指标评价了调查海域生态环境质量现状,并利用综合指数
对化石标本的研究,是古生物学的重要研究内容。在化石鉴定的过程中进行准确的系统分类,有助于建立可靠的地质时间标尺。生物化石的古生态研究是重建地史时期古地理、古气候的
近年来,目前国内外对电能质量问题的研究主要分三方面:一是电能质量扰动信号模型的建成;第二,健全电能质量实时监测系统;第三,电压扰动信号发生器的研究。本文针对这几个方面展开研究,本文主要工作如下:(1)围绕电能质量扰动问题的模拟及检测展开研究。针对三相电压信号中某一相单一扰动的情况,研究了瞬时对称分量法在电能质量检测分析中的应用,在PLECS中搭建仿真,构造了5种常见的电压扰动波形,对电压扰动信号进
随着工业机器人的应用领域越来越广,对机器人控制研究的需求增加。轨迹规划作为机器人的研究重点,其对于减少重复繁琐的工作量、提高运行精度和优化运行时间等方面起着重要的作用。传统的轨迹规划方法存在精度低、速度慢、运行不平稳等问题,如果没有全面合理的轨迹规划可能会导致机器人受到冲击而引起振动,影响作业精度甚至机器人的寿命。本文以Denso VP6242机器人为研究对象,进行书写和绘画任务,将机器人轨迹规划
pH值是氢离子的浓度指数,用来分析溶液的酸碱度。在化工生产、环境治理、化学研发等领域中,pH值起着重要的作用,同时在生命体中,pH值作为生理参数也发挥着不可忽视的作用;细
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)具有结构简单、体积小、损耗低、运行效率高等优点,且国内稀土资源丰富,因此PMSM应用范围越来越广;直接转矩控制(DTC)以其响应速度快、无需复杂坐标变换等优势,成为近年来的研究热点。但直接转矩控制存在磁链和转矩脉动较大以及磁链辨识不精准的问题,本文针对这些问题进行改进研究,具体完成以下几项工作:首先以表贴
随着新一代5G通信系统的逐步商用与部署,微波以及毫米波通讯技术也在迅速发展中。然而,5G通信系统高速率、低时延的实现受限于各种具有优越电性能的射频器件,尤其是在毫米波频段。人工磁导体(AMC)作为一种新型超材料,它具有自然界中传统物理材料所不具备的优秀电磁特性,即具有理想磁导体对平面波的同相反射特性以及限制电磁波传播的电磁带隙特性,能够突破射频天线以及射频器件的结构设计极限,提高射频天线以及射频器
本文研究的是同伴关系对小学生劳动价值观的影响,是基于小学生的同伴关系对其劳动价值观的影响的现状展开的,以苏霍姆林斯基关于学校劳动价值观教育的论述等为理论基础,结合文献法和问卷调查法,通过差异分析,相关分析和回归分析研究小学生的同伴关系对其劳动价值观的影响。发现4到6年级的小学生存在的问题有:同伴接纳程度不高导致同伴劳动价值观影响渠道不畅通;交流不足导致同伴劳动价值观影响不到位;不良同伴关系导致小学
目的:通过对慢性失代偿耳鸣患者进行习服疗法和药物治疗,探索习服疗法治疗慢性失代偿性耳鸣的效果和改善耳鸣相关的负性情绪的程度,提高习服疗法可以改善耳鸣患者生活质量的认识。方法:本研究应用随机对照研究设计1.利用抽样的方式,遵循纳入排除标准,对2019.01-2019.03期间就诊于我院门诊的98位慢性失代偿性耳鸣患者作为研究对象,实验组32例,对照组均33例。协助患者填写耳鸣残疾量表(THI),焦虑
苯二酚作为重要药物中间体,广泛应用于橡胶、染料、抗氧化剂、医药、农药显影剂等领域。传统苯二酚合成工艺主要有邻氯苯酚水解法、苯胺氧化法、环己酮法、对二异丙苯氧化法