基于分层强化学习的图像描述算法

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lhbneil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务就是对图像生成一个简短的句子描述图像中的人物和场景。该任务是实现图像空间和语言空间的映射,通过构建能够感知和理解图像中细微的上下文信息的网络,将观察到的场景和现实世界联系起来,输出简洁准确的图像描述。虽然对于人类来说是很简单的事情但相对于机器来说具有诸多挑战。它不仅需要视觉算法理解图像当中的内容,同时也需要自然语言处理的语言模型,以便把对图像的理解转化为正确的单词。虽然最近提出了很多关于图像描述的算法也得了很不错的客观评价指标。但是它们还存在一些问题,产生的句子和实际上真正标注语句存在很大出入,对于图像上的某些关键的信息描述不到位。存在该问题的主要原因是大多数算法使用监督学习的方式来学习图像描述任务,但是当评价模型的性能却采用与监督网络学习完全不同的体系。对此,本文提出了新颖的基于分层强化学习的模型框架来解决这个问题。直接使用客观评价指标优化网络。首先模型使用Faster-RCNN目标检测器对图像的上下文信息编码成高维向量。对于解码过程,本文提出了一个‘分而治之’的思想,学习图像信息中的文本特征信息可以被视为一个强化学习过程。它包括以下几个部分:(1)在较低时间分辨率下运行的:管理者(Manager),目的是产生较高层的策略,产生一个具有语义意义的子目标策略。(2)运行在高时间分辨率下的:工作者(Worker),接受来自高层管理者(Manager)的子目标策略信息,产生具体的策略(产生具体的描述序列)。具体工作过程是管理者(Manager)为工作者(Worker)发出新的子目标策略,并且工作者(Worker)通过依次生成词语来完成各个子目标。此外,对于管理者(Manager)网络和工作者(Worker)网络在输入特征的时候都使用了注意力机制,让管理者(Manager)能够将重点放在更长的时间动态上,同时工作者(Worker)的注意力缩小到以目标为条件的当地动态。本文的主要研究内容如下:(1)设计了整个基于分层强学习模型的整个网络架构,包括Manager网络和工作者(Worker)网络,注意力机制。并且在没有引入额外的数据标签情况下使用分层强化学习的训练方式完成了整个模型的训练,并且通过大量实验取得了较高的评价指标,验证了模型的有效性。(2)采用目标检测器来编码图像中的复杂信息。相比较已有的方法采用深层卷积分类网络来说,目标检测器的优势在于检测器在训练阶段就对图像进行了分类和检测监督,能够获得图像中多目标的语义信息和位置信息。(3)本文针对策略梯度算法在进行单次采样训练过程中效率低下的问题提出了自我对抗式训练算法。在不同的环境状态下模型进行少量的采样是很难准确的估计出模型当前所执行动作的好坏程度。在基于策略的优化算法中通常需要引入一个基准(baseline)回报估计来衡量该状态下的平均好坏程度,才能精准估计出每次采样的动作在该状态下所带来的收益。而在少样本采样和状态空间庞大的前提下很难估计出不同状态下的基准估计变量和执行的动作所带来的收益。而自我对抗训练能够通过训练双模型去精准的估计双方在采样过程中不同状态下的基准估计,能够在较少的采样次数下估计出准确的策略梯度。本文通过实验证明该方法具有能够获得更快的学习效率和更高的评价指标。
其他文献
重新审视流行的"效率优先,兼顾公平"观点,固然有其合理之处,但在逻辑上显然并不充分。这种观点是基于"经济人"的假设,是把发展等同于效率,是把矛盾的特殊性当作矛盾的普遍性
通过关心教育,大学可以全面实现全人教育、主动应对教育复杂性、充分发展和谐师生关系、积极适应经济全球化发展。当前高等教育在培养方案、师生互动、学习环境、学生关爱等
<正> 1987年在美国卡罗拉多州的西方评论出版社(Westview Press)出版了《西藏的地位》一书。作者是荷兰籍米凯尔·范瓦尔特·范普拉赫先生(简称范普拉赫),他是国际法学者,又
CoSiN薄膜可以作为超大规模集成电路Cu布线互连材料使用。利用磁控溅射技术制备了CoSiN/Cu/CoSiN/SiO2/Si薄膜,利用四探针测试仪、薄膜测厚仪、原子力显微镜、X射线光电子能
城市形象片自出现至今,已有较长的时间,它在电影和电视片的基础上进行发展的,因此"艺术"与"技术"的起点较高。如果希望城市形象片得到进一步的发展,避免陷入一个创作僵局,就
传承与发展中医,科技创新是关键。随着人工智能(AI)的深入发展,为中医智能化发展提供了有力的技术支持。但中医智能化不能偏离中医核心思想。文章分析了中医整体观在指导中医
精确营销从提出到发展经过了10多年的历程,国内外对精确营销的研究比较深入,并且涉及到多个领域,也取得了比较好的效果,特别是在电信行业的精确营销研究和应用比较深入,为深
本文以安塞县纸坊沟流域典型黄土丘陵区坡耕地撂荒为研究对象,分别选取坡耕地、撂荒7年、撂荒12年、撂荒17年、撂荒22年、撂荒32年六个年限,分析植物生物量与多样性、土壤植
<正> 通常认为动物的性别是由性染色体决定的.近年来,发现具有完全不同的决定性别机制.通过对爬行动物试验观察,它们的性别并非由遗传性所决定的.而是在受精卵发育过程中,保
随着人们生活水平的提高,对乳制品消费需求量的也在不断提升,乳制品质量安全越来越引起全社会的极大关注。然而,近几年频繁出现的一系列乳制品安全事件引发了人们的恐慌,人们开始对我国的乳制品是否安全产生了怀疑,甚至一度采用外购模式,这使得我国的乳制品行业发展受到严重威胁。这种现象除了使乳制品企业本身意识到了危机外,也引起了学术界的极大关注。但学界的关注重点往往集中于对乳制品安全事件出现的原因以及行业业绩等