论文部分内容阅读
使机器自动描述图像一直是计算机视觉研究的长期目标之一.为了提高图像内容描述模型的精度,提出一种结合自适应注意力机制和残差连接的长短时间记忆网络(LSTM)的图像描述模型.首先根据pointer-net网络改进基本LSTM结构,增加记录图像视觉属性信息的单元;然后利用改进的LSTM结构,设计基于图像视觉语义属性的自适应注意力机制,自适应注意力机制根据上一时刻模型隐藏层状态,自动选择下一时刻模型需要处理的图像区域;此外,为了得到更紧密的图像与描述语句之间映射关系,构建基于残差连接的双层LSTM结构;最终