论文部分内容阅读
图像描述,即产生给定图像的自然语义描述,是使得机器能够理解图像内容的关键任务。遥感图像描述是此领域的一部分。大部分主流的图像描述模型通常由编码器和解码器组成。在编码器部分,使用卷积神经网络提取图像特征。在解码器部分,通常使用循环神经网络及其变体,如长短期记忆网络,输出给定图像的描述性文本。然而,当前的遥感图像描述模型存在过拟合问题,并且没有充分利用图像中的语义信息。为此,本论文基于编码解码架构搭建模型,采用了微调网络架构的Transformer作为新的解码器。并且针对于遥感图像描述模型,设计了基于变分自编码器的两步优化算法,创新点如下:针对遥感图像数据集规模偏小,容易过拟合的问题,本论文提出采用微调网络架构的Transformer作为新的解码器,创新点如下:在原始Transformer的基础上添加了额外的dropout层和残差连接并对提取的特征进行了自适应融合,将编码器编码的低层空间特征和高层语义特征同时传输至解码器进行解码,并将强化学习引入至遥感图像描述模型,进一步提升遥感图像描述模型的性能。另外,针对因遥感图像和自然图像之间的差异而导致的ImageNet上预训练的编码器对遥感图像特征提取能力不足的问题,对本论文提出了基于变分自编码器的两步优化算法,创新点如下:将遥感图像描述模型的优化过程分为基于多任务学习的编码器参数微调和基于图像描述的解码器参数优化。在编码器参数微调阶段,本文使用遥感图像分类数据集,在卷积神经网络上与添加基于变分自编码器的支路,使得卷积神经网络在进行图像分类的同时在支路上还原重建输入的图像,在此基础上对卷积神经网络的参数进行微调。在基于图像描述的解码器参数优化阶段,在编码器输出的图像空间特征上采取自注意力机制,获取更好的图像空间特征表示。通过在公共数据集上的实验结果可以表明,本文提出的方法可以有效缓解遥感图像描述任务上的过拟合问题,提高编码器对于遥感图像的特征提取能力,充分利用编码器提取的遥感图像的语义信息,极大地提高了生成的描述文本的质量。在BLEU1-4,METEOR,ROUGE-N和CIDEr七项评价指标上,本文提出的方法的性能超过当前最优的遥感图像描述模型。