论文部分内容阅读
近年来,人工智能和机器学习迅猛发展,在计算机视觉、语音识别和自然语言处理方面均得到了广泛应用。图像内容的语句描述结合了计算机视觉与自然语言处理,完成从图像到自然语言的转换。它能够广泛应用到图像检索中,也能辅助残疾人在互联网进行交流。针对图像描述任务,与传统的方法相比较,深度卷积神经网络与循环神经网络相结合的模型能识别新图像中的新事物,并对其进行更为自然的语句描述。目前,该任务的经典模型神经图像描述的不足之一是其对图像细节信息的描述并不总是准确的。本文从研究方法和研究问题两个层面入手弥补上述不足,以使得描述更注重图像区域细节的表达。针对方法的层面,在图像描述常用的神经图像描述模型中加入注意机制,增强模型生成描述语句时对图像细节的偏重;针对问题的层面,在前人提出的图像区域描述任务基础上,对全卷积定位网络模型的网络层增加批归一化转换,加快模型的训练速度并提升区域检测和语句描述的准确度。本文完成的主要研究工作包括:(1)分析了目前已有的图像描述任务研究,特别是指出在谷歌的神经图像描述模型基础上改进卷积神经网络编码、循环神经网络语言模型、编码输入方法或者词嵌入方法等的现状。针对图像区域描述任务,阐述了以全卷积定位网络模型为核心开展研究工作的现状;(2)针对神经图像描述模型缺乏对图像细节信息的描述问题,提出一种使用注意机制改进描述语句的生成方式。先通过多示例学习提取图像的关键区域的标签词语,再将其词向量作为神经图像描述模型中的长短时记忆网络语言模型的隐含层的输入,使语言模型在生成描述的词语时能更偏向标签词语;(3)对图像区域描述任务的经典模型,提出批归一化转换其网络层,以此改善模型训练的收敛速度,同时提高模型检测区域和生成描述的准确度。在批归一化卷积层和长短时记忆隐含层中分别调整转换算法,使其适应网络层的结构,且不影响整个模型端到端的训练;(4)分别对上述提出的模型使用图像描述数据集和图像区域描述数据集进行训练,并分别使用相应的指标对实验结果进行评价。为了方便比较模型改进效果,重新训练了两个经典模型,并以此结果作为比较对象。最终从图像描述语句的准确率指标结果上表明两个模型的改进均有所成效,且后者收敛速度也明显占优。