论文部分内容阅读
图像美学质量评价的研究目的是为了让计算机能够模拟人类的思维和审美对一幅图像的美学价值产生判断,从而输出评分或者文字描述。而人类的视觉和语言是紧密相连的,看到图像总能以自然语言的方式表达一些美学的见解,这些语言中包括对图像美学方面的描述例如构图、光影、色彩等,因此对图像美学进行语言描述有着非常重要的意义,然而仅有的研究中美学描述的丰富性和流畅性方面也不够完善。为了解决现有的美学描述不完善的问题,本文首先提出了名为Deep Image Aesthetic Reviewer(DIAReviewer)的模型,该模型由CNN、美学语义添加层和D-Attention组成,这种网络结构可以使最终生成的美学描述更加流畅。本文提出的美学语义添加层是将CNN提取的图像特征与从美学描述中提取的美学描述特征融合成一个混合美学特征输入到D-Attention部分。D-Attention部分将代替传统的RNN,作为模型最后的文字输出部分。为了验证提出的模型,本文还构建了新的美学字幕的数据集(ARD)。经过实验,结果表明,本文的方法在产生更加流畅的美学描述方面有一定的性能提升。其次为了解决卷积过程中导致的美学方面的细节信息丢失的问题,本文还提出了DIAReviewer的改进模型,即DIAReviewer-II模型。该模型是在DIAReviewer模型基础上针对图像特征提取部分进行优化。即在VGG-19模型的基础上引入残差学习思想,结合空间注意力机制、通道注意力机制形成注意机制残差层。在模型中本文将第一个卷积层提取的图像特征经过空间注意力机制和通道注意力机制处理与最后一个卷积层进行残差学习,减少图像特征的损失,使CNN提取出的特征更多更加丰富,从而使输出的美学描述更加丰富。实验结果表明本文改进后的模型输出的语言在流畅性和丰富度上都有所提高。