论文部分内容阅读
可计算图像美学分析旨在让计算机模拟人类对图像美学的感知,分析图像在构图、光影、颜色、景深等方面的美学属性,自动地做出在美学方面的质量评价。可计算图像美学涉及计算机视觉、摄影学、绘画、视觉艺术、脑科学、神经科学、美学心理学等多个研究领域,是多学科相互交叉的创新性研究课题,其美学分析结果可以为图像增强、图像修复算法的参数优化、图像摄影系统的性能评估以及图像风格转换结果的评估提供重要的依据和参考。此外,图像美学分析也在艺术创作、智能机器人、电子商务等领域具有重要应用潜力。本文针对自然图像美学分析进行了深入的研究,旨在利用深度学习方法提高图像构图建模能力、美学质量预测精度。研究内容主要从图像构图建模以及图像美学质量评价两个方面展开。在图像构图建模方面,研究了线性透视的建模和消失点的检测问题;在图像美学质量评价方面,探索了由单一模态信息到多模态信息的图像美学质量评价方法。本文的主要创新点概括如下:1.提出了一种基于卷积神经网络的自然图像线性透视建模方法。现有线性透视建模方法往往需要知道消失点位置的先验知识,并且只能进行简单场景的线性透视建模。在本文中,我们提出使用卷积神经网络的线性透视建模方法,将线性透视建模转化为分类问题,依靠深度学习强大的特征表征能力,不仅能够应对各种复杂场景,而且不需要消失点位置等先验知识。最后,我们又提出了基于线性透视建模的图像检索应用,检索出和待拍摄照片语义相似和视角相似的专业摄影师照片,为业余摄影爱好者提供指导。2.提出了一种基于语义纹理特征融合网络的自然图像消失点检测方法。传统的消失点检测算法往往关注于符合曼哈顿世界假设1或者人造环境假设的场景,在这种约束下,所建模的场景中往往包含大量的线条,并且包含多个消失点。但是在自然风光场景中,往往只包含极少数量的引导线,并且常常使用单一主要消失点来表征场景的整体构图。针对这一问题,我们利用深度学习来编码图像的边缘(纹理)特征,然后利用纹理特征和语义特征联合表征的方式解决自然场景消失点检测问题。实验结果表明所提方法能够有效的从复杂环境中找到主要消失点位置,提高自然场景中消失点检测的精度。3.提出了一种基于加权边缘-中央凹视觉卷积网络的自然图像美学分布预测方法。在图像美学质量预测任务中学习保持图像的细节特征是一个重要的问题。现有方法通过随机裁剪的方式保持图像的细节特征,这种随机裁剪方式会破坏图像内容和图像语义信息的完整性。针对这一缺点,我们提出了加权的边缘-中央凹视觉卷积神经网络,通过模拟人类中央凹视觉和边缘视觉系统,提取局部细节信息。考虑到全局特征和局部细节特征在不同的视觉场景中具有不同的作用,我们又提出了一个加权特征融合网络来动态加权两个子网络。实验结果验证了我们所提算法的有效性。4.提出了一种基于多模态循环注意力神经网络的图像美学评价方法。现有图像美学质量评价方法主要依靠单模态特征而忽略了来自其他模态的信息,并且在提取视觉特征的时候忽略了视觉特性中的选择性注意力机制。为了克服上述问题,我们提出了基于多模态循环注意力神经网络的图像美学质量评价方法来模仿人类视觉系统中选择注意力机制,并且利用文本卷积神经网络提取用户文字评论中的语义信息辅助美学决策。实验结果证实我们的算法能够取得更好的美学预测精度。5.提出了一种基于多模态自注意力和协同注意力卷积网络的图像美学质量评价方法。传统多模态方法往往依靠卷积神经网络提取视觉特征,但是卷积神经网络很难捕捉图像视觉元素之间的远距离依赖关系;并且文字评论信息和图像之间有一种天然的对应关系,现有的多模态方法忽略了这两种模态特征之间的关系。为了解决上述问题,我们提出了多模态自注意力和协同注意力卷积神经网络。其中,自注意力用来捕获图像块之间的上下文信息。协同注意力模块用来编码图像特征和文本特征映射关系。详细的实验表明了本文所提出的多模态自注意力和协同注意力卷积神经网络在图像美学分类、图像美学回归以及图像美学分布预测任务上的有效性。