【摘 要】
:
随着国家对美育发展的不断重视,美学在日常生活中的应用越来越广泛,也在经济和产业发展战略中发挥着重要的作用。计算美学致力于实现可计算的审美决策、美学设计与艺术创作,对图像进行美学风格分类是实现计算美学的基础,是在大规模数据上自动高效地实现审美认知的重要环节。近年来,针对图像美学风格分类的研究引起国内外的关注,已有大量美学风格特征学习的工作取得了一定的成果。然而,传统的人工设计美学风格特征的方法泛化能
论文部分内容阅读
随着国家对美育发展的不断重视,美学在日常生活中的应用越来越广泛,也在经济和产业发展战略中发挥着重要的作用。计算美学致力于实现可计算的审美决策、美学设计与艺术创作,对图像进行美学风格分类是实现计算美学的基础,是在大规模数据上自动高效地实现审美认知的重要环节。近年来,针对图像美学风格分类的研究引起国内外的关注,已有大量美学风格特征学习的工作取得了一定的成果。然而,传统的人工设计美学风格特征的方法泛化能力差,基于神经网络模型的特征提取方法又迫切需要大量昂贵的美学风格标签标注,现有的方法难以全面刻画主观性强烈的美学风格特征。并且,现有数据集中的图像往往具有多种美学风格,考虑不同的美学风格之间的相关性,可以进一步提高美学风格分类的精度。本文主要工作如下:(1)提出一种多任务自监督风格特征学习算法。在不利用美学风格标签的前提下,基于着色预测与内容理解的思路设计自监督任务,从图像本身中获取更多风格特征相关的信息。将学习到的特征表示应用于风格分类任务,在3个美学风格数据集上的实验结果都优于大部分有监督学习方法。(2)提出一种基于混合域注意力与图卷积网络的美学风格多标签分类算法。首先,利用注意力机制增强美学风格标签与图像特征的相关性;其次,利用图卷积网络建模美学风格标签之间的相关性;最后,进行端到端的美学风格多标签识别。在2个摄影美学风格多标签数据集上进行实验,结果表明本文提出的算法在大部分指标上更有优势。(3)基于上述算法搭建图像美学风格分析系统,在提供美学风格分类算法服务的同时,收集用户上传的美学风格图像,并定期对标注错误的图像进行纠错,提高美学风格数据集的质量。通过本系统,协助非专业人士获取美学风格相关的知识,提高审美能力;协助专业人士对美学风格进行更细致的研究。
其他文献
给定一张图像和一个自然语言描述的关于图像的问题,视觉问答任务旨在学习模型,根据问题对图像内容进行细粒度理解,并在此之上展开视觉推理以给出准确的预测答案。该任务是近年来人工智能、计算机视觉等领域的研究热点。现有视觉问答方法通常只关注图像中的视觉物体,忽略对图像中关键文本内容的理解,从而限制对图像内容理解的深度和精度。为解决该问题,针对图像中场景文本理解的“场景文本视觉问答”任务应运而生。为理解图像中
高端瓷砖对图案精度要求非常高,一般通过工业3D打印机在瓷砖毛坯上打印图案再烧制完成。工业3D打印机有6~12个通道,每个颜色喷头有4个量化级别。将标准图像格式的瓷砖设计图分成打印机对应的6~12个通道,得到分色图(256个量化级别),再将分色图转换为颜色喷头所需的多级半色调图(4个量化级别),这个过程被称为半色调过程。据调查,分色和多级半色调图生成技术及其系统基本都是国外控制,因此,这类关键技术给
无线能量传输(WET)通过电磁波为散落的传感器节点持续供电,从而使无线传感器网络(WSN)的使用寿命得到延长。但是,提供的能量可能仍然无法满足传感器节点的能量需求。这个问题可以通过部署冗余传感器节点来缓解。同一监测区域内可部署多个传感器节点,它们同时接收能量以增加收集的总能量,并执行休眠/唤醒调度减少每个节点的能量消耗。针对不同场景,本文研究了冗余部署模型在无线传感网络(WSN)中应用的问题。(1
当前,精于理性计算的智能系统还不能自然地与人类进行情感交互。为了实现真正的人类智能(语义理解+记忆情感),研究者们提出了情感计算的概念,希望赋予计算机识别和表达情绪的能力。现实场景中人们主要通过表情、姿势和声音来强调特定的观点或表达情绪。这种方式不仅涉及到词汇/语法,而且视觉和听觉也是重要的信息传达方式。为了准确识别人类的情绪,我们需要开展相应的情绪分析工作:结合深度神经网络技术实现多模态数据——
多轮文本对话是人机交互的重要方式,是当前工业界和学术界的热门研究方向。近年来,随着智能对话系统的发展,人们开始更青睐那些能给予情绪支持的对话系统。这种具有情绪支持能力的对话系统,可以识别出求助者低沉的情绪,在表达同理心和安抚情绪的同时帮助其寻求解决困难的途径,以缓解求助者情绪压力。然而如何根据对话上下文准确地识别用户的情绪状态,如何为用户提供有效的情绪支持,是情绪支持对话任务的难点问题。立足于这两
时序动作检测任务旨在让计算机理解视频的局部时序内容语义并输出视频内的动作片段相关信息,具体为检测视频内动作片段的开始时间、结束时间以及所涉及的动作类别。考虑到视频数据人工标记的成本高昂,目前的研究热点是如何在降低样本标记成本的情况下完成时序动作检测任务,依据训练样本标记信息的完整程度可将时序动作检测任务细分为三种学习范式:1)提供完整帧级别标记的全监督学习范式;2)提供极少数帧级别标记的点监督学习
微表情研究属于交叉学科研究,其研究内容涉及计算机科学和心理学。心理学家认为人类产生微表情具有不自主性,因此,微表情可以反映人类内心的真实情感。近年来,微表情识别被广泛应用于心理治疗、公共安全和司法讯问等领域。微表情具有两个特点:1)持续时间短暂;2)发生时面部肌肉变化微弱。这两个特点导致微表情识别十分困难,即使是经过培训的专业人员对微表情进行人工识别,得到的识别准确率也不高。因此自动的、精确的、鲁
随着工业制造的发展,工业产品种类越发丰富,因而造成了生产设备机械结构的复杂化和特异化,使得传统控制器的控制性能无法满足要求。大多数的机械设备都是非线性系统,而特异化的结构加大了不同系统间非线性程度的差异,因此本文使用了一种能包含大多非线性效应且具有一定通用性的动力学模型,然后针对该动力学模型提出一套具有高控制性能的非线性控制方案。此外,随着物联网技术的普及,需要采集和统计机械在生产活动中的实时运行
小篆是中国最早统一的标准化汉字,并随着朝代发展在中国历史上演变出多种字形和书写风格,它对现代汉语的发展起着重要作用。此外,它涵盖了自甲骨文以来先秦古文字的完整结构模式,对中国古代语言学的研究也具有独特价值。尽管目前已有许多先进的深度学习模型用于检测和识别各种古代文字,但小篆识别依旧存在以下挑战:(1)不同朝代的小篆在风格和笔画方面存在巨大差异,且不同风格的小篆在类别上存在数量差异。如《说文解字》收
随着技术的发展,智能感知设备的计算能力和感知能力有了很大的进步。然而,在用户量快速增长的今天,面对海量的人体行为数据,设备对用户行为的理解能力仍略显不足:一方面,对于相似行为识别,现有的人体行为识别模型仍有提升的空间;另一方面,针对应用场景中智能感知设备存在的计算能力、能耗以及网络状况等限制,能够实时对人体行为数据进行识别和交互反馈并且兼顾精确率和性能的自适应算法模型也是急需解决的问题。针对上述问