【摘 要】
:
图像抠取(Image Matting)是指从一张任意输入的图像中精细地抠取出用户所感兴趣的前景物体,该前景可以为人、动物、植物或网状等类别。被抠取的前景可以被多个应用领域所使用,譬如:绿幕电影拍摄及制作、虚拟现实(Virtual Reality)和增强现实(Augmented Reality)、在线会议背景替换、网络主播换装等。随着大数据时代的到来,海量的互联网数据对图像抠取算法带来了一系列新的挑
论文部分内容阅读
图像抠取(Image Matting)是指从一张任意输入的图像中精细地抠取出用户所感兴趣的前景物体,该前景可以为人、动物、植物或网状等类别。被抠取的前景可以被多个应用领域所使用,譬如:绿幕电影拍摄及制作、虚拟现实(Virtual Reality)和增强现实(Augmented Reality)、在线会议背景替换、网络主播换装等。随着大数据时代的到来,海量的互联网数据对图像抠取算法带来了一系列新的挑战。为此,本文将利用深度学习工具,针对现有抠图算法对已有信息的利用不充分问题,提出两种改进算法。本文的主要研究工作如下:首先,本文提出一种先验引导的信息对齐网络模型,以处理图像编解码过程中的信息不对称和像素分布不均匀问题。此模型采用强监督形式,在模型优化时,本文提出一种高斯动态调控机制,其利用监督信息从标签中获得一个像素级别的样本自相关动态响应值,该响应值可以反作用于损失函数,进而督促网络模型在进行优化训练的同时,动态且自适应地处理分布不均衡的像素。在信息采样层面,此模型分别对不同层级编解码得到的信息进行信息匹配和融合,达到减小信息丢失和偏离的目的。此外,本文的整体结构也在多个基准数据集上取得了最优的效果。随后,本文重新思考了现有图像抠取范式中对不同输入信息的利用和影响,并提出一种新的信息挖掘和融合模型。该模型采用多源信息提取方式,分别从彩色图像、三分图和二者混合中分别进行全局纹理、全局定位和局部重叠信息的挖掘。然后,本文设计了一种互补的、非对称的注意力机制来进行多信息源的自适应融合。该融合策略的创新性是:在保留局部细节特征的同时,有效地将不同类型的长远全局特征进行了传播,从而实现相似像素间的信息共享和增强。最后,本文对所提出的两种图像抠取方法进行归纳总结,分析它们的优缺点,然后对该领域的未来发展进行展望。
其他文献
本翻译项目的材料选自Cultural China一书,书中着墨最多的是儒家的人文精神,突显儒家一脉相承的批判精神。在全球化和本土化意识均日益强烈的今天,该书对于儒家文化的继承与传播具有重要意义,可以为相关学者提供很好的参考,具有一定的翻译价值。本项目选取了书中“人文精神与全球伦理”作为源文本。作为人文精神主题演讲,全文语言流畅,虽涉及部分儒学专业术语,但整体难度适中,重点在于向听众传达思想和观点。
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作
生命过程通常复杂而精细,需要许多生物分子共同参与来完成。构建并分析生物网络有助于准确地认识生物分子的功能与作用,识别生命过程中的关键生物分子,从而辅助疾病诊断、药物研发等研究。本文研究了基于分子间关联关系的生物网络构建方法,和基于差异网络筛选潜在生物标志物的网络分析方法。具体研究内容如下:1.提出了基于加权弹性网络的基因调控网络构建算法WEN(Weighted Elastic Net)。由于基因之
《孔子家语》,又名《孔氏家语》,或简称《家语》,按照今传本附《孔安国序》所言,该书与“《论语》、《孝经》并时”,乃“当书公卿士大夫及七十二弟子之所咨访交相对问言语”,即是一部记录孔子及孔门弟子思想言行的著作,因此被杨朝明盛誉为“孔子研究第一书”,虽在国内曾被一度视为伪书,但却在不同的时期被翻译成英、日、韩等多种语言,并对儒学在世界文化中的传播起到了重要作用。其中,与英国传教士赫真信的英译版及日本学
下一个位置预测任务的目的是希望通过分析人类的移动轨迹数据,获取用户的移动行为规律信息,从而预测用户接下来最可能访问的位置,其在基于位置的社交网络服务中发挥着非常重要的作用。然而,实现准确、高效的位置预测仍然面临着诸多挑战。首先,人类的移动行为与时空因素高度相关,使得人们的出行规律经常表现出极其复杂的时空过渡模式。其次,轨迹数据存在稀疏性和异质性问题,严重影响了位置预测模型的移动规律建模效果。最近,
近年来,行人检测在计算机视觉任务上已取得重大进展。目前大多数行人检测方法都基于深度学习框架,采用深度卷积神经网络(Convolution Neural Network,CNN)来提取特征。然而,CNN中的卷积属于局部操作,主要针对局部图像获取局部信息,无法提取图像的全局信息,并且依赖下采样来获得高级语义特征,不能选择性地关注重要的通道和特定的空间位置,导致检测器的性能受限。此外,实际行人检测场景通
脉冲神经网络,作为第三代神经网络,具有时间连续性、高能效、快速处理和生物合理性等特点,近年来逐渐应用在机器人领域。导航避障任务对于机器人来说是一项最基础且最重要的功能,但如何设计出高效且生物可解释的移动机器人复杂场景下的避障与导航算法是一项重要的研究问题。大多数方法通过人工设计的脉冲模型在大量的数据集中不断训练来实现固定场景下的避障与导航功能。但这些方法面临着如下问题:第一,脉冲模型的训练需要大量
长非编码核糖核酸(long noncoding RNA,lnc RNA)作为具有代表性的一类非编码核糖核酸(non-coding RNA,nc RNA),通常被认为不具备编码蛋白的能力。然而,最近研究发现,部分lnc RNA含有不超过300个核苷酸的小开放阅读框(small open reading frames,s ORFs)具有编码小肽的能力,打破了人们对nc RNA不能编码的传统认知,且在后
遥感图像的三维建模及渲染方法是地理信息技术、数字图像处理、人工智能和计算机图形学等领域的热点研究之一,其在地质研究、国土资源监测、城市建设等诸多领域有着不可替代的作用。随着近年来大规模开放世界、数字孪生城市和元宇宙等前沿研究概念的提出和发展,业界对高效率、高质量、迭代速度快、泛用性强的三维遥感图像建模方法和渲染方法的需求日益迫切。为了解决这一问题,本文将三维过程化内容生成(3D Procedura
近些年,深度学习技术的迭代发展促使生产生活愈发智能化。在人机交互、安全监控、体育训练等多个领域内,动作识别技术有着极大的社会需求和发展前景。动作识别任务包括针对如视频模态、骨架模态等不同输入数据模态的子任务。相较于视频模态等其他数据模态,骨架模态可以避免背景信息的干扰,近年来,图卷积理论的提出与完善促进了骨架序列动作识别技术的发展。然而,现有基于图卷积的骨架序列动作识别方法仍存在局限性。本文从网络