基于张量分解的高光谱数据表示与重构

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wangxingyu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高光谱数据(图像)不仅包含目标的二维空间结构图像,也记录一维几十到几百个波段光谱响应曲线,分别描述目标的空间地物分布和详细光谱特征。高光谱图像上述独特的特性增加了其表示和重构的难度。如何通过恰当的模型假设,把高光谱图像内在的结构抽象为数学模型,有效利用空间信息、谱信息以及空谱联合信息是高光谱图像处理的关键。
  高光谱数据是高维数据。低秩和稀疏表示是刻画高维数据低维结构的重要方式。稀疏和低秩假设有助于挖掘高维数据蕴含的潜在结构、先验知识以及以先验知识为引导的正则化从而实现高维高光谱数据的精确感知。高光谱图像是多维数据包括两维空间维度和一维光谱维度。其内部具有多重复杂的结构关系,如不同维度上的多重线性关系。多维数据的矩阵或向量化会导致不同维度之间的结构信息破坏,从而无法全面刻画数据内部的多重线性结构。作为矩阵在多维空间的扩展,张量是高光谱数据表达比较好的方式。它能够更好地保留和描述高光谱图像的空间信息、谱信息和空谱联合信息。本文以高光谱解混和高光谱去噪为背景,结合低维子空间学习、稀疏表示等理论,研究基于张量分解的高光谱数据表示与重构,完成了如下创新性研究工作:
  1.提出了一种基于矩阵-向量非负张量分解的高光谱图像解混算法。传统基于非负矩阵分解的高光谱图像解混算法需把三维高光谱图像展开为二维矩阵形式处理,不可避免破坏高光谱图像内在结构关联。本文扩展了非负矩阵分解解混模型到非负张量分解解混模型,提出了基于BTD(Block term decompostion)的矩阵-向量非负张量分解解混算法。它将高光谱图像分解为低秩矩阵和向量外积形式,分别与线性光谱混合模型中的丰度和端元对应,模型物理可解释性强。无需引入其他辅助空谱正则化,张量结构能够自然地保留高光谱图像所有的空间结构,使得模型更加简洁。实验结果表明,本算法可以提高高光谱图像解混性能。
  2.提出了全变分正则的矩阵-向量非负张量分解算法用于高光谱图像解混。BTD唯一性比较严格,噪声、问题病态等外部干扰会进一步破坏BTD的唯一性。从数据组织角度,张量数据如高光谱数据有独特结构性,各模内部关联(如光谱关联)和跨模之间的关联(空间结构关联),可以作为先验知识加入到张量分解中提升张量分解的鲁棒性。全变分具有分片平滑和边缘保留能力是挖掘图像空间结构的比较好的方法。本文把全变分引入张量分解中,对分解得到的丰度矩阵去噪,使分解后得到的丰度矩阵具有局部平滑结构,同时减少张量分解对噪声的敏感程度。实验结果表明,全变分的引入提升了高光谱解混性能。
  3.提出了基于稀疏低秩非负张量分解的高光谱图像去噪算法。它把高光谱图像分解为向量(字典中的原子)和低秩矩阵(对应系数)外积形式。高光谱图像的光谱强关联使得高光谱图像具有光谱低秩结构,可以由低维子空间中字典表示。字典的冗余性,使得系数矩阵具有稀疏结构。因此,本文在分解得到的因子矩阵上加入重加权L1范数增强他们的稀疏性。本文约束分解得到的因子矩阵非负,可以学习到数据部分成分表示,保留图像中的详细结构。实验结果表明,本文所提算法能够有效地去除高光谱图像中的噪声同时保留图像细节。
  4.提出了基于L0梯度空谱正则的低秩张量分解用于高光谱图像混合噪声去除。高光谱图像传感器限制导致采集到高光谱数据通常被多种混合噪声破坏,如脉冲噪声、条纹噪声、高斯噪声和死线噪声等。本文研究基于低秩和稀疏表示的高光谱图像混合去噪。低维光谱子空间学习和空间维的核范数使得本模型可以得到高光谱数据的空谱低秩表示,有利于去除高斯噪声。稀疏项的引入可以很好地处理高光谱图像中的稀疏噪声如脉冲噪声、条纹噪声和死线噪声等。本文扩展L0梯度正则化到L0空谱梯度正则化,并将其引入到张量分解模型中以增强重构后的高光谱图像的空谱纹理信息。实验表明,本文算法可以去除多种噪声混合噪声,并且可以使得去噪后的图像保留空谱纹理结构。
其他文献
在信息化的时代,人们获取大量数据,从中提取关键信息,并据此做出决策。各个领域的从业者,包括科学家、分析师、记者、设计师,乃至普通大众,均意识到数据和数据分析的重要性。其间,数据可视化和可视分析作为发掘数据中有效信息、传达见解和交流与协作的高效工具被广泛运用于商业智能、城市规划、新闻传播等。  伴随着互联网、传感器、物联网等技术的不断发展,人们获取信息的能力和分析数据的需求不断增长。这样的趋势对于可
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。  在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存
随着计算机技术的快速发展,互联网积累了海量的时序数据,如问答数据、社交网络数据和电商交易数据等。如何对这些时序数据中内隐因素之间的交互进行建模,理解个体用户或群体用户在时序数据中所蕴含的意图和行为,是当前人工智能领域研究的热点和难点。本文以问答系统中时序数据理解为研究对象,提出了若干算法模型并进行验证。  一般而言,问答时序数据中丰富的内隐交互信息可以分为结构时序交互和语义时序交互。结构时序交互表
学位
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标
由于影视和游戏制作等领域的需求驱动,三维人脸重建一直是计算机图形学中重要研究方向。与设计师人工建模不同,三维人脸重建主要从输入数据中自动塑造人脸几何。输入类型主要有:2D数据(图像或视频),2.5D数据(立体图像或视频、深度图),3D数据(点云、网格等)等。其中基于单张图像的三维人脸重建输入设备最简单,输入数据量最少,互联网上的素材量最大,因此在面向普通用户的消费级的应用中也最具有潜力。近年来,随
三维重建是计算机视觉中的研究内容之一。准确快速地获取场景中的三维信息(深度)在逆向工程、机器人、导航、增强现实等领域中有着重要作用。在获取场景深度信息的方式上,相比于较为昂贵的激光雷达、结构光扫描仪等仪器,被动式立体匹配方法通过较为廉价的设备(双目相机)即可获取相对较高精度的深度信息。本文借鉴深度学习、数理统计等理论和方法,深入研究了相机标定以及双目立体匹配算法,并将其用于高精度三维人体模型重建。
人体的视觉感知与理解在安防监控、自动驾驶、人机交互、视频内容分析等方面有诸多的应用前景,因而一直是计算机视觉领域的重要研究课题,受到工业界和学术界的广泛关注。多年来,研究员们围绕这一课题中的关键技术展开研究,并取得了丰硕成果。然而,目前的技术研究大多是聚焦于其中的主流问题,技术覆盖不够全面,将这些技术落地到实际应用场景时,尚存在一些诸如恶劣光照条件下对人体的检测定位不够理想,对人体细粒度行为的识别
学位
使用消费级、低精度的深度相机对三维物体进行快速重建,在智能机器人、自然人机交互等领域具有重要的应用价值。由于消费级深度相机所采集的深度图像精度较低,噪声较大且易产生孔洞,如何实时、交互式、高保真度地重建真实场景的三维模型仍具有一定的技术挑战性。本文对基于稠密深度数据的实时相机跟踪与高精度表面重建进行了深入研究,对三维重建流程的几个关键环节进行了改进和提升,形成了解决方案。主要工作如下:  (1)针
学位