基于自表示的子空间聚类模型研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:lingqinhui47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,海量数据的涌现促进计算机视觉、机器学习和模式识别的蓬勃发展,但也带来了处理高维数据问题的挑战。作为处理高维数据这一问题的典型方法之一,子空间聚类受到越来越多的关注。子空间聚类旨在发现高维数据中的低维结构。一般来说,原始数据通常会受到污染,数据一般具有非线性的结构,并且数据的样本量也非常庞大。若不能针对上述存在的现实问题去建立子空间聚类模型,将不利于随后的聚类任务。本文围绕原始数据中存在的几种问题,并增强数据的自表示能力,提出了几类子空间聚类模型,并将其应用于计算机觉。主要工作包括以下四个方面:1.基于自表示的子空间聚类目的是学习一种能够完全反映样本点间相关性的表示。然而,大多数现有的基于自表示的子空间聚类方法直接使用原始数据作为字典,这忽视了真实数据的本质结构(例如,低秩和非线性)。为解决这个问题,通过将特征提取和子空间聚类集成到一个统一的框架中,并提出一种新的投影低秩子空间聚类方法。特别地,投影低秩子空间聚类是学习一个投影变换来提取低维特征,并利用一个低秩正则化来确保提取特征的信息量和重要结构。而且,提取的低秩特征有效地增强了字典的自表示性。此外,通过将非线性激活算子整合到投影变换中,将投影低秩子空间聚类扩展到非线性版本。非线性投影低秩子空间聚类不仅能有效提取特征,还能保证提取特征的数据结构。相应的优化问题通过交替方向法来解决,而且也证明了该算法能够收敛到一个稳定点。真实数据集上的实验结果验证了该模型优于现有子空间聚类方法。2.块对角表示是一种有效的子空间聚类方法。现有的块对角表示方法通常通过一个浅在的线性模型从原始特征中获取自表示系数矩阵。然而,现实数据潜在的结构往往是非线性,因此这些方法不能完全地反映样本之间的内在关系。为处理这个问题,提出了一种新的隐块对角表示模型来对非线性结构进行子空间聚类,该模型联合地学习一个自编码器和一个块对角表示矩阵。自编码器由非线性编码器和线性解码器组成,它从非线性样本中学习特征方面起着重要作用。同时,将学习到的特征作为新字典用于具有块对角正则化的线性模型中,可以确保谱聚类的良好性能。此外,也从理论上证明学习到的特征位于线性空间中,从而确保了采用自表示线性模型的有效性。各种真实数据集的大量实验验证了隐块对角表示模型实现优异的聚类性能。3.块对角表示在子空间聚类方面取得了巨大的成功,但高计算成本限制了其广泛应用。为了解决这个问题,提出了一种称为投影块对角表示的新方法用于子空间聚类。首先,利用有效的采样策略从原始大规模数据中选择一个小子集。然后,学习投影映射以匹配所选子集上的块对角表示矩阵。训练后,利用学习到的投影映射为原始大规模数据快速生成具有理想块对角结构的表示。此外,通过捕获数据的全局结构或局部结构以增强块对角编码能力,进一步扩展了提出的投影块对角表示模型。此外,还从理论上和经验上分析了投影块对角表示的块对角效果和可行性保证,以显示所提出模型的有效性。特别是,这是学习一个基于投影形式的块对角表示来处理大规模子空间聚类问题的第一项工作。最后,在四个公开数据集上的实验结果表明,相比于最近的基于块对角的子空间聚类方法,所提的投影块对角表示方法实现了更快、更准确的聚类结果。4.现有的大多数子空间聚类方法都试图基于自表示来获得一个相似度矩阵。然而,这些方法直接采用原始样本作为一组基来线性表示它们自身,在实际应用中这样的方式很难准确刻画样本之间的线性关系,可能会导致无法找到理想的相似度矩阵。为准确表示样本间的线性关系,提出一种称为线性敏感的子空间聚类模型,该模型可以通过采用线性敏感的度量来有意识地学习相似度矩阵。此外,也提供了详细的数学分析以表明该度量可以描述样本之间的线性相关性。这是一种全新的子空间聚类方法,将度量学习和子空间聚类结合到一个一致的框架中。该模型首先利用自表示策略来获得初始子空间结构并发现原始数据的低维表示。随后,利用定义的度量在得到的初始子空间上学习具有线性敏感的理想相似度矩阵。通过这样的措施,学习到的相似度矩阵具有这样的性质,即同一子空间中的样本之间的距离较小,而不同子空间中的样本之间的距离较大。此外,为了丰富相似度矩阵使其具有更多一致的信息,通过采用协作学习策略进行自表示子空间学习和线性敏感子空间学习。最后,大量的实验结果揭示了所提出方法的有效性。
其他文献
随着电镀行业的发展,电镀废水排放造成的污染问题一直困扰着研究者。而针对其中高浓度含铜电镀废水少污染、可回收的目标,开发了单膜双室膜电解法处理并回收铜的新工艺,本实验研究了其运行方式、回收效果与机理并对回收的产物进行表征。在一个电解槽内阴阳两极之间放入一张阴离子交换膜,研究了初始Cu2+浓度、电流密度、pH、极板间距、温度和添加剂等运行参数对铜回收率和能耗的影响。在Cu2+初始浓度50g/L,阴极板
期刊
图像分类是机器学习领域的一项重要研究课题,其关键技术是提取图像的特征表示。但现实图像数据比较复杂,易受到光照变化、遮挡和伪装等因素的影响,因此如何提取有效的图像特征以提高分类性能成为目前的研究难点之一。近几十年来,学者们提出了许多基于矩阵回归的有监督分类模型,但是这些模型仍然存在一定的不足。例如,现有基于核范数的矩阵回归主要存在以下缺陷:1)回归过程中直接使用受损测试样本,影响了识别性能;2)利用
学位
相机的相对位姿估计又称相机的相对运动估计是计算机视觉和机器人领域的基础问题之一。目前基于特征点的相对位姿估计方法存在的问题主要包括:所需采样的匹配点的数量较多导致迭代次数较多,以及难以求解全局最右的相对位姿。考虑到如今的智能手机、便携式平板电脑,汽车的自动驾驶平台,无人机和机器人的传感器系统一般都会配置相机和惯导。利用惯导的加速度数据可以得到重力的方向,从而可以将相机的一个坐标轴,例如y轴和重力方
学位
氧还原反应(ORR)是极为重要的一类电化学反应,是许多新型能源储存与转换器件的重要化学过程,也是一种绿色环保地制备双氧水的方式。ORR可分为二电子和四电子途径,反应过程十分复杂,因此控制ORR过程使其按照预期的反应路径进行、减少副反应是重要的研究方向,而新型高效的复合催化剂的设计、结构调控及机理研究成为研究热点之一。纳米复合材料具有独特的物化性质,在电催化材料领域具有极大的潜力。本文结合不同维度纳
学位
现有文献仅以线路传输功率限制或“热电耦合”约束为单一弃风原因研究电热联合系统的消纳弃风策略,因而仅适用于消纳单种原因产生的弃风。针对这一问题,同时考虑两种弃风原因,研究进一步提高风电消纳的调度策略,提出了一种计及电网线路重构的直流潮流改进算法。在此基础上构建了考虑优化机组组合与线路重构的电热联合系统源网协同调度模型。通过实例仿真,验证了该模型能够根据弃风量大小和弃风原因的不同,通过机组出力优化、机
期刊
基于CMA-MESO模式水平3 km分辨率3 h循环的快速更新同化预报系统,本文建立逐小时的分析预报循环系统,并且通过采用5种尺度叠加的高斯相关模型和引入各向异性的水平相关尺度方案来改进背景误差水平相关结构,同时考察引入全球大尺度信息方案对逐小时循环的分析和预报影响。通过对2020年7月19日华东强对流天气过程的数值模拟表明:(1)逐小时循环吸收了更多的高频观测资料和循环中采用更临近的1 h预报场
期刊
金属材料的应用十分广泛,其质量对实际工程应用具有重大影响。金相检验是通过检测钢铁材料劣化情况来评估钢材质量的重要手段,在对金相显微组织进行分析的过程中,准确的评定钢材金相晶粒度等级是最为关键的任务。传统采用人工对金相的晶粒度等级进行评定的方法存在效率低、易受人员经验影响及结果不具有重复性等缺点。基于数字图像处理的晶界识别方法只能识别出较为清晰金相图像中的简单晶界,对于存在干扰的复杂晶界应用效果较差
学位
放电的多样性和放电现象的复杂性以及随着科学技术的进步不断出现新的放电形式,导致了对气体放电的物理过程分析变得越来越复杂。为了对气体放电进行深入的研究,多采用实验方法展开,但是仅靠实验手段仍无法明晰气体放电的微观机制以及获取全部关键参数。基于数值仿真的气体放电过程研究,可更深入地了解气体放电过程的微观规律,获得实验无法测得的关键参数,重现气体放电的演变过程,日益成为推动气体放电理论发展的一种重要方法
学位
随着经济的迅速发展和人们生活水平的不断提升,旅游已经成为休闲娱乐的重要方式。针对不同旅游场景,用户对旅游推荐系统的需求具有多样性,例如,一些用户希望在线旅游平台提供个性化的旅游套餐服务;一些用户希望推荐的旅游套餐具有可解释性,并同时考虑偏好的动态性;一些用户在陌生的城市旅游,需要制定同时满足时空约束和个性化需求的旅游行程;结伴旅游的用户希望旅游行程满足群组中大部分用户的需求。在以上旅游场景中包含了
学位
近年来,支持向量机已经成为解决模式分类与回归问题的一种强有力的方法。经典的“最大间隔”支持向量机通过最大化两个不相交的半平面之间的距离来减低泛化误差。基于支持向量机理论,双平面支持向量机作为一种新的机器学习方法得到了广泛的研究。与经典支持向量机中的单个分类超平面不同,双平面支持向量机旨在生成两个非平行的超平面,其中,每一个超平面更接近于两类样本中的一类,并且尽可能地远离另一类。在求解过程中,双平面
学位