联合图嵌入和标记传播的半监督子空间聚类方法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:huanghuimin1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球进入互联网时代的大形势下,传统的社交方式和消费模式已经逐渐被互联网的浪潮潜移默化,各行各业都转向以海量数据交互的方式为人们提供便捷且优质的服务,对这些数据进行聚类分析可以为产业服务升级赋能,从各个方面给人们的生活带来更多便利。面对大量数据,无监督聚类算法由于没有使用先验信息,模型的性能往往达不到我们的要求,半监督聚类算法可以使用少量先验信息改善模型性能的同时提升模型对数据的泛化能力。但是,这些数据往往都是高维的,高维数据中含有许多无关属性,基于原始特征空间的聚类算法已经不再适用。研究人员发现高维数据一般具有某种低维子空间结构,因此提出了半监督子空间聚类算法。在面对大量高维数据的聚类问题时,半监督子空间聚类算法凭借其优秀的性能表现受到越来越多人的关注。本文以半监督子空间聚类为研究方向,提出两个新颖的半监督子空间聚类算法,具体内容如下:(1)传统的半监督子空间聚类算法的学习过程分为学习相似度矩阵和子空间聚类两个阶段,无法充分利用相似度矩阵和数据标签之间的关系。此外,一些基于低秩表达的半监督子空间聚类算法虽然能够很好地学习数据的全局信息,但是会忽略数据的局部信息。针对这些问题,本文提出基于MFA(Marginal Fisher Analysis)和标记传播相结合的半监督子空间聚类算法。该算法将低秩表达、标记传播、图嵌入框架加入到统一框架中进行优化,统一了半监督聚类的两个阶段,使得相似度矩阵和标记矩阵相互指引学习。除此之外,该算法还使用图嵌入框架中的边际Fisher分析算法(MFA)对已标记的数据进行约束,让其具有类内紧凑和类间分离的局部结构特性,让算法模型能够同时学习数据的全局和局部信息。本文针对该算法提出了一种有效的优化算法,通过实验证明该算法在聚类性能上具有一定的优势,并且具有良好的噪声鲁棒性。(2)在基于MFA和标记传播相结合的半监督子空间聚类算法中,图嵌入框架的MFA算法只利用近邻关系对已标记的数据进行约束,无法让所有数据都具有这种类内紧凑、类间分离的局部结构特性。针对这些问题,本文在其基础上进行改进,提出基于自适应图嵌入和标记传播相结合的半监督子空间聚类算法。该算法使用全部数据的标记矩阵和相似度矩阵共同指导构建图嵌入框架,让它们建立起紧密的联系,进行自适应学习,将这种局部约束合适地应用到所有数据中。本文针对该算法提出了一种有效的优化算法,通过实验证明该算法拥有更好的聚类性能和良好的噪声鲁棒性。
其他文献
计算机图形学算法通常被用在计算机上模拟三维的虚拟场景,为了模拟较好的三维场景,实现真实的光线效果,通常使用全局光照模型计算场景光照。全局光照算法作为计算机图形学的一个重要领域,多年来备受研究学者的关注。与传统的局部光照算法不同,全局光照算法除了计算场景中直接光线贡献的光强外,还考虑了由折射或反射产生的间接光线贡献的光强,所以全局光照会产生远高于局部光照的渲染绘制结果。光线跟踪是全局光照算法中最具代
学位
现如今,知识图谱(Knowledge Graph)已经成为大数据时代的重要工具,被广泛应用于下一代搜索引擎、智能问答和推荐等领域。基于知识图谱的问答一直是自然语言处理领域讨论的热门话题,由于自然语言处理技术日趋成熟和高质量通用领域知识图谱的相继出现,针对通用知识图谱的知识问答研究较多,且研究成果丰硕。目前,旅游领域已经出现了部分构建旅游知识图谱研究论文,甚至已经有公开的旅游知识图谱可供查阅。然而,
学位
作为计算机视觉的基础任务之一,目标检测是对图像中感兴趣目标进行定位和分类。随着遥感技术的不断成熟,尽管遥感图像的数量呈爆炸式增长,但遥感图像的利用率还是很低,航天遥感数据的利用率小于5%,航空遥感数据的利用率小于10%。如何从海量的数据中得到有用的信息?因此需要迫切发展智能的图像理解和解译方法。遥感图像目标检测技术是遥感图像理解和解译的重要研究方向,在军用领域和民用领域有很大的应用价值。随着计算机
学位
益生菌是一类活性微生物,可对人体内微循环产生一定的影响,主要起到调节肠道菌群、保持微生态平衡的作用,同时其还具备抗癌抗突变、改善酒精性肝损伤、降低血清胆固醇水平、抗炎、抗肿瘤、降血压等功效。益生菌发酵豆乳是一种具有豆乳香味的发酵豆乳制品,是将豆乳高温灭菌后通过益生菌发酵制成。不仅保留了豆乳原有的高营养价值,而且同时产生了一些有利于人体健康的生物活性物质,如:有利于降血压的活性肽、促进消化吸收的低聚
学位
随着互联网的快速发展,基于面向服务体系结构的系统设计得到了广泛应用。而作为SOA体系结构的基础,Web服务以其松耦合、平台独立、以及可以不借助第三方软硬件的额外支持实现数据交换等特点,为世界范围内的信息传递和信息共享提供了关键资源。然而,伴随Web服务技术的普及与完善,互联网中Web服务的数量及种类也在大规模增加,并且出现大量在功能、质量及粒度方面多样的Web服务。因此,如何从庞大复杂的服务集中快
学位
猕猴桃(Actinidia)是我国特色果品资源,在以鲜食为主贮藏保鲜技术创制的同时,猕猴桃汁产业化加工将成为产业链延伸主要方向,而猕猴桃汁传统加工中风味品质异化已成为关键技术瓶颈。鉴于果汁中呈香物质组成的复杂性和不稳定性,如何筛选猕猴桃汁中特征香气组分,明晰传统加工关键环节中风味品质趋变机制是猕猴桃汁呈香品质控制方法创制的科学基础。本论文选择徐香(XX)、翠香(CX)和华优(HY)三种陕西典型猕猴
学位
非线性发展方程可以用来描述非线性科学中大量的非线性现象,孤立子理论作为非线性科学的一个重要分支,其研究的主要内容就是非线性发展方程的精确解及其可积性分析。然而由于非线性发展方程其物理背景及求解运算的复杂性,所以到目前为止求解没有一个统一的方法。本文利用计算机大容量、高速度的特点,借助精确的符号计算软件Maple,建立了两类非线性可积模型问题的构造性方法,并利用此方法研究了这两类非线性可积系统的相互
学位
芪类化合物作为一种天然的植物衍生的次生代谢产物,在自然界中分布广泛,是一类具有相同的1,2-二苯乙烯母核的多酚化合物,其结构复杂多样,具有抗氧化、抗菌、心脏保护、抗癌等多种生物活性,其营养和保健价值而引起人们关注,尤其是随着多个芪类化合物被发现有选择性淬灭单线态氧的能力。其淬灭单线态的机制也引起人们的兴趣,因此本实验选用了具有不同官能团结构的化合物来研究其淬灭单线态氧的机制及比较不同结构的能力差异
学位
近几年,超声波作为一种非热物理加工手段,被认为在葡萄酒催陈方面有广阔的应用前景。现有的研究结果表明超声处理可以影响葡萄酒的组分,改善葡萄酒的颜色,但具体的作用机制尚不明确。其中二氧化硫(SO2)和还原型谷胱甘肽(GSH)是葡萄酒中的重要含硫化合物,其在葡萄酒生产中的含量变化对葡萄酒的颜色有很大影响。本文以SO2和GSH作为研究对象,采用紫外-可见分光光度计、高效液相色谱(HPLC)、高效液相-质谱
学位
从药食同源植物中筛选安全、高效的降血糖活性成分,揭示其降血糖分子机制,可为辅助降血糖功能性食品开发提供参考。菊花是我国著名的药食同源植物。现代有研究表明,菊花提取物、多糖具有降血糖活性,但对菊花中酚类化合物单体的降血糖作用及其机制的研究很少。从菊花中筛选具有降血糖活性的单体并研究其降血糖的作用机制,对于菊花资源的深度开发以及辅助降血糖保健食品的研制具有积极作用。本实验使用计算机模拟以及α-淀粉酶、
学位