【摘 要】
:
随着互联网产业的快速发展,在日常工作中产生了大量特征丰富、结构复杂的无标签数据。由于人工标记数据往往具有高额成本,因此聚类分析作为一种典型的无监督学习方法,仅根据数据之间的关联关系就能挖掘到有用的信息,受到了众多学者的关注。其中,基于图表示学习的聚类算法是该领域的主流研究方向之一。尽管近几十年不同学者提出了许多基于图表示学习的聚类算法,但仍存在学习到的表示图不具有适于聚类的连通图结构或者对噪声和离
论文部分内容阅读
随着互联网产业的快速发展,在日常工作中产生了大量特征丰富、结构复杂的无标签数据。由于人工标记数据往往具有高额成本,因此聚类分析作为一种典型的无监督学习方法,仅根据数据之间的关联关系就能挖掘到有用的信息,受到了众多学者的关注。其中,基于图表示学习的聚类算法是该领域的主流研究方向之一。尽管近几十年不同学者提出了许多基于图表示学习的聚类算法,但仍存在学习到的表示图不具有适于聚类的连通图结构或者对噪声和离群点具有较低的鲁棒性等缺陷。鉴于此,本文基于数据的全局和局部结构信息,通过引入不同的约束条件提出了两种更为健壮的图表示学习聚类算法,旨在克服上述缺陷并提高聚类效果。本文的主要研究成果如下:(1)为了得到一个恰好具有k个连通分量的表示图,使其具有更适于聚类的空间结构,本文提出了一种自适应邻居和图正则的图表示学习聚类算法RLANGR。该算法通过局部距离信息和秩约束项的联合促进,使得最终学习到的表示图同时满足局部与全局最优结构。首先,RLANGR认为距离越相近的两个数据样本更有可能来源于同一类别,据此学习一个具有局部最优结构的表示图。然后,在算法模型中引入噪声约束项对混入数据集中的噪声和离群点进行限制,提高算法的噪声鲁棒性。最后,通过引入秩约束项确保学习到的表示图具有适于聚类的全局连通结构。为了验证算法的有效性,在4种图像和3种非图像数据集上与11个相关算法进行了充分对比,分析了算法的时间复杂度,并对算法模型中所涉及到的参数给出了取值建议。实验结果说明,在7个不同数据集上,相较于对比算法,RLANGR都能够取得相对优秀的聚类结果,说明算法具有不错的泛化能力。(2)数据往往会被混入其中的噪声和离群点所污染,从而导致真实分布结构难以被发现。为了解决该问题,本文提出了一种自适应加权噪声约束的图表示学习聚类算法RLAWNC。首先,基于噪声和离群点在数据的联合表示过程中具有较大的重构误差这一特点,该算法引入了一个自适应的权重矩阵对噪声和离群点进行约束,削弱被噪声和离群点所污染的特征的表示贡献,提升高鉴别特征在联合表示中的作用,从而提高算法在全局结构上的噪声鲁棒性。然后,引入局部距离正则项增大潜在的同类数据在联合表示过程中的表示系数。最后,引入局部距离度量项使得学习到的表示图在全局结构噪声鲁棒性的前提下同时具有局部最优结构。为了验证算法的有效性,在5种图像和3种非图像数据集上与10个相关算法进行了充分对比,分析了算法的时间复杂度,并对算法模型中所涉及到的参数给出了取值建议。实验结果说明,在8个不同数据集上,相较于对比算法,RLAWNC都能够取得相对优秀的聚类结果,说明算法具有不错的泛化能力。
其他文献
单核苷酸多态性(Single Nucletide Ploymorphysim,SNP)位点是研究人类家族、动植物遗传变异的重要基础,因此被广泛应用于群体遗传学、疾病相关基因等研究,并在药物基因组学、诊断学和生物医学中发挥着重要作用。在药物基因组学研究中,识别SNP位点-药物之间的关联关系是临床精准用药的关键。然而,传统的生物实验方法在验证大量SNP位点-药物之间的关联关系时,不仅成本高、效率低,而
近年来,滑坡、泥石流等地质灾害的频繁发生,给人们的生产生活带来了极大的损失。随着航天遥感和无人机技术的发展,地面变化和交通设施可以被全天候实时监视,为人们实时监测和预防灾害提供了有力的技术支持,可以最大限度的保护民众生命和财产安全。图像检测方法可以快速提取出不同时间监测对象的变化情况,已被广泛应用于地质灾害监测、关键设施损伤监测等诸多领域。本文针对多时相遥感图像和桥梁裂缝图像自身的特点,提取图像的
随着计算机科学技术的快速发展,各个领域的复杂关系产生了多个复杂网络,比如:社会网络、信息网络、生物网络和技术网络。链路预测是复杂网络中重要研究内容,它是在给定网络中利用已有的各种信息来预测尚不存在连边的两个节点发生链接的可能性,在社会网络中的朋友推荐系统、预测蛋白质之间的相互作用、推断网络演化机制等领域均有广泛应用。经典链路预测算法大多是从网络的拓扑结构包含的信息出发研究的单机制算法,但这些算法的
研究背景IL-15作为一种多效细胞因子,不仅调节先天性免疫反应,而且调节适应性免疫反应,刺激记忆CD8+T细胞、NK细胞、NKT细胞的活化和增殖,并调控着不同非免疫细胞和组织的稳态和生长。IL-15受体(IL-15R)由三种亚基组成,即特异性高亲和力受体IL-15Rα,以及与IL-2共用的中间亲和力受体IL-2Rβ、γ。IL-15Rα广泛表达于各种免疫和非免疫细胞类型,IL-2Rβ、γ主要表达于T
红外与可见光图像融合是同一场景下将不同传感器采集到的不同类型图像,通过一定的算法将其融合到一起的过程,实现红外与可见光图像优势互补,解决了单一图像信息量不足的问题,从而提供质量更高、更精确的信息。为目标识别、目标追踪等领域奠定了基础,在机器视觉、目标检测和军事等领域有着广泛的应用。针对目前红外与可见光图像融合存在的问题,本文在利用传统方法的基础上,引入卷积神经网络,这可以使算法获取更多的细节特征,
研究目的:1.探讨高脂膳食性NAFL压力微环境活化肝星状细胞(HSCs)致纤维化的机制;2.探讨YAP在NAFL阶段HSCs活化中的作用。研究方法:1.NAFL纤维化、HSCs活化及压力微环境:(1)体内实验:使用本实验室构建的高脂膳食性NAFL大鼠模型蜡块标本,通过免疫组化染色检测肝组织内Collagen Ⅲ和YAP的表达;(2)体外实验:以大鼠原代HSCs和HSC-T6细胞为研究对象,机械压力
多聚焦图像融合(Multifocus Image Fusion)是图像融合领域的研究热点之一。由于受到镜头景深的限制,得到景深范围内聚焦而景深范围外不聚焦的图像,利用多聚焦图像融合使得在同一个场合的各个聚焦区域内的所有物体在同一图像中清晰呈现。目前,多聚焦图像融合技术已在数字摄影、军事、光学显微镜、目标检测等领域得到了广泛的应用。滚动引导滤波器(Rolling guidance filtering
持留菌是细菌的休眠状态,对抗生素具有高度耐受性,与临床上许多复发性感染和慢性感染有关。金黄色葡萄球菌可形成持留菌,本课题组前期研究发现细菌密度可影响其持留菌的形成,但机制不清,本研究进行了探索。目的:1.探究细菌密度影响不同培养阶段金黄色葡萄球菌持留菌形成的分子机制。2.研究甲酸乙酰转移酶基因(pflB)在金黄色葡萄球菌高密度时持留菌形成中的作用及与毒力的关系。方法:1.将金黄色葡萄球菌Newma
目的:探讨purN影响金黄色葡萄球菌Newman株持留菌形成和毒力的分子机制,为金黄色葡萄球菌持留菌的防治寻找药物作用新靶点。方法:1.将过夜培养的金黄色葡萄球菌Newman株与purN敲除株(ApurN)菌液1:1000稀释后分别培养至3h、4h、5h、9h、24h,氨苄青霉素(10μg/mL)暴露实验检测持留菌形成变化。2.从前期构建的回补株ΔpurN::pRBpurN中抽提pRAB11-pu
陇中黄土高原是黄河流域生态保护和高质量发展国家战略的重要区域,该区生态环境脆弱,人工造林是该区生态恢复和保护的重要举措。然而,由于水资源相对匮乏,该区域人工林树木耗水和土壤供水之间的矛盾一直存在,并在全球气候变化背景下不断加剧。山杏(Armeniaca sibirica)和油松(Pinus tabuliformis)作为陇中黄土高原的重要造林树种,明确其水分传输特征与调节机制,对于深入理解两树种耐