【摘 要】
:
概念分解作为一类有效的、解释性较好的表示学习方法,在机器学习与数据挖掘领域引起了广泛的关注,但经典的概念分解算法普遍存在如下问题:a)直接基于原始数据进行分解,导致对噪声敏感;b)缺乏动态的自适应局部保持机制,导致近邻数选择难;c)无监督的学习模式无法利用标签信息,导致特征鉴别性不足;d)传统模型为单层分解结构,导致无法挖掘隐藏的深层次特征。鉴于以上不足,本文重点围绕“鲁棒特征学习、自适应权重构建
论文部分内容阅读
概念分解作为一类有效的、解释性较好的表示学习方法,在机器学习与数据挖掘领域引起了广泛的关注,但经典的概念分解算法普遍存在如下问题:a)直接基于原始数据进行分解,导致对噪声敏感;b)缺乏动态的自适应局部保持机制,导致近邻数选择难;c)无监督的学习模式无法利用标签信息,导致特征鉴别性不足;d)传统模型为单层分解结构,导致无法挖掘隐藏的深层次特征。鉴于以上不足,本文重点围绕“鲁棒特征学习、自适应权重构建、半监督分解机制、深度特征挖掘”四个核心技术问题,以提高概念分解模型面向特征表示与聚类任务的“鲁棒性、局部保持、特征鉴别和深层特征挖掘能力”为研究目标,以“从无监督到半监督、从浅层模型到深层架构”为研究思路,系统地提出四种新的概念分解算法。具体包括以下内容:(1)针对现有概念分解对噪音敏感、无法自适应保持局部性的问题,提出一种无监督的弹性自动加权局部坐标概念分解算法RFA-LCF。该模型将鲁棒弹性概念分解、子空间复原、鲁棒稀疏局部坐标编码和自适应加权学习集成到一个统一的模型中。为了提高模型对噪音的鲁棒性,通过学习一个稀疏投影恢复潜在的干净数据空间,进而进行弹性概念分解。模型还利用基于L2.1范数的弹性残差来编码复原数据与其重构数据之间的差异,并基于鲁棒稀疏局部坐标编码,使用近邻的基概念进行数据表示。此外,通过联合最小化基于复原数据、锚点和坐标的重构误差,可自适应地保持基向量空间和新坐标空间中的流形结构信息。通过增强概念分解对噪声数据的鲁棒性、使用弹性约束对重构误差进行度量、联合优化局部性,显著提升了数据表示与聚类能力。(2)针对现有模型对噪音的鲁棒性不足、无法利用标签信息提升性能等问题,提出一种基于联合标签预测的鲁棒半监督自适应概念分解算法RS2ACF。该模型将鲁棒半监督概念分解、联合标签预测、子空间复原和联合自适应局部性保持集成到一个统一的模型中。为了获得鲁棒的特征表示,模型最小化L2.1范数约束下的稀疏噪声项。为了充分利用部分标签信息、增强特征的判别能力,明确地使用已标记数据的类别信息,更重要的是通过联合学习未标记数据的标签预测投影,进而估计出无标签样本的类别信息。此外,通过联合最小化已标记数据和未标记数据的特征、及预测的标签的邻域重构误差,使得流形结构信息可以在特征空间和标签空间中同时自适应地保持,可有效避免传统邻域保持方法中近邻参数选择难的问题。(3)针对传统的概念分解方法无法挖掘深层特征的问题,提出一种深度自表示概念分解网络DSCF-Net。为提高数据表示和聚类能力,该模型将鲁棒深度概念分解、深度自表示学习和自适应局部信息保持的特征学习集成到统一的框架中。为挖掘隐藏的深层数据表示,设计了一种新的利用多层线性变换的层次分解结构,在每一层通过优化能够捕捉高维信息的基概念间接改善数据表示。为提高特征对抗稀疏噪音的鲁棒性,首先通过子空间复原技术进行稀疏误差修正,进而在恢复后的干净子空间进行深度概念分解。为获得能够保持局部信息的特征,提出了一种自适应深度自表示加权策略,利用系数矩阵作为自适应重构权,同时在低维表示空间保持局部信息。(4)针对现有多层矩阵分解方法因不合理的分解结构导致表示能力受限等问题,提出一种双重约束的深度半监督成对分解网络DS2CF-Net,将先验信息扩充、自表达判别表示、联合标签与结构约束集成到深度半监督成对分解模型中。设计了一种新的深度分解策略,在每一层成对地优化基向量和表示矩阵。引入纠错机制和特征融合策略,在层与层之间加入聚类评估模块,防止出现性能随着层数增加而出现下降的问题。模型还加入了标签预测模块扩充先验知识,利用结构与标签约束提升特征的鉴别性。此外,采用的自适应的双图学习技术可确保模型能在数据空间和特征空间同时保留局部几何结构信息。
其他文献
孤独症谱系障碍(Autism spectrum disorder,ASD)是一类神经发育障碍性疾病,其核心症状是社交沟通障碍、重复和异常的感觉-运动行为及兴趣或活动范围狭窄,具有很强的遗传性。亚洲ASD的患病率估计为0.36%。ASD可持续一生,严重影响患者生存质量,对家庭和社会造成了巨大的经济和社会负担。世界卫生组织指出因ASD造成的全球负担还在持续增长。遗传因素和环境因素在ASD的发生中都起着
第一部分CLEC5A对心肌梗死小鼠的影响目的:本部分研究探讨CLEC5A对小鼠心肌梗死(myocardial infarction,MI)的影响。方法:将 C57BL/6 小鼠随机分为 4 组:Sham、MI、MI+Ad-NC、MI+Ad-sh-CLEC5A,每组 6 只。将每只小鼠麻醉固定后,打开胸腔,结扎冠状动脉左前降支。Sham组只开胸不结扎。MI+Ad-NC、MI+Ad-sh-CLEC5A
第一部分大鼠脑出血后脑组织中BMAL1蛋白表达的变化目的探讨脑出血(Intracerebral hemorrhage,ICH)模型大鼠脑组织中脑和肌肉类Arnt样蛋白1(Brain and muscle Arnt-like protein 1,BMAL1)蛋白昼夜表达变化以及脑出血后不同时间点的表达变化。方法1.实验设计和分组:(1)将健康雄性Sprague-Dawley(SD)大鼠随机分为Sha
随着人工智能时代的来临,柔性电子皮肤和可穿戴设备引起了人们的广泛关注。压电聚合物因既具有柔性又具有良好的压电性而成为制备柔性压电传感器的关键材料之一。然而,目前压电聚合物的综合性能尚无法满足制备柔性电子皮肤和可穿戴设备的要求。发展压电聚合物复合材料的高效制备方法,深入理解压电聚合物复合材料的构效关系,有效提升它们的综合性能已经成为化学和物理领域的重要研究课题。本文主要利用分子间氢键相互作用制备了两
第一部分阿霉素抑制骨髓间充质干细胞增殖及成骨分化机制的研究目的:临床证据表明,阿霉素(DOX)作为一种化疗药物,可引起癌症患者严重的骨骼损伤。本研究采用不同浓度的阿霉素(0~50nM)处理骨髓间充质干细胞,阐明阿霉素对骨髓间充质干细胞增殖及成骨分化的影响,并探讨阿霉素对其成骨能力影响的分子机制。方法:在无菌条件下收集SD大鼠(6~8周)股骨中的全骨髓细胞,采用全贴壁法分离纯化骨髓间充质干细胞,并对
目的:骨癌痛(bone cancer pain,BCP)是恶性肿瘤转移至骨骼后引起的慢性疼痛,是肿瘤晚期患者最常见的临床症状之一。BCP的发生机制目前尚未阐明,在临床上缺乏有效的治疗手段。近年来的研究表明,长链非编码RNA(long noncoding RNA,lncRNA)可以发挥多种重要的生物学功能。本研究旨在探讨BCP大鼠脊髓中lncRNANONRATT009773.2在疼痛产生中的作用和分
第一部分:十字形皮瓣在先天性并指畸形中的应用第一节指蹼的测量和重建指蹼的十字形皮瓣的设计目的:通过测量正常人群手指和指蹼相关数据,创新性设计掌背十字形皮瓣用于并指分指后指蹼重建。方法:随机抽取小儿骨科住院14岁以下患儿,排除患手。采用刻度软尺在指蹼最远端水平测量健手示、环、小指近节直径L1,测量相邻掌骨头顶点距离L2,再分别测量指蹼最远端至掌骨头顶点连线的皮肤距离L3。测量结果应用SPSS19.0
视神经脊髓炎谱系疾病(neuromyelitis optica spectrum disorders,NMOSD)是一组以视神经和脊髓受累为主的中枢神经系统炎症性脱髓鞘疾病,平均年复发率较高,疾病的反复复发和累积损害常可导致永久性失明或肢体瘫痪。缓解期的序贯治疗是减少NMOSD复发及阻止残疾进展的主要方法。利妥昔单抗(rituximab,RTX)通过删除外周循环中的B细胞可减少NMOSD的复发。诸
钛基材料是最常用的生物医用金属材料,但钛材料具有生物惰性,植入骨组织后常导致钛-骨界面成骨能力弱,组织纤维化,尤其是疏松的骨组织,钛植入物易发生无菌性松动等。如何将钛材料惰性表面改性成生物活性表面,促钛植入物骨整合是生物材料研究的热点。贻贝仿生多肽改性钛材料表面是一种简便、高效的方法,通过一步浸泡法即可将携带生物活性大分子的仿生多肽接枝到钛材料表面,形成生物活性表面,发挥生物活性分子的促骨整合作用
依存句法分析通过依存树来刻画输入句子中词语之间存在的语法和语义信息。依存树是由输入词组成的树状结构,其中从核心词到修饰词的有向边为依存弧,弧上的标签为依存关系类型。依存句法分析作为一项自然语言处理的基础任务,由于其表现形式简单、易于理解,受到了许多研究者的关注。依存句法分析的结果不仅可以促进自然语言处理任务的发展,如分词、语义角色标注等;也可以为其他人工智能任务提供支撑,如机器翻译、信息检索等。近