基于数据特征对齐的迁移学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hiwola
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算能力和数据规模的快速增长,机器学习在海量数据的驱动下蓬勃发展,成为大数据分析的通用技术。众所周知,机器学习的训练和更新均依赖于高质量的数据来帮助调整模型。然而,尽管可以获得海量的数据,这些数据往往是低质量的原始数据,只有少量数据被加以正确的标注,或者几乎没有任何标注信息,即数据标注稀疏导致机器学习模型失效。此外,传统的机器学习模型建立在训练数据与测试数据独立同分布的假设条件下,但现实常常难以满足这种情况,而迁移学习放宽了这一假设,成为解决标注数据稀疏问题的有力手段,并被广泛应用于众多领域。但是,现有的迁移学习方法仍然面临模型安全性个性化欠佳、域间分布适配不足、跨域泛化能力不足以及特征可判别性弱的问题。这就需要针对迁移学习方法中存在的问题展开系统的研究工作,提出相应的解决方案,进而提高迁移学习方法的鲁棒性。本文针对迁移学习模型中存在的具体问题,展开深入研究,具体包括以下几个方面:首先,针对模型安全性个性化欠佳问题,本文提出了一种基于二阶统计特征对齐的联邦迁移学习框架。通过结合联邦学习与迁移学习构建隐私保护的个性化联邦学习框架。为了实现个性化的模型训练,本文提出了基于二阶统计特征对齐的相关域特征对齐机制,以指导卷积神经网络中卷积层上的特征迁移,降低无用像素点对关键隐写特征的干扰,实现用户根据云端模型和本地数据微调得到量身定制模型的目的。在大量的隐写分析数据集上的实验表明,本文所提出的隐写分析框架在不同的嵌入机制、不同的嵌入容量以及不同的数据集上都取得了较低的检测误差。此外,该方法具有高鲁棒性,可以集成不同的神经网络架构、不同的域适应损失函数以及不同的加密机制。其次,针对域间分布适配不足的问题,本文提出了一种基于度量学习的无监督迁移学习方法。该方法从宏观和微观角度出发,对域间特征分布差异以及样本流形结构进行细粒度建模。宏观上,通过最小化域间边缘MMD距离和域间类内MMD距离,同时最大化类间MMD距离来减小领域分布差异。微观上,提出基于样本局部一致性的域间域内流形保持方案,使得域间和域内的同类样本距离更近,不同类样本距离更远。该方法实现了在减小领域间分布差异的同时增强了样本特征的可迁移性的目的。在8个公开的图像分类数据集上的实验表明,在不同数据集上的单源迁移任务上,相比于最好的基线方法,该方法所获得了 3.3%的迁移增益,在多源迁移任务上,相比于最好的基线方法,该方法获得了 2.7%的迁移增益。然后,针对多源迁移学习中模型泛化能力不足的问题,本文提出了一种基于可迁移图知识的多源迁移学习方法。该方法首先利用MMD距离从多个源网络中选择与目标网络相似性较大的源网络,提升源网络的可迁移性,其次提出了基于公共子图结构与相应节点标签来构造网络不变公共子图基的构造方法,然后基于K-近邻算法在节点属性特征空间赋予目标网络节点特征伪标签,实现节点的属性特征和结构特征的双重适配,并通过伪标签迭代预测目标网络中节点的标注信息,有效降低目标网络中节点的误分类。在真实的社交网络和引文网络上的大量实验表明,在12个多源跨网络节点分类任务上的平均分类准确率比最好的基线方法获得了 3.22%的性能提升。最后,针对多源迁移学习中特征可判别性弱的问题,本文提出了一种基于数据选择的多源迁移学习方法。该方法根据源网络和目标网络中节点属性特征的相似性来选择最适合迁移的源网络。为了增强节点特征可判别性,本文提出利用节点属性特征对齐来进一步减小源网络和目标网络间的分布差异,使节点特征分布于对应类别中心较近的位置或远离聚类边缘,避免误分类。此外,提出了通过参数迁移策略将在源网络中训练好的模型迁移到目标网路,实现了目标网络中预测模型的高效训练。在社交网络和引文网络上的大量实验表明,相比于最好的基线方法,该框架中表现较差的方法与表现最好的方法在36个多源跨网络节点分类任务上分别获得了 3.85%与4.00%的迁移增益。
其他文献
无人飞行器,通常也称为无人机,正以极快的速度应用于我们的社会。应用无人机的工业场景呈指数型增长。此外,无人飞行器也引起了其他领域的兴趣,如军事、应急响应、灾难救援、健康医疗、农业、矿业、基础设施建设、运动、教育等等。随着无人飞行器的实际应用不断增长,大量的挑战也随之而来,比如面对动态变化的、未见过的及非结构化的场景,如何进行最优的响应;不可靠的状态估计;在有限资源地约束下,同时进行实时的感知与决策
学位
近年来,风电渗透率的提高在电力系统的低碳化发展进程中发挥了重要作用。根据新型电力系统的发展目标,风力发电有望在不久的将来成为电力生产中仅次于光伏发电的主要电源。但是,风电渗透率的增高可能会导致许多技术和运营上的问题,例如,电力系统的现有条件是否足够应对风力发电间歇性引起的频率稳定问题;此外,用风力涡轮发电机代替传统的火力发电机组会造成电力系统的惯性降低。因此,风电场具备必要的调频能力变得越来越重要
学位
传统医疗行业存在诸多痛点问题,例如,医疗资源分配不均、看病流程复杂且效率低下、医患关系紧张等。大数据及“互联网+”的时代背景为解决这些问题提供了新的思路。在传统医疗向智慧医疗转型过程中,辅助医疗诊断是一个重要的方面,对于提高医疗管理效率具有重要意义。信息融合技术在辅助医疗诊断方面具有重要应用,其中一个有效的方法即证据理论,凭借其在信息表达与处理方面的优势而被广泛应用。因此,本文主要研究基于证据理论
学位
当前滨海城市发展已经进入转折期,存量更新成为滨海城市发展的转型目标。随着海洋经济的迅速发展,滨海非正规聚落空间是滨海带社会、经济转型的重要体现区域。因此,滨海非正规聚落可持续发展一直以来是发展中国家关注的研究问题,而滨海带与非正规聚落协同发展是滨海存量更新的关注热点。近年来,“海上丝绸之路经济带”使得滨海非正规聚落进一步体现其地缘优势和人文资源优势。作为海上丝绸之路的文化聚集地,滨海非正规聚落空间
学位
纤维增强聚合物(FRP)复合材料在土木工程领域被广泛应用于结构的加固、修复与升级。碳/玻混杂纤维复合材料可以充分发挥碳纤维的高强度和高模量,以及玻璃纤维的低成本与大应变。纤维混杂复合材料筋筋被应用于结构增强的钢筋束、预应力索和桥梁拉索等。土木工程领域,混杂纤维增强FRP筋在恶劣环境下的蠕变和耐久性能是影响其设计和应用的关键问题。论文研究了碳/玻璃纤维杂化作用,开发了一种碳/玻璃纤维层间杂化的FRP
学位
计算风工程采用的小尺度计算流体动力学(Computational Fluid Dynamics,简称CFD)方法难以考虑真实气象背景影响。针对该问题,近年来涌现出了从中尺度数值天气预报模型(Numerical Weather Prediction Model,简称NWP)获取CFD来流边界的降尺度计算方法。然而,中小尺度模型的控制方程、时空分辨率以及湍流闭合方案差异显著,当前研究对两者嵌套计算所需
学位
锂离子电池(LIBs)因具有输出电压高、循环寿命长、无记忆效应等优点被广泛应用于便携式器件、光伏储能以及新能源汽车等诸多领域。然而,随着人们对长续航里程应用需求的不断提高,提升电池体系能量密度的任务迫在眉睫。而在众多改善能量密度的措施中,提高材料的比容量是提升能量密度重要的途径之一。对于负极材料而言,硅(Si)负极因具有储量丰富、环境友好、理论比容量高(4200 m Ah g-1)等优点,被认为是
学位
大众创业、万众创新已经成为中国经济进入新常态下的时代背景,关于新创企业的战略问题正方兴未艾,立于管理学研究的前沿。“双创”的宗旨是为了实现创新驱动发展,政策支持市场主体开办新创企业,使之逐步成为引领经济社会发展的强力引擎。但是,新创企业往往在产品、技术和市场等方面都面临高度的不可预测性,并且受到资源和能力的“先天劣势”制约,使得基于因果导向的决策逻辑变得不再适用。为了应对不确定性环境,更多的新创企
学位
随着燃气轮机故障诊断技术从简单的人工巡视、定时维修和事后维修向视情维修转变,以智能算法和先进推理技术对燃气轮机关键部件进行在线状态监测和实时故障诊断成为新的研究热点。由于燃气轮机含有多个关键部件,而一般燃气轮机上的测点数量不足以支撑针对每个部件进行独立的监测与诊断。这导致任一部件的故障可能会触发针对其他部件的诊断系统的误报警。因此,设计一套完备的故障诊断架构、制定合理的故障检测逻辑实现燃气轮机多故
学位
惯性约束聚变(Inertial Confinement Fusion,ICF)实验是地球上实现受控热核聚变反应的重要途径之一,其与天体物理超新星演化进程中内部能量向外部传播过程相似。以往的研究表明,ICF靶表面质量直接影响着内爆性能,靶球表面存在的缺陷会使其在向心压缩过程中产生流体力学不稳定性,能量向着薄弱部位发生内爆,最终导致ICF实验的失败。为此,学者们提出在靶球表面加工三维纳米结构,得到具有
学位