基于度量学习的不平衡数据分类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:SANDWICHSZHANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,人类在社会活动中产生了海量的数据。如何有效地利用获得的数据成为许多行业的现实问题。机器学习可以从数据中挖掘有效信息,已经广泛应用于不同行业。然而在实际应用中,机器学习算法会受到不平衡数据的影响。传统的机器学习算法假设数据样本的分布是均衡的。当传统机器学习算法应用于不平衡数据时,会使算法偏向于多数类,导致分类效果不佳。不平衡数据分类已经成为机器学习领域的一大热点。本文针对不平衡数据分类进行研究。过采样和不平衡集成学习方法是解决不平衡问题的经典算法。过采样算法的效果依赖于样本的近邻分布,而特征子空间的质量影响不平衡集成学习的性能。本文提出了一种不平衡度量学习算法,使样本的近邻分布被优化,达到过采样效果提升的目的。然后基于不平衡度量学习和过采样算法,构建出更有效的特征子空间,进而提出一种不平衡集成学习算法。本文的主要工作包括:(1)针对过采样方法,本文提出一种可以提升过采样效果的不平衡度量学习算法。算法首先设计样本加权策略,给少数类和容易误分的样本分配更高的权重,从而减轻类别不平衡问题带来的影响;为了避免度量学习把少数类样本分隔到不同区域,使后续的过采样算法形成多个聚簇,算法提出了少数类分布保持策略。在损失函数中引入KL散度项,使少数类样本的分布得到保留。本文算法在多个不平衡数据集上,与其他算法进行对比,并进行了大量实验,从而证明本章提出算法的有效性。(2)基于度量学习算法,本文提出一种不平衡度量集成学习算法。算法首先利用不平衡度量学习算法,将不平衡数据映射到更有效的特征空间,提高后续特征子空间的效果;接下来,在每个特征子空间进行过采样,构造平衡的样本空间,从而提高基分类器的分类效果;最后提出自适应集成策略,为每个基分类器分配不同的权重,从而优化集成结果。本文提出的算法在多个不平衡数据集上进行大量实验,有效证明了本文提出算法的优越性。
其他文献
目前,图像超分辨率研究通常可以分为两种,分别是单图像超分辨(Single Image Super-resolution,SISR)和参考图像引导超分辨率(Reference Image Guided Super-resolution,Ref SR)。其中,SISR仅接受单张低分辨率(Low-resolution,LR)图像作为输入,其重建的图像往往会产生模糊或者伪影现象,主要原因是因为原始的高分辨
学位
近年来深度学习技术在计算机视觉领域的成就令人瞩目,这和大规模标注数据集的面世密不可分。然而模型的性能对标注数据的规模、标注质量等非常敏感。从任务本身或者有限数据挖掘可用的先验知识并有效的融入网络结构设计、训练过程中,是缓解模型训练依赖数据的有效途径之一。本文就视频补全和伪装物体检测这两个计算机视觉任务,利用任务或数据的先验知识引导网络的设计和训练。视频补全利用视频中的可见部分,补全缺失的内容,使得
学位
作为一种分子振动光谱,表面增强拉曼散射(SERS)光谱技术可以提供分子丰富的“指纹信息”,灵敏度高,可以实现快速原位无损分析,已广泛用于食品安全、环境分析、生物医学和药物检测等领域。SERS技术在分析检测方面表现出的巨大优势,可以用于保健产品中非法添加化学药物的检测。本文制备了两种功能化的银纳米粒子作为SERS基底,用于不同种类化学药物的定性分析和定量检测。采用原位还原法在金属有机骨架(MOFs)
学位
目标检测往往假设训练数据集和测试数据集采样于同一分布,但这在现实条件下往往不成立,从而影响目标检测性能。基于域适应的目标检测可将在有标签的源域数据集上训练的检测器泛化到另一无标签的目标域数据集上,摆脱新数据集上繁重的标注工作。本文创造性地提出了两种域适应目标检测模型。现有方法一般将鉴别器部署在检测网络不同阶段并通过对抗训练拉近源域和目标域间的图像级特征或物体实例级特征,或用风格迁移拉近像素级特征。
学位
Kdm1b(Lysine Demethylase 1B)是一种对H3K4、H3K9组蛋白具有去甲基酶活性的表观遗传修饰因子。近期研究报道,Kdm1b在多种肿瘤细胞中高表达,能够促进增殖、抑制凋亡,与肿瘤的发生发展密切相关。也有报道称,Kdm1b可诱导肿瘤中多能性因子SOX2和NANOG的表达。然而,关于Kdm1b在体细胞重编程过程中的功能却鲜有报道。诱导多能干细胞(Induced pluripot
学位
随着智能设备的普及和互联网技术的快速发展,近年来出现了许多基于位置的服务,因而产生了大量实体(例如行人、车辆和无人机)的轨迹数据。这些数据中包含了许多有价值的信息,例如实体的位置、速度、加速度等。通过进一步挖掘和分析轨迹数据,可以提取出更多潜在的特征信息并且进一步应用于多个研究领域的相关任务,尤其是在自动驾驶中;它可以用于提高预测周围实体未来轨迹的能力,从而辅助目标车辆做出安全和有效的下一步动作。
学位
碳点(CDs)作为一种新型的零维碳纳米材料,由于其出众的光学性质、光电效应、良好的生物相容性、环境友好性等优点而被广泛研究。碳点的发光性质通常与碳源和制备方法息息相关,合适的碳源选择和简单的制备方法对推动碳点的广泛应用,加速碳点工业化的发展显得尤为重要。在碳点的制备方法上,与常用的水热/溶剂热法相比,煅烧法制备碳点具有操作简单,对工业设备要求较低的特点。在碳源的选择上,以生物质废料作为碳源来制备碳
学位
千金子为大戟科植物续随子(Euphorbia lathyris L.)的干燥成熟种子,具有泻下逐水、破血消癥的功效。国内外学者从千金子中分离出多种化学成分,其中二萜醇酯类化合物是主要的功效成分,具有抗肿瘤、抗炎、祛斑、美白等药理作用。同时有研究表明,千金子与千金子提取物均具有一定的毒性,有文献报道千金子的毒性部位在脂肪油中,并证实其中的几种二萜醇酯类成分具有一定的毒性。这说明千金子中的二萜醇酯类成
学位
随着信息技术的迅速发展,网络上可用的信息呈指数级别增长,人们很难从海量的数据中筛选出有用的信息并做出正确选择,这就导致了信息过载问题。推荐系统的目的在于有效挖掘用户兴趣并缓解信息过载问题,因此成为了电子商务、信息门户等在线服务平台的重要组成部分。本文除利用用户和商品历史交互信息外,还引入了用户社交信息和商品知识信息作为额外信息辅助推荐任务,进一步缓解了数据稀疏问题,但与此同时也带来了一些额外的挑战
学位
作为明星大环化合物之一,β-环糊精(β-CD)是由7个D-吡喃葡萄糖残基组成的环状寡糖。β-CD不仅拥有疏水内腔,可以通过主-客体相互作用包合非极性的客体分子;其外缘拥有大量的极性羟基基团,具有亲水性。因此β-CD既是超分子组装体的理想构建单元也是良好的亲水化合物。鉴于上述特点,基于β-CD构建的超分子组装体已在多个研究领域引起了关注,尤其是生物化学领域。β-CD超分子组装体具有优异的生物相容性和
学位