标签重构的不平衡缺省多标签学习

来源 :安庆师范大学 | 被引量 : 0次 | 上传用户:gexuefeng1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签学习能够有效地解决真实世界中多语义问题,其一直是机器学习算法领域研究的一个热点。近年来随着数据量的快速增长,数据复杂程度不断增加,为了更好地提升算法精度,标签间相关性被广泛地应用于多语义问题。然而仅考虑标签间相关性可能会使算法的鲁棒性有所降低。而且多标签数据还呈现标注不平衡和标签多样性引起的标签不平衡,这将直接影响到多标签学习性能,因此对不平衡数据的分类建模是必要的。同时数据复杂度的增加使得标签的标注代价增加,标签不可避免的存在缺失。因此如何进行标签补全,降低缺省标签干扰,对提高多标签分类精度至关重要。基于此,本文针对上述问题进行研究,主要内容如下:1)现有的多标签学习算法往往利用标签间相关性,却忽略特征空间的影响。根据萤火虫方法的思想,通过将特征信息与标签信息相结合来重构标签空间,提出一种融合萤火虫方法的多标签懒惰学习算法(Multi-label Lazy Learning Approach based on FireFly method,FF-MLLA)。首先,利用Minkowski距离来度量样本间相似度,从而确定近邻空间。然后,结合标签近邻点和萤火虫方法构建标签计数向量。最后,分别使用奇异值分解与核极限学习机进行线性分类。该算法考虑了标签信息与特征信息从而提高了算法的鲁棒性。2)与单标签中类不平衡不同,多标签数据不仅存在类的内部不平衡,还表现出类与类之间不平衡。目前方法主要集中在将采样技术和代价敏感学习相结合,融入标签相关性来改善分类器性能,但它们通常都未考虑标注代价引起的标签缺省情况。实际上,对未知样本进行标签标注,结果常常受到判别函数阈值的影响,特别是阈值附近的标签。我们认为把数据分布密度、标签密度等信息融入标签相关性,扩大分类间隔面,能有效解决阈值附近标签的标注质量。为此,本文提出一种基于分类间隔面的非平衡化缺省多标签学习算法(Missing Multi-labels Learning with Non-Equilibrium Based on Classification Margin,MNECM),旨在对缺省标签进行补全。3)由于数据的激增,标签空间不完备问题日益突出,标签数据的缺省会导致标签相关性的度量变得困难。然而,许多多标签学习算法主要考虑标签相关性,以恢复缺省标签,却忽略实例信息。因此,我们结合注意力机制挖掘标签与实例信息,改善标签质量,提升标签补全效果。本文提出一种结合注意力机制的全局与局部缺省多标签学习算法(Global and Local Multi-label Learning with Attention Mechanism for Missing Labels,GLMAM)。本文通过萤火虫方法来融合标签与特征信息以重构标签空间,扩大分类间隔面解决标签不平衡,利用非平衡化方法与注意力机制进行标签补全。对公开的多组基准多标签数据集的实验结果分析,表明本文所提算法较其他对比的多标签学习算法有一定优势,使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。
其他文献
目的:探讨B族链球菌(GBS)感染新生儿及婴儿平均住院天数(LOS)的影响因素。方法:回顾性分析2015年5月至2018年1月在浙江大学医学院儿童医院新生儿科及≤3个月婴儿B族链球菌感
本研究主要运用并结合社会资本理论、布劳—邓肯理论模型,基于中国家庭动态追踪调查CFPS2016(China Family Panel Studies)数据,根据最终获得的12895个研究样本,综合运用文献分析、实证研究和比较研究等研究方法,对样本数据运用SPSS 22软件对数据进行描述性分析、相关性分析、差异性分析及回归分析,探讨在当今阶层固化问题依旧存在、高等教育扩招等社会背景下,家庭资本及教育
近年来,房地产市场的投资环境变得越来越复杂。面对如此境况,房地产企业要想得到生存和发展,就必须在激烈的竞争中提供更高质量、更短工期、更低造价的产品。这就在要求企业
目的:回顾性分析老年急性白血病(Acute leukemia,AL)临床特征及影响其预后的因素。方法:收集2014年1月至2018年6月间在滨州医学院烟台附属医院确诊的老年急性白血病患者(年龄
陈皮(Citri Reticulatae Pericarpium,CRP)自古就有“陈久者良”的说法,为六陈中药之一,主要用于消化和呼吸系统疾病的防治;大量研究表明,陈皮越陈越好是因其贮藏过程中活性
在工程实践中,由于施工等多方面原因会导致承载力不满足要求,需要对建筑结构进行加固方能满足使用要求。国内外有关柱的加固的研究有很多,包括外包型钢法、增大截面法等,本文
马铃薯Y病毒(Potato virus Y,PVY)是严重危害茄科作物的一种病毒,揭示马铃薯Y病毒与寄主的互作关系将为研究马铃薯Y病毒的致病机理及有效控制提供理论依据。本课题组在前期的
近几年,装配式结构深受重视并被广泛应用,其整体工作性能备受关注,构件之间的连接至关重要,套筒灌浆连接是常用的重要连接方式之一,套筒灌浆连接质量的好坏直接影响结构的整
特征标三元组及其稳定子极限和线性极限,均为有限群表示论的基本内容,研究这两种极限何时相同是一个重要的问题.本文给出了一个特征标三元组的线性极限也是稳定子极限的条件,并探讨了该三元组的诱导子何时也是稳定子极限的问题,其中称T′=(G′,N′,θ′)是T=(G,N,θ)的诱导子,如果满足T′是T的一个子三元组,且(θ′)N=θ.所得结果推广了Isaacs的相关定理.本文的主要结论如下:定理A设T=(G
本文研究诱导源的判别问题,得到了一个特征标对是诱导源的若干充要条件.称G的一个特征标对(H,θ)为G的一个诱导源,如果Ind:Irr(G_θ|θ)→Irr(G|θ)是双射.推广和加强了Dade关于诱导源与复合Clifford对应的定理,即特征标三元组的诱导源对应在奇数条件下等同于复合Clifford对应.特别地,本文所使用的方法不仅简化了Dade的原始证明,去掉了对双曲模的依赖,而且还是纯特征标理