基于类属属性的多标签学习研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zchunhua3120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习领域常见的问题之一,多标签学习是传统分类问题的变体,它能够处理每个实例同时和多个标签相关联的问题。目前已经存在大量成熟的方法用于解决多标签学习,这些方法整体可以被划分成两类:问题转换方法和算法自适应方法。问题转换方法通常会先将多标签学习问题转换成其他类型的问题,比如二元分类、多分类等,然后再利用相应的算法进行处理;而算法自适应方法则通过改变现有的算法来实现直接处理多标签学习问题。另外,由于多标签学习的标签空间较大,并且每个实例可能与不止一个标签相关联,因此标签之间可能隐藏着有价值的信息,而这些信息对于提高系统的性能是十分重要的。根据所考虑的标签相关性的程度可以将多标签学习算法划分为三类:一阶策略、二阶策略和高阶策略。一阶策略不考虑标签之间的相关性,二阶策略对标签之间的成对关系进行考虑,而高阶策略则对标签之间的高阶关系进行考虑。相比于前两种策略,高阶策略探索了更强的相关性。在许多的多标签学习算法中,它们采用相同的特征空间为类标签构建分类模型,但是不同的类标签所包含的语义信息是不同的,因此可以为不同的类标签构建其特有的特征空间。特征空间中所包含的属性是与该标签最相关,且最能够判别该标签的属性,这些属性通常被称为类属属性。通过为不同的类标签构建类属属性能够有效地提高多标签学习的性能。基于聚类集成的类属属性多标签学习算法(Label-specific Features via Clustering Ensemble,LIFTACE)采用聚类集成技术构建类属属性,但它忽略了标签向量的重要性,并且在构建分类模型时没有探索标签之间的相关性。在本文中,我们提出了一种同时考虑标签向量的重要性和标签相关性的基于类属属性的多标签学习算法LF-LELC。首先,分别在正样本集合和负样本集合上进行聚类分析,其中簇的数目是根据标签向量中所包含的信息来动态设置的;其次,为了使聚类结果更加稳定,在生成的聚类结果上应用聚类集成技术;然后,根据聚类结果为每个类标签构建相应的类属属性以及分类模型;最后,在标签空间中利用特征选择技术来为当前标签生成与其相关的标签集,将集合中的每个标签作为附加属性添加到类属属性空间中,这样即可为每个标签构建多个分类模型。对于每个测试样本,使用生成的分类模型为其预测相关标签集。我们在12个数据集上进行了实验,这些数据集包括音乐、文本、生物等不同的应用领域。此外,我们选取6个评价指标从多个方面对算法的性能进行了评估。实验结果显示LF-LELC在多数数据集上实现了比其他对比算法更好的分类结果。这也表明充分利用标签向量中所包含的信息和标签之间的相关性对于多标签学习而言是有效的。
其他文献
通过理论计算确定Ti O2在Na Cl-Ca Cl2体系中的溶解机理。通过Na Cl-Ca Cl2二元体系相图分析当Na Cl:Ca Cl2=0.48:0.52时体系有最低熔点,并且通过差热分析仪实验研究发现当添加Ti O2含量在10%以内时体系的初晶温度变化不大,另外整个体系的熔点和完全凝固温度变化不大。通过热力学计算和循环伏安法、计时电流法以及方波伏安法等电化学手段对Ti O2在Na Cl-C
目的:通过最小抑菌浓度和红细胞溶血实验筛选3种抗菌肽,建立兔细菌性眼内炎动物模型,分别向玻璃体腔注射抗菌肽和抗生素,评估抗菌肽对眼内炎的疗效。方法:(1)最小抑菌浓度:用肉汤法检测5种抗菌肽对耐甲氧西林金黄色葡萄球菌的最小抑菌浓度。(2)红细胞溶血实验:制备4%红细胞悬液,37℃下与不同浓度的抗菌肽孵育1h,测定吸光度计算抗菌肽的溶血分数。(3)新西兰大白兔36只,向玻璃体腔注射浓度为1×10~3
春风和煦,相约壮族三月三。3月25日起,为期一个月的2019年"壮族三月三·八桂嘉年华"活动在广西各地全面展开,赶歌圩、赏美景、尝美食、购特产,文化、旅游、体育、民俗、商贸活动好戏连台,精彩纷呈。今年是广西确定"壮族三月三"为法定假期的第六年,也是自治区党委、政府打造"壮族三月三·八桂嘉年华"文化旅游消费品牌的第三年。每年的"壮族
期刊
研究目的:通过比较经阴道、腹腔镜与经腹全子宫切除术的术中术后评价指标,以及术后随访1年来研究经三种不同的全子宫切除术对非脱垂性子宫良性疾病患者远期盆底功能的影响。研究方法:选取2019年09月~2019年12月就诊于吉林大学第二医院妇产科诊疗中心,以经阴道全子宫切除术,腹腔镜下全子宫切除术和经腹全子宫切除术的非脱垂性子宫及良性疾病患者共150例。按照手术路径不同分为经阴道全子宫切除组、腹腔镜下全子
研究背景:动脉粥样硬化(Atherosclerosis,AS)是一种由动脉血管内脂质积聚引起的慢性炎症性疾病,巨噬细胞是参与其进展的主要免疫细胞。巨噬细胞通过清道夫受体摄取氧化低密度脂蛋白(oxidized low-density lipoprotein,ox-LDL),胆固醇酯化反应将ox-LDL转化为游离胆固醇(Free Cholesterol,FC),胆固醇外排反应将FC排出。当巨噬细胞内脂
目的:观察行玻璃体切割手术的不同年龄段(40岁及以下或40岁以上)增殖性糖尿病性视网膜病变(proliferative diabetic retinopathy,PDR)患者的临床特点。方法:收集2018年1月至2020年9月于我院眼科中心由同一医疗组收治、同一术者手术治疗的PDR患者的临床资料。详细收集病史及全身资料,并予以玻璃体切割手术治疗,术后定期门诊随访患者,收集视力改善情况、有无术后并发
目的:Ras相关结构域家族1A(Ras-associated domain family 1A,RASSF1A)基因是肿瘤抑制基因(tumor suppressor genes,TSG)之一。在卵巢癌发展过程中,TSG的异常甲基化是极其重要的表观遗传沉默机制。RASSF1A基因启动子甲基化与卵巢癌(ovarian cancer,OC)的发生和发展关联密切。目前,在很多研究的样本量小、检测方法不统一
辣椒素(Capsaicin)类物质是辣椒胎座中合成的重要次生代谢产物,是评价辣椒果实品质性状的重要指标,在医疗、食品、农业、军事等领域都发挥这重要的作用,但在市场上,辣椒素常出现供小于求的情况,主要原因在于辣椒素产量太低,受限于环境条件、生产成本,传统育种方式很难培育出高辣味高产量的新品种,因此在分子层面,通过研究辣椒素合成机制,挖掘影响辣椒素含量的关键基因,找寻提高辣椒素积累的方法在该领域的研究
"玩事"是数字化人力资源管理时代的文化沟通工具,它把一个非常"软"的内容,即企业文化,借助于具体的勋章和金豆等做法构成的体系,做得非常实在。它的理念是:解决好人的因素,则开展工作任务更顺畅,更有利于达成工作目标。2018年4月,时任用友网络科技股份有限公司首席技术官、"玩事"项目创始人程操红先生,应邀来到清华经管学院MBA课堂,对用友企业文化落地互联网工具——"玩事"进行了主题分享:
期刊
随着信息时代的发展,互联网带给人们生活便利的同时,也产生了海量的数据。在数据爆发式增长的趋势下,如何处理海量的非结构化数据,抽取有效信息成了当下最为重要的问题。而命名实体识别技术可以从海量文本数据中提取关键实体信息。因此,命名实体识别任务起着至关重要的作用,具有极高的应用价值与研究意义。近年来,随着计算机硬件条件的提升,GPU的发展十分迅猛。在充足的算力面前,深度学习的应用越来越广泛。在没有计算能