【摘 要】
:
近年来,多标签学习在文本分类、蛋白质功能预测,图像标注等领域的应用越来越多。在各种各样的多标签应用中,最主要且最重要的就是对每个样本及其与之相对应的标签进行正确的
论文部分内容阅读
近年来,多标签学习在文本分类、蛋白质功能预测,图像标注等领域的应用越来越多。在各种各样的多标签应用中,最主要且最重要的就是对每个样本及其与之相对应的标签进行正确的分类。同传统的机器学习一样,多标签学习同样也面临着维度灾难的问题,于是多标签特征选择便应运而生,但和传统的机器学习不一样的是,在多标签机器学习中,标签之间可能会存在一定的相关性和差异性,特征之间会存在一定的相关性和冗余性。现有的大多数多标签特征选择方法虽然考虑到了标签之间的相关性,但并没有考虑到特征空间中特征和特征之间的相关性,或者考虑到了特征空间中的相关性,但未能有效去除特征空间中的冗余特征,同时也忽略了标签的差异性。针对上述问题,本文提出了一种基于特征分组相关性分析的多标签特征选择方法,用来去除特征空间中的冗余特征。同时提出了一种基于特征空间融合的多标签特征选择方法,将共享特征空间和标签特定特征空间融合,以保证考虑到标签之间的个性和关联性。本文的主要研究工作如下:1.为了更好的挖掘样本特征空间中特征和特征之间的相关性和冗余性,提出了一种基于特征分组相关性分析的多标签特征选择方法。该方法首先对特征空间中的特征进行相关性分组;利用信息增益和信息熵计算特征空间中特征之间的相关性,若大于某一数值,则存在较强相关性,分为同一组;反之,则不在同一组,分组完成后,同一组内的特征存在较强相关性,组间特征则存在较弱相关性。然后利用拉普拉斯评分对分组后特征组内的每个特征进行打分。最后,对于所有的特征组,根据特征评分的大小提取出top-k个特征,筛选出一批相关性较低的特征。如此,便可以剔除共享特征空间中的冗余特征,达到提高分类效果,降低特征维度的目的。2.为了更进一步的深入挖掘样本标签空间中标签的差异性问题,提出了一种基于特征空间融合的多标签特征选择方法。该方法首先根据样本所对应的标签属性对样本做一个正负类的聚类。然后对于正样本和负样本所构成的正类簇和父类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此一来,便产生了标签特定特征空间。最后将标签共享的特征空间和标签特定特征空间融合,以保证考虑到多个标签之间的个性和关联性,解决标签的差异性问题。经过在9个公开的多标签数据集上的实验表明,相较于现有多标签特征选择方法,本文方法在各个分类指标上均有较优的表现。在加入特征空间融合后,在各个分类指标上得到进一步的提升,充分证明了本文方法的有效性。
其他文献
光纤传感器被广泛地应用到工程安全、航天航空和医学检测等领域,如何对光纤传感器进行高精度地快速解调是目前存在的重大问题。与传统的波长解调技术相比,微波光子解调技术具
目的:探讨穿孔素及颗粒酶B在内蒙古自治区人群布鲁菌病的表达,为布鲁菌病患者细胞免疫功能的测定和基础研究提供了有力的依据方法:1、研究对象:均为2016年12月2018年12月已经确诊为布鲁菌病,在内蒙古医科大学附属医院住院治疗的患者,年龄在52.40±8.64岁,共80例,男性45例,女性35例。选取同期在内蒙古医科大学附属医院健康体检者,年龄在51.33±8.75岁,共60例,男性26例,女性3
由温度梯度或化学浓度梯度驱动的流动现象不仅常见于日常生活中,而且还广泛存在于工业应用中,这类流动现象主要包括Marangoni效应和自然对流。本文发展了一种能够模拟这类问
研究背景内膜新生是血管内膜层的异常生长,是一种常见的严重病理生理过程,是导致动脉粥样硬化和支架内再狭窄的主要原因。血管平滑肌细胞(vascular smooth muscle cell,VSMC)是再狭窄和动脉粥样硬化病变中新生内膜的主要成分,其参与新生内膜形成的具体分子机制尚不完全清楚。目前认为,在损伤或其他刺激因素作用下,VSMC转化表型,增殖,迁移和分泌细胞外基质,导致新生内膜形成。在新生内
高光谱图像与普通图像相比,具有“图谱合一”的特点,其数据格式为三维的数据立方体。将光谱分析技术与成像技术结合为一体的高光谱成像技术,可以同时提供数据光谱维度分析与
在21世界的前二十年里,由于广泛的实际应用和场景需要,多标签学习吸引了众多数据挖掘领域和机器学习领域研究人员的关注。随着特征数量的增加,多标签分类这个问题变得具有挑
目的:观察并评价加味化痰通络汤治疗急性脑梗死风痰瘀阻证的有效性及安全性。以期运用中医辨证论治的方法,为风痰瘀阻型急性脑梗死患者提供个体化的治疗方案。方法:本试验采用随机对照方法,选取符合标准的急性脑梗死(风痰瘀阻证)患者80例,运用随机数字表法平均分为观察组和对照组。对照组予抗血小板聚集、调脂、稳定斑块等西医常规治疗,观察组在西医常规治疗的基础上加用中药“加味化痰通络汤”治疗,疗程2周。采用美国国
当今社会主要以数字图像的形式传递信息,由于成像设备本身的限制及环境等因素的影响,在很多场合下只能得到低分辨率图像,因此采用图像超分辨率重建技术可以得到清晰的图像满
随着互联网+教育的飞速发展,在线学习受到大众的欢迎,与此同时在线学习资源大量涌现,但学习资源的质量难以把控,不利于学习者学习,直接影响在线学习的质量。因此,准确的分析
在科技高速发展的今天,密码学作为现代保密系统的理论基础,越来越吸引社会各界的目光.基于布尔函数的密码算法的分析与设计是当今密码领域的重要研究方向之一.随着密码分析学