噪声环境下的多标记学习方法研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:clxzzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习是监督学习中一项基础且重要的任务。随着机器学习和深度学习技术的蓬勃发展,多标记学习成功地应用在信息检索、推荐系统和蛋白质功能预测等领域。尽管当前关于多标记学习的研究工作取得了巨大进展,但目前关于多标记学习的研究往往基于强监督假设:假设每个训练样本的标注信息完全准确。然而,由于收集完全正确标注的训练样本往往需要耗费大量的时间和费用,并且受数据本身特点、标注者差异性和外部环境等因素的影响,这一假设在现实世界中是不切实际的。为更好解决这一实际问题,本文研究噪声环境下的多标记学习问题。近年来,噪声环境下的多标记学习问题的研究范式主要为偏多标记学习。在偏多标记学习中,每个训练样本的标记集合由真实标记和噪声标记共同构成。现有的偏多标记学习方法主要集中在如何减小噪声标记对多标记分类器性能的影响,以学习一个鲁棒的多标记分类器。为实现这一目标,一些方法旨在识别每个训练样本的真实标记,而另外一些方法主要通过低秩假设和稀疏假设建模偏多标记学习问题。然而现有的方法存在以下一些问题:(1)现有方法忽略了训练样本的特征与标记的负面信息对其真实标记的影响;(2)现有方法都不能很好甚至无法处理标记空间过大的问题;(3)现有偏多标记学习方法的假设仍旧较强,从现实世界中收集到的训练样本不一定都包含噪声标记。针对现有工作存在的不足,本文从以下三个方面学习噪声环境下的多标记学习问题:(1)现有偏多标记学习方法忽略了训练数据特征与标记之间的负面信息。具体来说,如果两个样本的候选标记集合有很大的重叠部分,不管它们的特征相似度如何,它们的真实标记应该是相似的;而如果它们在特征和候选标记空间中不相同,则它们的真实标记应该彼此不相同。针对这一现象,为了在偏多标记学习数据上实现可靠的预测,本文提出了一种新的基于标记与特征合作的偏多标记学习方法(PML-LFC)。PML-LFC利用样本的候选标记集合计算样本之间的语义相似度并与样本特征相似度相结合协同估计每个训练样本的标记置信度,并且用估计的标记置信度矩阵训练所需的多标记分类器。PML-LFC通过统一模型以交替优化的方式实现分类器和潜在标记置信度矩阵的学习。大量的实验结果表明,PML-LFC可以很好地利用样本的特征信息和标记信息估计标记置信度矩阵以减小噪声标记的影响,并且PML-LFC可以学习一个鲁棒的多标记分类器提升分类性能。(2)当标记空间过大时,现有的偏多标记学习方法普遍存在计算代价高昂甚至无法处理的问题。为解决这一问题,本文提出了一种基于标记压缩的偏多标记学习方法(PML-LCom)。PML-LCom首先将观测到的样本-标记关联矩阵分解为一个潜在的真实标记矩阵和一个不相关的噪声标记矩阵,然后将真实的标记矩阵分解为两个低秩矩阵的乘积,其中一个矩阵对样本的压缩标记进行编码,而另一个矩阵探索低维空间中的标记相关性。其次,PML-LCom通过压缩后的低维标记矩阵学习多标记分类器的系数矩阵。此外,PML-LCom根据样本特征相似度对压缩后的标记矩阵进行正则化,并对标记矩阵和分类器进行联合优化。在合成和真实偏多标记数据集上的实验结果表明,标记压缩可以有效提高算法的有效性和效率,PMLLCom在预测大标记空间下未标记样本的标记方面取得了优于现有解决方案的性能。(3)针对偏多标记学习方法假设每个训练样本一定存在噪声标记这一假设仍旧不是十分符合一些现实场景的问题,本文提出噪声环境下基于标记纠正的多标记文本分类方法(LCN)。与偏多标记学习假设每个训练样本的标记以候选标记集合方式给出不同,LCN假设数据在标注时每个训练样本的非真实标记有一定概率转化为其标记,即噪声标记。LCN通过一种端到端的方式实现标记纠正和多标记分类器的联合学习。LCN包含两个模块:标记纠正模块和分类模块。在标记纠正模块中,LCN利用标记语义信息和特征信息学习每个类的类别原型集合。这些原型被用来计算与提取的深度特征之间的相似度以纠正每个训练样本的标记。在分类模块中,分类器将每个样本的原始标记和纠正后标记结合,一起作为监督信息指导分类器训练过程。这两个模块通过统一框架结合在一起,并通过交替优化方式训练。在两个多标记文本基准数据集上的大量实验结果表明,LCN可以有效地降低噪声标记对分类器性能的影响,表明其优于现有的方法。
其他文献
学位
退耕还林(草)政策是我国西部大开发战略重要的生态工程项目,通过调整土地利用结构,对我国北方地区生态安全、经济稳定和社会发展情况的改善具有重大意义。本文应用3S技术对呼和浩特市2000年、2010年和2018年的土地利用变化进行研究,分析了退耕还林还草地的坡度与农田潜力等因素的变化特征,探讨了呼和浩特退耕还林还草所产生的生态环境效益和生态环境质量变化状况,并评价了其综合效益。研究结果表明:1.呼和浩
学位
学位
学位
在《中国学生发展核心素养》正式公布之后,中国教育界进入了更高一个层次的改革,“一石激起千层浪”,身处在教育一线的教师们响应这一基础教育改革领域的重大举措,纷纷投身到学科核心素养的研究和实践中。学科核心素养作为一个最新的观念,它站在了时代的最前线,为我们指出了中国教育改革的大方向,保证了中国下一代参与世界竞争的教育基础。本文从“宏观辨识与微观探析”的角度,探讨了以核心素养培养为基础的高中化学教学。核
学位
利用生防天敌来控制农田系统有害生物备受关注。在农业生态系统中,多种害虫共同为害的现象频繁发生。害虫之间发生的共生、竞争等种间关系直接或间接的影响害虫种群数量与群落结构,进而影响天敌昆虫对靶标害虫的防控效果。斯氏钝绥螨作为一种高效捕食螨,通常用于温室蔬菜系统内小型刺吸性害虫和害螨的防治。为进一步明确斯氏钝绥螨对多种害虫同时发生时的控害能力。本研究以温室蔬菜发生频繁、为害严重的二斑叶螨和烟蓟马为靶标猎
本文以面向离散制造业具有代表性的汽车零部件制造为研究对象,对生产管理系统进行了研究和设计。论文分析了智能制造的发展趋势以及MES系统在国内外的发展现状,针对汽配行业分析了MES和SCADA对零部件制造的重要性,研究了SCADA系统与车间生产设备的交互通信方式,并通过MII中间件技术实现了与底层设备的数据交互。论文基于车间现状对生产管理系统进行了分析并梳理需求六十余项,基于该六十项需求对生产管理系统
学位