【摘 要】
:
弱监督数据相比于精确标注的强监督数据更易获取,成本更低。如何利用弱监督数据来训练分类器近年来得到了机器学习领域研究者的广泛关注。偏标记数据是一类重要的弱监督数据,在偏标记数据中,每个样本在特征空间中由单个示例来表示,在标记空间中由一组标记组成的候选标记集表示,其中有且只有一个是样本的真实标记。由于偏标记数据的标记不具有单一性和明确性,传统的监督学习算法无法对其进行利用。因此,研究者们提出偏标记学习
论文部分内容阅读
弱监督数据相比于精确标注的强监督数据更易获取,成本更低。如何利用弱监督数据来训练分类器近年来得到了机器学习领域研究者的广泛关注。偏标记数据是一类重要的弱监督数据,在偏标记数据中,每个样本在特征空间中由单个示例来表示,在标记空间中由一组标记组成的候选标记集表示,其中有且只有一个是样本的真实标记。由于偏标记数据的标记不具有单一性和明确性,传统的监督学习算法无法对其进行利用。因此,研究者们提出偏标记学习框架来利用偏标记数据训练分类器,并设计了众多标记学习算法。在众多偏标记学习算法中,基于图模型的偏标记学习算法以其无需复杂参数模型,算法效率高的特点,受到研究者的广泛关注。基于图模型的偏标记学习算法包含三个关键步骤:(1)数据预处理;(2)根据近邻原则构建图模型;(3)根据图模型对偏标记数据进行消歧并训练分类器。现有的基于图模型的偏标记学习算法仍然存在以下问题:(1)算法基于流形假设,即在特征空间中相邻的样本具有相同标记,导致算法表现容易受到共现易错样本的影响;(2)现有方法在构建图模型的过程中,只关注样本在特征空间上的关系,缺乏对候选标记信息的利用,导致信息利用不充分;(3)现有方法在初始状态赋予每个候选标记相同的置信度值,在标记消歧的过程中不断调用初始置信度矩阵,但缺乏对初始置信度矩阵的修正,导致算法容易受到伪标记的影响。针对以上三个问题,本文主要进行了以下工作:(1)针对共现易错样本的的问题,提出一种面向偏标记数据的度量学习算法:在数据处理过程中将数据映射到一个新的特征空间,增大共现易错样本之间的距离。该方法采用统计推断的思想训练度量矩阵,对度量矩阵进行分解得到映射矩阵以将样本映射到新的特征空间。具体地,首先根据标记集信息将样本与其近邻样本组成的样本对划分为由易错样本组成的负样本对和其他样本组成的正样本对两类,对各个样本对赋予不同的权重;然后通过统计推断,利用最大似然估计来计算度量矩阵;最后,通过对度量矩阵进行楚列斯基分解得到映射矩阵,将数据映射到一个新的特征空间,增大共现易错样本之间的距离,从而减轻在流形假设下易错样本的影响。在多个公开数据集上的实验结果表明,利用该方法将数据映射到新的特征空间,可以有效提升现有基于图的偏标记学习算法的消歧和分类表现。(2)针对现有方法在构建图模型的过程中,只关注样本在特征空间上的关系,导致信息利用不充分的问题,提出一种候选标记信息感知的偏标记数据相似度图构建方法:该方法在构建相似度图的过程中综合利用了特征空间和标记空间中的信息。具体来讲,该方法采用杰卡德距离和线性重构两种方式计算各个候选标记集之间的相似度,结合示例在特征空间上的近邻关系构建相似度图,排除图中不合理的连边,以便现有的基于图的偏标记学习算法进行学习和预测。在多个人工合成数据集和真实数据集上的实验结果表明,在构建相似度图的过程中,采用候选标记信息可以有效地提升现有基于图的偏标记学习算法的消歧和分类表现。(3)针对现有方法没有对初始置信度进行修正,导致算法易受伪标记影响的问题,提出一种基于置信度修正的偏标记学习算法:该方法基于标签传播算法并采用双向标记传播,通过正向标记传更新邻居节点当前的置信度矩阵,并将各个邻居节点的消歧结果通过反向标记传播的方式传回原节点,以更新初始置信度矩阵,从而降低伪标记置信度的影响。在公开数据集上的实验结果表明该算法相比于基线算法,具有较好的消歧和分类表现。
其他文献
本文研究的是基于凸资源分配的准时制优化模型:在以获取最大利润和降低成本为基本目标的准时制生产方式下,研究可以反映边际收益递减规律的基于凸资源分配的单机和双机排序问
结核分枝杆菌具有独特的细胞壁结构,与病原菌致病性息息相关。其中,最具代表性的成分是结核菌醇蜡分支酸酯(PDIM),它位于细菌细胞壁的表面,对维持细胞壁的完整性十分重要。同时,PDIM也是结核分枝杆菌重要的毒力因子之一,它的生物合成和转运对细菌感染宿主以及感染后在宿主胞内的存活发挥了不可或缺的重要作用。但是,目前我们对于PDIM代谢基因的表达调控了解得非常少,直接相关的转录调控因子尚未鉴定。本研究利
英语在学术写作语言中占据主导地位,是学术界的国际通用语(下文写作ELF)。目前国内外与ELF相关的研究主要集中在口语领域,与ELF写作尤其是学术写作相关的研究较少。本文从语
目的:1、分析泌尿系结石患者中,合并代谢综合征的患者与不合并的患者之间血液代谢指标的差异,以初步探讨本地区泌尿系结石合并代谢综合征的危险因素,并探讨其可能的机制。2、
厉眼蕈蚊(Lycoriella ingenua)是一种双翅目昆虫,可以取食包括核盘菌在内的真菌。前期研究表明厉眼蕈蚊与核盘菌低毒相关DNA病毒1(SsHADV-1)存在互惠性互作。SsHADV-1可以利用厉眼蕈蚊体内复制,并利用其作为传播介体;同时SsHADV-1抑制核盘菌合成对厉眼蕈蚊具有驱趋避作用的蘑菇醇和辛酮,吸引成虫前往产卵,幼虫在感染病毒的菌落上取食后可以提高成虫的怀卵量。为了研究这种互
双重删失数据是生存分析领域中一种重要的数据类型,对于两个相关事件发生时间的时间差,当这两个事件都会出现删失时,就会产生双重删失数据,我们分别称这两个事件为初始事件和后续事件。而在研究中,有些个体由于自身或特殊原因,永远不会经历后续事件,或者说对该事件免疫,我们称之为被治愈。然而,目前大多数治愈模型的研究都是围绕右删失数据或区间删失数据展开的,双重删失数据下的类似问题并没有得到充分关注。基于以上背景
大地电磁测深法(Magnetotelluric Sounding,MT)根据地下介质的电性结构差异,利用天然交变电磁场来研究地下地质结构的频率测深方法。因其勘探深度大且不受高阻屏蔽,低阻反应灵敏,施工成本低廉(相对于地震勘探)等众多优点,现已广泛的应用到石油、矿产、工程等领域,并取得了不错的勘探效果。目前大地电磁测深的假设之一是以地下介质为均匀各向同性来进行研究,但是在实际勘探过程中情况非常复杂,
背景:三维可视化技术(Three-Dimensional Visualization Technology,3D)是基于人体结构图像数据的数字医学技术。该技术有效的将目标从视觉上分离出来,为术前精确诊断、手术个
This study is intended to demonstrate how the assembly within multiple knowledge of what is local and global,can be connected and disconnected by its participantsBased on Venezuela and China one of th
灰树花(Grifola frondosa)富含蛋白质、膳食纤维、多糖和微量元素等多种营养成分,其中多糖是其主要活性物质,具有免疫调节、抗氧化、抗肿瘤、降血糖和降血脂等生物活性。富硒灰