面向小样本问题的主动学习理论及应用研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:bigfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器学习在大数据应用中取得了很大的成功,应用场景和范围日益丰富,涵盖了计算机视觉,自然语言处理,智能医疗等众多领域。大数据为机器学习的发展带来机遇的同时也带来了挑战,突出的表现为数据标记困难。数据类型多样、数据产生环境复杂、数据更新速度快等因素,导致在实际应用中往往只有少量的标记数据可以利用,大大降低了模型泛化能力。如何利用有限的人工标记提高数据的分类精度,即小样本问题,是当前机器学习领域的前沿问题之一。主动学习技术是机器学习领域解决小样本问题的基础方法之一,其利用人机交互的方式,从大规模数据中选取最具有信息量的样本进行人工的标记,逐步的建立高质量小样本训练数据集,来提升分类模型在小样本下的泛化能力。本文面向小样本下的数据分类和预测任务,系统地研究了利用主动学习解决分类任务中数据匮乏的方法。不确定性和代表性是主动学习查找最具信息量样本的两大核心准则。不确定性主要是为了查找数据中类别间界面附近的数据点,代表性主要是为了挖掘数据集中的分布结构、减少冗余和加速学习。本文为了提升主动学习的性能,设计了一系列不确定性信息和代表性信息统一结合的样本学习模型,主要创新点包括:1)针对单标签数据分类问题,本文提出了将双样本理论和不确定性结合的启发式主动学习框架,框架中基本上涵盖了进行理想样本查询的所有条件,克服现有主动学习方法框架通过约束假设表达数据结构造成算法适应性差的难题。依据此框架进行主动学习算法设计,可以选择出即具有不确定性又具有代表性的样本。2)针对多标签数据分类问题,本文提出了基于最大相关熵准则的鲁棒多标签主动学习模型,解决异常低相关标签影响主动学习中不确定性和代表性准则准确表达的难题.提出的模型主要是利用最大相关熵准则的有界性,抑制低相关标签在两种准则衡量中影响,发挥强相关标签在衡量中的主导作用。3)针对半监督和主动联合学习中存在的半监督信息欠缺问题,本文提出了一种融合代表性和判别性的半监督主动学习方法,主要是利用主动学习循环中更新前后的标记集,建立多个分类模型和聚类模型,依据分类模型对未标记样本分配可靠性伪标签获得判别性样本,依据聚类中的近邻原则进行未标记样本的伪标签标记获得代表性样本,而不能进行伪标签分配的样本则作为主动学习样本查询的候选集。通过这种融合方式,可以极大地丰富标记集中判别性和代表性信息,快速提升主动学习的性能。4)针对领域适配和主动学习联合学习中不确定性与代表性准则框架不统一的难题,本文提出了一种领域适配协同的多域主动学习方法,将目标域数据和源域数据嵌入到一个不确定性和代表性联合的主动学习框架中进行目标域样本的查询,同时在主动学习中不断调整源域数据分布,使其更加适合目标域分类任务,大大提高跨领域分类问题精度。
其他文献
在移动生活中,运营商会被动地记录大量与行为相关的日志记录。日志包括通话、短信及流量使用时产生的时间、地点等信息,但不包含具体的通信内容。这些数据有助于运营商研究客
目前对于农产品食品安全和品质的方面的需求越来越高,越来越多的农产品相关企业开始建立农产品溯源系统,这些系统界面简单,操作方便,对于市场的监管和消费者的需求都给予了很好的支持。这些系统也存在数据易被篡改、信息不透明、源头信息采集难等问题。本文通过对这些系统模型进行分析,并且结合当前存在的问题进行需求分析,提出了基于区块链的农产品集成供应链模式溯源模型,具体研究如下:(1)农产品集成供应链管理模式溯源
目的:1.本研究通过对抗利尿激素分泌不适当综合征(SIADH)患者进行临床资料的收集、数据整理、统计分析,探讨SIADH的中医症候分布规律,为进一步探索SIADH的中医辨证治疗奠定基础;2.观察内科治疗SIADH患者各证型的血钠达标情况,为中医临床治疗SIADH提供依据。方法:选取山东大学附属省立医院2010年4月至2018年11月收治的73例SIADH患者,对其进行回顾性分析,采用数据统计分析来
目的:核桃(Juglans regia L.)是我国重要的经济林树种,研究核桃的花芽分化对于其品种改良、提质增产具有重要意义。先前的研究表明,一些GRAS(GIBBERELLIN-INSENSITIVE,Repres
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)是建立在传统合成孔径雷达(Synthetic Aperture Radar,SAR)上的新体制雷达,它不仅具有全天时、全天候、远
大学生群体是网络消费中不可忽视的一支主力军。本文从心理账户的角度探究该群体在进行网络消费的冲动性,主要采用问卷调查的方法,对大学生网络消费冲动性进行了初步探究,重
生活就是教育,教育就是生活,行为课程的精髓就在于此,与《幼儿园教育指导纲要》中强调的"既贴近幼儿的生活,又有助于扩展幼儿的经验"理念一致。课程来源于生活,也决定了生活
会议
近年来,关于深度强化学习的研究受到了广泛的关注并取得了大量的研究成果。如何有效促进智能体进行策略优化是深度多智能体强化学习领域的重要研究问题,然而,在有效地解决多
开发利用月球资源、建立月球基地是新时期国际月球探测的主要目标,也是开拓深空探测的重要基石。月球基地的建设需要大量的结构材料,就地利用月球资源,通过高温烧结月球风化
会议
近几年来,在高校不断扩招的大背景下,越来越多的高职学生通过专升本进入本科院校继续学习。本文分析了高职学生报考专升本热潮背后的意义和作用,以及给高职院校带来的弊端,并