持续学习框架中主动学习算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ziling_net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术迅速发展的今天,机器学习在许多领域已经取得了非常优秀的性能表现。新的机器学习算法层出不穷,虽然新的算法架构在相同的条件下性能有所提升,但是机器学习的成功更多地还是依赖大量的标注数据。可是在许多专业的领域,数据标注不仅枯燥乏味、消耗时间,而且需要大量具有专业领域知识的人力资源,这通常不是一项容易的任务。为了降低人工标注数据的成本,本文提出了一种持续学习框架CLBSS。CLBSS基于主动学习方法,主动学习的主要目的就是通过主动学习样本选择算法从大量未标注数据集中选取最有价值的部分样本进行人工标注,减少人工标注样本的数量。CLBSS应用主动学习算法,持续地从未标注数据中选取最佳子集进行人工标注,进而完成模型更新。CLBSS主要由基分类器,主动学习样本选择算法和已标注样本采样算法三个模块构成。基分类器是CLBSS的主体,主动学习算法和已标注样本采样算法都依赖于基分类器,依据不同的分类任务通常采用不同的基分类器。本文的任务场景设定为音频分类,音频分类通常首先要把原始音频特征转化为频谱图,然后对频谱图进行分类识别,所以专为图像分类设计的卷积神经网络称为基分类器的首选。主动学习样本选择算法是主动学习过程的核心。常见的主动学习样本选择策略主要基于“最具识别力”或“最具代表性”准则。“最具识别力”准则侧重于考虑当前模型的特点,选取当前模型分类最“模糊”的样本进行人工标注。“最具代表性”准则则更多地考虑数据本身的特点,尽可能的发掘更多样化的数据。CLBSS采用了新的融合“最具识别力”和“最具代表性”准则的主动学习样本选择策略,汲取了两种策略的优点,使得选取的样本更加合理,更有利于基分类器性能的提升。已标注样本采样算法对分类器学习过的样本进行下采样,在学习性能和效率之间取得了很好的平衡。随着持续学习轮次的不断增加,标注数据量也会不断增加,对标注数据进行下采样可以缓解数据膨胀问题。但是,如果完全不使用已学习过的标注数据,而只使用当前批次新标注的数据,则会造成灾难性遗忘问题,即对分类器学习过的数据分类性能急剧下降。所以使用部分已学习过的数据也有助于缓解灾难性遗忘问题。实验结果表明,基于融合策略的主动学习算法能够使得分类器获得更加鲁棒和快速的性能提升。与其他持续学习框架相比,CLBSS通过对已标注数据的下采样,可以避免不必要的计算代价,并且减少了数据的存储需求。
其他文献
摘要:以西洋参果为原料,利用发酵、澄清等工艺酿制西洋参果果酒,并通过正交实验确定酒精发酵的最佳工艺条件为:发酵温度22℃,发酵时间7d,酵母液添加量为6%。澄清采用皂土0.15%和明胶0.0
注册会计师审计的法律责任是是关系到每个审计工作者切身利益的问题,本文通过对审计责任的认定及这册会计师所面临的法律责任的讨论,提出了注册会计师应该注意的几个问题。
目的:探讨和分析新辅助化疗结合放疗的方式对局部晚期宫颈癌的疗效及实用价值。方法选取局部晚期宫颈癌患者80例为研究对象,随机均分为观察组和对照组(n=40),其中观察组患者进行新
VMwareHorizon客户端分为两种,分别是基于Web访问的HTML客户端,另一种是VMwareHorizonViewClient。对于前者,局域网用户只需要访问https://vcs.heinfo.edu.cn并输入用户名与密码即可
目的探讨新辅助化疗结合放疗与单纯放疗治疗局部晚期宫颈癌疗效比较。方法采用回顾性分析的方法,分析笔者所在医院收治的局部晚期宫颈癌患者临床资料,依据治疗方式不同分为观
都说中小企业融资困难,究竟难在哪里?问题其实很好回答:第一,没有固定资产;第二,没有良好的信用记录;第三,很难提供真实的财务报表。深圳一家为国外知名产品贴牌生产环保包装
哪些特质最被审评机构看中,从而获得更快的上市速度?$$近日曾流传优先审评两曰就获批的“神话”。而从笔者实际观察来看,优先审评有助于加快速度,但过程中没有被暂停和发补,才
报纸
现代纤维艺术常应用于酒店、会议厅、展览馆等现代公共性建筑环境中,在与公共空间的放置形态的协调性上、公共空间与人的感观交流的方式上、共性的使用功能上都体现了现代纤维
我读过孙卫卫的很多作品,包括小说、散文、童话和绘本,我觉得,他的作品已经具有了比较鲜明的辨识度,有一种“卫卫质素”飘散其间。质素指事物本来的性质。那么,“卫卫质素”是什么
报纸
分析了武汉钢铁股份有限公司1700mm热带生产线过程控制系统的结构以及设备通讯机理,利用ICMP、ADO和OPC技术实现了轧线过程控制设备的监测。该系统为判断控制设备是否具备轧