基于CRF的高效鲁棒SVM研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:love527351314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习领域中,原始训练集中的噪声一般分为属性噪声和标签噪声,大多数情形下,标签噪声的危害大于属性噪声,并且会严重影响分类器的验证准确性。为了消除标签噪声的负面影响,主要是基于过滤器或基于鲁棒算法过滤标签噪声,据此有人提出了一种基于完全随机森林的标签噪声滤波学习(CRF-NFL)框架,这个滤波框架使用完全随机森林(CRF)作为过滤器。CRF-NFL框架除了可以有效地滤除标签噪声外,也可以结合各种分类器对滤波后的训练集进行训练,即可以结合其他鲁棒算法过滤标签噪声,进一步提高滤波性能。但是,这个框架有两个缺点,一是完全随机森林尚未优化,无法使分类器的验证准确性更高;二是它仅关注各种分类器的组合,如当选取经典支持向量机(SVM)作为结合分类器,组合而成的CRF-NFL-SVM模型,在二分问题中,没有考虑支持向量机的鲁棒性,在高噪声训练集下,此时CRF-NFL-SVM模型性能并不理想。鉴于CRF-NFL框架的两个不足,本文基于CRF-NFL框架和支持向量机理论做了相关研究,主要研究成果如下:首先,本文优化基于完全随机森林的标签噪声过滤方法。通过投票阈值的优化,能更好地过滤掉原始训练集中的标签噪声,使得分类器的验证准确性更高。同时,因为完全随机森林与随机森林比较没有剪枝过程,支持向量机不需要交叉验证,效率也得到提高其次,本文提出方法改进了支持向量机算法在二分问题下的鲁棒性。因为标签噪声是使原始数据集不可分割的一个重要因素,线性不可分问题从理论上转化为线性可分的关键在于将惩罚系数最大化,据此可以根据线性可分求解最大超平面,从而增加了算法的抗噪能力,提高了支持向量机的鲁棒性。最后,根据以上优化改进,本文提出一个基于完全随机森林的高效鲁棒支持向量机模型(CRF-ERSVM)。采用UCI数据集,在含20%的噪声数据集下,该模型与经典支持向量机模型、CRF-NFL-SVM模型相比,验证精度分别提高5.18%和4.18%。
其他文献
随着服务市场的迅速发展与国家相关政策的推动,物流领域中的物流服务供应链逐渐引起重视与发展,顺应了物流行业与企业发展的需求。物流服务供应链的主要参与成员有物流服务集成商、物流服务提供商与客户,服务集成商通过服务外包等形式让服务提供商为客户提供物流服务。但是由于物流服务供应链在我国发展较晚,受供应链间客户信息反馈的不足与合作产出意识薄弱等问题影响,物流服务供应链间各主体缺少合作激励,使物流服务供应链的
软件产品线是一种通过重用产品线中可复用成分来提高开发效率的方法,软件产品线开发过程,实质上是从软件产品线演化出新产品的过程。在软件产品线的演化方法中主要存在以下问题:(1)软件产品线的规模增大,导致特征数量增多,特征之间的约束关系也越复杂,软件产品线的演化需要判断演化出的产品对特征之间约束关系的满足性,人工管理方法已不能达到要求;(2)由人工从领域特征模型演化出满足多个目标的应用特征模型时,因为需
在移动互联网及电子商务快速发展背景下,O2O电子商务作为一种新的经济运行方式正不断扩大。O2O市场的快速发展使得越来越多的O2O电商企业将目光对准了供应链,欲通过对供应链的良好管理提高企业竞争力。在运营供应链的过程中,存在着多种风险因素,如供应链组织结构复杂多变、管理人员风险意识不足、以及技术手段日新月异等问题,O2O电商企业供应链的风险仍层出不穷。目前政府和企业对供应链风险问题管理主要聚焦在风险
公路隧道是公路交通基础设施的重要组成部分,裂缝是隧道中比较常见且危害较大的一种病害。及时有效地检测出隧道裂缝对隧道后期的养护与维护具有重要意义。基于数字图像处理的裂缝检测技术,克服了传统人工检测和仪器检测的缺点,为隧道的日常养护以及危害评级奠定了基础。此外,由于公路隧道裂缝与固有衬砌缝的形态相似,衬砌缝去除算法在裂缝检测领域有着广阔的应用前景,具有十分重要的理论意义和实用价值。本文深入研究如何去除
云计算任务调度策略直接影响整个云平台资源使用效率和云平台用户满意度,同时云计算任务调度属于完全NP问题,因此任务调度算法一直是云计算领域的研究难点和热点。目前,云计算任务调度算法主要分为传统算法和智能启发式算法。传统算法更偏向于单指标优化。智能启发式算法,从云平台角度出发对任务完成时间、任务完成成本等进行优化;从用户角度出发,提高用户服务质量;但是这些算法没有综合考虑用户服务质量和云平台负载情况。
数控机床被视为“工业航母”,是当代制造业的核心机械设备。数控机床的动力学特性与其结构的工作性能紧密相关。随着现代数控机床朝着高速、高精度和高可靠性的方向发展,高速铣削因其高生产率和灵活性而被越来越多的制造企业采用,有关机床动态性能的研究也越来越重要。目前数控机床动力学特性参数辨识方法主要有有限元分析法、试验模态分析法及运行模态分析法。但是,机床在加工状态下的动态特性与静态状态之间存在一定差异。利用
数字图像相关法(Digital Image Correlation,DIC)是一种用于全场变形测量的光测力学方法,因其具有操作简单、测量精度高、非接触式、全场测量等优点已然成为科研和工程的热门研究对象。二维DIC技术在测量精度、计算速度和适用性上都相当的成熟,但是在航空航天、精密加工、高端制造业等领域必须依靠三维DIC技术才能完成相关测量。然而现有三维DIC技术是通过对散斑点云的重构来实现变形测量
石墨烯由于其优异的力学、热学、电学、磁学和声学性能,使得其在高性能纳电子器件、复合材料、场发射材料、气体传感器、能量储存等领域获得广泛应用。因此,对石墨烯力学性质的全面掌握和深层次理解对石墨烯为代表的新型二维材料的发展与应用具有不可替代的作用。对于其性质的研究,使用分子动力学仿真计算方法需要占用大量的资源。基于Cauchy-Born准则的连续性介质力学方法,可以有效的降低计算时间,使得石墨烯能够更
随着世界和我国的电子科技和互联网技术的快速进步和发展,以及现代智能手持通信设备的普及,新浪微博因其低门槛和自由的信息传播特点,已经变成了现代人们获取信息以及分享生活的一个平台,当用户想发表自己的看法或者观点时,可以通过微博来发表,他们也可以转发、关注和评论其他用户的微博。微博已经成为了突发事件舆情传播的重要工具和载体,在舆情传播中发挥着重要的作用。如何准确地发现那些在突发事件微博中引发的舆情观点和
传统人机交互技术很大程度依赖于鼠标、键盘等输入设备,这些交互设备限制了交互的速度和自然性,已经无法满足用户的更多智能交互需求。手势交互具有简单、形象和直观等特点,因而广泛应用于各种新型交互场景。但现有手势技术无法实现三维空间文本输入操作,传统手写识别输入依赖触摸板,语音交互也仅能满足部分操作需求,不能完全胜任三维空间文本输入的工作,急需新的交互方式来实现三维空间文本输入。空中手写识别允许用户以自然