不平衡数据的最优分类阈值研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:Hai123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡数据分类。它是目前在机器学习和数据挖掘领域里一个研究热点。不平衡分类问题在现实生活中经常出现,而传统的分类器在解决这类问题时,会出现性能大幅下降的情况。从本世纪初开始,国内外学者对不平衡分类问题进行了深入的研究,并发表了众多相关的研究成果。不过对该问题还是存在许多可以研究的方面。  在本文中,首先介绍了在数据分布不平衡场景下,分类的一些特性,简单地回顾了数据分布不平衡在机器学习及现实应用中所造成的一系列问题,介绍国内外学者对该问题的研究现状。深入地讨论数据的内在特征,在数据不平衡分类时引起的一系列问题。这些内在特征包括:小析取项问题;训练集密度不足问题;类别覆盖问题;噪音数据;数据分布偏移问题,同时给出了对应的处理方法和建议。总结目前解决数据分布不平衡分类问题的主要方法,特别地,将介绍数据预处理,代价敏感学习和集成技术三种方法。  接着深入的介绍用来衡量不平衡分类性能的指标,探讨不同应用场景下,需要使用的合适指标。特别地,将分析ROC曲线下面积(AUC),单独做为度量分类器性能标准的不足之处:ROC只能衡量模型对样本排序的好坏,为取得好的分类结果,还需找到一个合适的划分阈值。最后提出了一个用来寻找最优分类阈值的框架:根据类别的错分代价是否相同,分别选取了F值和整体错分代价作为分类结果的衡量指标。先寻找训练集的最优分类阈值,然后用这个最优阈值去指导测试集或未知数据集的分类。将该框架应用到蛋白质的远程同源检测问题中。实验表明本文提出的框架能有效的工作,可以指导分类器的分类,提高分类器在查全率、查准率和F1值等指标的表现。
其他文献
随着我校校园网的开通和投入使用,校园办公网的开发便被提上了议程。为提升我校管理水平,解决学生管理中的工作量大、数据繁多、效率低下的问题,本文在我校原有校园网的基础
面对科研活动节奏的日益加快及科研问题的不断复杂化,科研工作者们急需找到一类新的科研协作工具来满足不断被提出的科研协作需求。互联网技术的发展淡化了时空界限,互联网应用
在以高效快节奏为主旋律的当代社会中,医学发展模式有了极大的改观:由单纯的治疗朝着预防保健方向转变。在此革命性的转变中,即时检验(Point ofCare Testing,以下缩写为POCT)在
Linux以开放源码为主要特色,以性能稳定、设计简洁、支持体系结构广泛、应用程序丰富等众多优点,被用于几乎所有的计算机领域。但是,在视频监控、双机热备、集群存储等实时控制
现在Web应用变得越来越流行,基于Ajax技术的新一代Web应用程序如Amazon.com,Gmail等不断出现,它们都包含了大量的客户端代码运行在浏览器中。由于客户端环境和浏览器配置的多
随着数据库系统的应用普及,软件测试在保证数据库应用系统质量和可靠性方面发挥着重要作用。数据库应用系统的测试需要事先在测试数据库中生成一些测试数据,也称为测试数据库
医学图像配准是为了实现一幅医学图像与另一幅医学图像上对应点、面或像素值通过几何变换达到空间上的一致,从而将多种模态的图像信息融合成一幅新的图像,提供给医生更加丰富
随着经济和社会的发展,人们对汽车的安全性、舒适性、燃油经济性等方面提出了更高的要求,来自汽车功能和开发成本、上市周期各方面的压力,汽车电子软件的开发面临着越来越大的挑
实时数据库是实时系统与数据库技术有机结合的新型数据库,它具有时间约束性。在时间关键型的应用中传统数据库技术已不能满足需求,实时数据库技术成为研究热点。随着电网规模
GPS(Global Positioning System)车载导航技术是GPS技术随着嵌入式技术、汽车工业的迅速发展而逐步兴起的,广泛用于交通监控,车辆导航等方面。在我国,市场上各种基于GPS导航的产
学位