基于不平衡数据的过采样和特征选择方法改进

来源 :山东大学 | 被引量 : 0次 | 上传用户:jiangdefeng1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据规模急剧扩增且类型错综复杂,人们获得的数据大部分是在不同类别上的数目比例相差悬殊的不平衡数据。不平衡数据中少数类样本的信息被大部分多数类样本数据所淹没,导致其被大量误分,进而会降低分类算法预测能力,因此研究有效的方法提高少数类的识别率十分必要。目前,不平衡数据的预处理方法主要有重采样和特征选择。在重采样方法中,Borderline-SMOTE过采样方法通过对边界上的少数类样本进行线性插值来强化边界,但是该方法极有可能生成噪声样本,模糊正负类的边界,在特征选择方法中,过滤式特征选择筛选出来的特征子集仍然存在一些冗余特征,封装式特征选择对于关键特征的识别十分有利,但在速度上要比过滤式方法慢。针对上述方法的局限性,本文主要研究内容如下:针对传统过采样方法容易生成噪声样本,会使得样本正负类边界模糊的问题,本文提出基于聚类的过采样方法。该方法首先识别出数据集中的少数类边界样本集,然后对该部分样本聚类,把过采样区域限制在边界样本集的每个簇集内。同时根据每个簇集周围各个类别的样本个数设置不同的采样倍率,精细化地分配新生成的样本数量,在每个簇集中按照采样倍率进行过采样。通过在6个具有不同不平衡度的数据集上与其它方法进行对比分析,实验结果表明本文提出的基于聚类的过采样方法优于之前研究中的其他过采样方法。针对过滤式特征选择方法忽略与分类算法的交互作用,经过筛选后仍然存在冗余特征的问题,本文有效地结合过滤式和封装式的优点,提出混合特征选择方法。该方法首先采用三种不同过滤式方法对特征重要性进行降序排序,然后引入封装式思想,将分类算法准确率作为评价函数,使用序列前向搜索策略搜索最优特征子集,最后利用简单投票方法确定最终预测结果。通过在6个具有不同特征个数的数据集上与其它特征选择方法进行对比分析,实验结果表明本文中的混合特征选择方法能够有效提高模型性能。针对乳腺癌诊断预测中的不平衡数据问题,采用本文中所提出的基于聚类的过采样方法对乳腺癌数据做平衡化处理,接着用混合特征选择方法做进一步的特征优化。实验结果表明采用本文中的改进方法提高了乳腺癌诊断的预测准确率,证实了本文方法的有效性。
其他文献
伴随国家“一带一路”与“海洋强国”战略的实施推进,我国海洋基础设施建设已进入蓬勃发展期。海底滑坡是威胁海洋基础设施安全建设及健康运营的地质灾害之一,具有覆盖范围广、影响面积大、致灾后果严重的特点,其触发机制、作用形式及破坏特征极为复杂。其中,近海海底滑坡触发因素统计显示,波浪荷载作用是滑坡成灾致灾的关键要素,因此针对近海海底滑坡灾害开展波浪荷载作用下灾害触发机制研究具有重要的理论意义和工程价值。本
随着世界上油气开发的难度越来越大,随钻测量技术也在快速发展,其对井下信息传输速率的要求也越来越高。连续波泥浆脉冲器作为泥浆脉冲随钻测量技术发展中的最新技术,数据传输速率高于目前广泛应用的正脉冲型泥浆脉冲远传系统10倍以上,是目前随钻测量数据泥浆脉冲传输系统的前沿发展方向。永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)作为连续波泥浆脉冲器转阀的驱动电机
航天器轨道机动是其实现各种空间任务的重要前提,因此运行轨道的优化设计对空间操作的过程起着决定性的作用。以往空间操作中航天器的轨道机动大部分是在脉冲推力下完成的。近十几年来,连续推力由于其轨道操作机动性强、时间短而受到关注。最初的连续推力的研究为矢量推力,即航天器推力模型主要是连续可变方向推力,对于快速交会来说,矢量推力是难以精准控制。本文研究的多特定方向推力模型是在径向、周向和法向三个方向独立设置
航天器轨迹优化是贯穿航天器全寿命周期的重要问题,其研究对延长航天器在轨运行寿命,增大执行任务能力等,具有重要的实践意义。优化得到燃料或时间等性能指标更优的运行轨迹,可达到有效节省成本的目标。本文以航天器需快速完成交会任务为研究背景。交会方式共有两种:主被动交会与协同交会。在现有的空间活动中,当执行的空间交会任务有时间的限制,此时,虽然航天器可通过主被动交会完成航天任务,但主被动交会会面临两个问题:
复合墙板近年来在研究和设计生产方面受到广泛关注,但是大多数研究集中在复合墙板力学性能方面,与复合墙板热工性能相关的研究却比较少。本文以内外叶混凝土板、EPS保温层及抗剪连接件组成的三明治混凝土复合墙板为研究对象,连接件材质、GFRP连接件结构形式、混凝土肋间距、保温层材料厚度、内外叶混凝土板厚度以及混凝土封边为参数,从传热方面分析了预制带肋复合墙板的热工性能。通过建立三维稳态导热模型,利用数值模拟
电力是科技进步的基石,是国家经济发展的重要保障。输电线路是电力输送和分配的载体,是电力系统必不可少的重要一环。随着新一轮科技驱动力的增长和经济持续向好发展,国家提出了大力发展“新基建”的方针,而特高压输电建设是其中的重头戏,起着排头兵的作用。我国幅员辽阔,地形条件复杂,特高压输电线路不可避免地穿越地震频发地区。国内外历次强震灾害表明,输电线路在地震下的破坏常有发生,输电塔杆件损坏甚至倒塌现象屡见不
天然气分布式冷热电联供系统具有高效环保、低碳节能、安全可靠等优点,是我国实现“碳达峰、碳中和”的重要方式。目前天然气分布式冷热电联供系统存在结构较为传统、运行策略落后、设备配置冗余等问题,未能最大化联供系统收益,故对系统进行科学的规划设计与运行管理是实现其快速、高效发展的关键。本文首先提出了天然气冷热电分供系统(SP)、天然气冷热电联供系统(CCHP)、耦合地源热泵的冷热电联供系统(CCHP-HP
甜菜(Beta vulgaris L.)是我国重要的糖料作物,甜菜基因资源是开展一切分子机制研究活动的基础,也是借助生物技术改良甜菜性状等各种应用研究的前提条件。我国甜菜基因资源目前还相当缺乏,基因克隆工作处于起步阶段。现阶段而言,获得充足的基因资源仍然是甜菜生物技术研究的一项重点任务。本论文以课题组前期获得的一个与甜菜二年生性状相关的SSR分子标记位点Bv RE049为起始材料,通过电子克隆获得
噪声污染在火力发电厂内广泛存在,严重的噪声污染会对电厂工作人员以及在周边生活的居民造成极大的影响,其中,以电厂烟风道为代表的大尺度管路系统的噪声是主要来源之一。为了研究大尺度复杂烟道噪声的产生机理和声学特性,本文采用大涡模拟、FW-H方程和声学谐响应相结合的研究方法,结合设置有不同内构件的烟道模型,研究电厂烟道内的三维流场及噪声特性,获得加装内构件后管内流场和管外声场的变化规律,揭示流场变化对烟道
从大数据时代开始,结合互联网虚拟技术的发展,以及后现代以来设计理念的多元化。本文试图通过讨论空间设计中的模糊性来探寻空间展示设计的多元叙事方式,为未来空间展示设计提供一个新的思考方向。在数字时代,大量的信息存在于互联网中。随着信息传播方式从线下转向线上,出现了利用大数据来迎合消费的传播方式。人们的信息生活也进入了“信息茧房”。疫情的发展在降低人们出行意愿的同时,也让人们思考如何从虚拟数字信息回归到