基于熵的非平衡数据重采样算法的研究

来源 :董春 | 被引量 : 0次 | 上传用户:tzflz108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,非平衡数据的分类问题都是数据挖掘与机器学习研究人员不断探索的课题,由于非平衡数据集固有的复杂特性,对于这一问题的研究虽一直在进步,但仍然存在许多现实的问题未得到根本解决。本文首先研究了非平衡数据的内在数据特征,对非平衡数据集当中普遍存在的分布特征进行总结归纳,并且分析了由这些数据特征引起的分类问题,目的是有针对性地进行数据处理和算法优化;其次,本文介绍了熵理论基础,阐明熵概念对于数据分布的有效表达,在后面的研究中利用熵工具对数据分布特点做有效评估;最后在此基础之上,进行以下几点研究:(1)由于非平衡数据中两类样本数量相差悬殊,导致其分类的概率分布也存在不平衡现象,此时标准熵对其分布的表示会存在一定偏差。为适应非平衡数据,改进标准熵,构造了一种非平衡熵,并且利用熵基本公理证明非平衡熵的合理性,为过采样算法的优化提供思路。(2)在非平衡数据的二分类问题中,两类数据重叠程度将影响分类器分类性能,针对这一问题,本文在标准熵的基础上,提出一种新的数据质量评价指标。主要通过熵工具JS散度评估采样数据的重叠程度,进而对非平衡数据重采样的数据质量进行评价,目的是省去在非平衡数据预处理阶段的分类步骤,降低算法时间复杂度。最后进行实验验证,用新的评价指标与已适用的评价指标进行对比,得到了评估结果的一致性。(3)为充分考虑非平衡数据分布特征的影响,进行最合理的过采样,本文采用最大熵思想,提出基于最大熵模型的非平衡数据过采样算法。首先构建数据分布的最大熵模型,求解得到最具合理性的数据集的概率分布,然后根据数据的概率分布确定样本权重,从而进行数据过采样,最后选择非平衡数据集进行实验验证,结果证实了模型的有效性。
其他文献
随着经济的发展,建筑越来越趋向于大型化、复杂化,这隐藏着很大的安全隐患尤其是火灾隐患,而应急疏散指示系统在应对建筑物内火灾时起着至关重要的作用。但是,现有的应急疏散指示系统指示路径固定无法根据火情的变化动态优化疏散路径,所以在动态变化的火灾场景下的疏散效果往往差强人意。因此,发展一款能够同时实现动态火灾环境下多对多路径优化和高度差异化、个性化疏散引导功能的应急疏散智能引导系统有很强的现实意义。本文
学位
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到
期刊
背景:鼻咽癌(NPC,nasopharyngeal carcinoma)患者放疗结束后经常会出现肿瘤残留。目前对于诊断肿瘤残留的方式以及时间尚存在很多争议。多个研究表明鼻咽癌放疗(RT,radiotherapy)后肿瘤残留较无残留患者,预后明显更差。当前对于残留的处理暂无统一定论。列线图模型目前已经在多种肿瘤中应用,便于进一步进行预后分层以及指导临床决策。目的:本研究目的是进一步探讨鼻咽癌患者放疗
学位
大气湍流自身的随机性难以被探测设备捕获,使得飞行安全受到严重影响,其剧烈的能量交换和风切变,能够损伤飞机的结构性能,引发飞机剧烈的颠簸。更严重的湍流甚至会导致飞机的失控,引发空难等飞行事故。为保障航班飞行安全,实现湍流的高效预警,是目前民航领域迫切需要解决的问题。为给民航机场湍流预警提供精细化的风场数据,通过兰州中川机场的激光雷达测得的相关数据,建立了一种基于粒子群(PSO)修正Elman神经网络
学位
快件空铁联运是快递业和航空物流业发展的新模式、新产品和新业态,对提升航空物流的通达性、拓展高铁快运的国际辐射力具有重要的意义。当前关于快件空铁联运的研究无论是在国际还是国内都处于起步阶段,在运行组织、衔接方式、线路走向和空间布局等多个方面都需要结合机场及周边铁路网络的实际情况进行具体的分析。近几年,国内航空物流园区项目逐渐兴起,但园区内部实际的交通运输方式仍是以公路为主,并没有搭建起真正意义上的多
学位
在海子的诗歌创作中,“春天”是一个无法忽略的意象,由此也构成了他非常重要的创作主题。海子对于“春天”主题的经营,经历了一个由无意识到潜意识到有意识的发展过程。其早期创作阶段,对于春天的书写是一种自然而然的状态,但有一首特殊的诗篇融入了现代意识和道家传统文化经验,颠覆和超越了中国古典诗歌中的“伤春咏怀”传统以及现当代诗歌史上对于“春天”主题的书写范式。其中期创作阶段有关春天的诗篇,因为身份意识及个人
期刊
研究背景结直肠癌在我国处于高发态势。粪便免疫化学试验(Fecal immunochemical test,FIT)能直接检测粪便中的人血红蛋白浓度,且诊断结直肠癌的灵敏度及特异度均处于较高水平。目前,FIT已经成为人群结直肠癌筛查的主要手段。荟萃分析显示,FIT检测进展期腺瘤的阳性预测值范围为28.6%至62.9%,这表明阳性FIT结果中仍有一部分为假阳性。大部分研究致力于探索假阳性FIT的相关流
学位
北斗三代导航系统(Bei Dou third-generation navigation system,BDS-III)的民用导航电文在没有完整性保护措施环境中传播,面临欺骗攻击(Spoofing Attacks)的威胁。本文根据北斗三代民用导航电文的结构特点和传输流程,采用密码认证的思想,利用国产密码算法提出了基于时间效应流丢失容错算法TESLA(Timed Efficient Stream L
学位
北斗卫星导航系统(BDS)是由中国自行研制的全球导航卫星系统(GNSS),2020年7月,北斗三号全球导航卫星系统正式开启,中国BDS的全球覆盖范围掀开了新的篇章。然而,随着卫星数目的增多和频谱资源的使用限制,卫星导航通信面临复杂的电磁环境,直接影响北斗导航系统的可靠性。因此,对BDS各频段干扰信号的监测技术进行研究有着极为重要的意义。本文在BDS面临的复杂电磁环境干扰的基础上,逐步围绕干扰信号对
学位
目的探索胃癌术后早期使用肠内营养泵与常规持续重力滴注肠内营养疗法的疗效。方法将56例胃癌术后患者随机分为两组,实验组为术后6~24 h经鼻肠营养管用复尔凯800型肠内营养泵输注肠内营养(enteral nutri-tion,EN)。对照组术后6~24 h经鼻肠营养管持续重力滴注法手控输注EN,对肛门排气时间、肛门排便时间、进食时间、住院时间以及腹胀、腹泻、腹痛、恶心呕吐、吻合口瘘等进行比较。结果两
期刊