【摘 要】
:
大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度.因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT.改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布.改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确.利用特征之间的相关性过滤低权重冗余特征,以XG
【机 构】
:
上海理工大学 理学院,上海 200093
论文部分内容阅读
大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度.因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT.改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布.改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确.利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(sequential forward selection)压缩特征.实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度.
其他文献
鼻腔鼻窦肿瘤为多发性疾病,其CT影像具有形态不规则、分界不均匀等特征,而现有的U-Net分割算法对图片细节不敏感且割裂了图像局部与整体特征的一致性,难以实现精准诊断.提出一种基于D-Unet深度神经网络的改进算法,根据鼻腔鼻窦肿瘤空间形变特点,将可变形卷积融入U-Net网络,并利用可变形卷积能依据目标形态拥有自适应感受野的特点,充分学习图像细节,从而提升算法的特征提取能力.在此基础上,使用损失函数Tversky解决数据集样本失衡问题,从而获得更高的灵敏度和泛化能力.为方便进一步研究,建立鼻腔鼻窦肿瘤分割数
在无人机跟踪过程中,遮挡、光照变化、背景干扰等影响会导致跟踪目标丢失.基于SiamRPN算法提出一种无人机目标跟踪算法.通过在网络中加入空间条带池和全局上下文模块建立远程上下文关系,以适应不同的跟踪场景.同时利用改进交并比的计算方法提取目标特征,并回归精准的预测框.在UAV123数据集上的实验结果表明,相比SiamRPN、SiamFC、SAMF等算法,该算法的跟踪性能较优且具有较强的鲁棒性,尤其在背景干扰环境下,其精确率和成功率较SiamRPN算法分别提升了6.54%和11.63%.
颅骨修复技术是对有缺损的颅骨补全对应的缺损部分,进而实现颅骨形状的完整性.针对高维颅骨数据,采用径向曲线来表示颅骨几何特征,结合最小二乘支持向量回归的方法构建颅骨修复模型.提取完整的三维颅骨模型的径向曲线,将其分为已有径向曲线和缺失径向曲线两部分作为训练样本,采用最小二乘支持向量回归统计模型复原出待修复颅骨的缺失径向曲线,进而合并生成待修复颅骨的完整径向曲线,通过迭代最近点算法将合并的颅骨径向曲线与颅骨统计模型进行匹配生成完整的三维颅骨模型.实验结果表明,该方法的平均误差达到6.834×10?3,比主成分
在软件技术和规模不断发展的今天,软件开发过程中出现的问题越来越多,代码缺陷检测工具由于其缺陷检测效率高并且自动化程度高被人们所青睐。但随着代码规模越来越大、代码文件变得越来越复杂,代码缺陷检测工具也面临着更多的挑战,如硬件资源达不到需求、检测时间过长等情况。此时传统单机代码缺陷检测系统并不能很好地解决这些问题,需要采用分布式的方法进行调度。如果能在分布式调度之前知道被测模块大致的时间开销与空间开销
近年来,随着5G移动通信技术的发展,人们也越来越重视5G移动通信基站周围电磁辐射水平的影响。5G基站不仅要满足覆盖范围内信号强度的要求,更要保证区域内的电磁辐射强度不会对人体造成影响。有必要对5G基站的电磁辐射水平进行定量和定性的研究。本文从5G关键技术出发,对应用场景、用户分布、断面距离和流量传输时长等影响因素进行测试研究。分别对以上因素进行了理论分析,提出了相应的测试方案并进行实地监测。通过对
知识推理作为知识图谱的重要一环,一直处于重点研究热门对象之中.随着深度学习的不断发展,多种深度学习模型与知识推理的结合引起了很大的重视,得到了大量国内外学者的热捧.为了提高从已有知识中推理出新知识的正确率,二者的结合被广泛研究.基于深度学习的知识推理可以挖掘得更深、更仔细、更精确,有效提高了丰富知识库中的实体、关系、属性和文本信息等的利用率,使推理效果更佳.通过简单介绍知识图谱以及知识补全概念,重点叙述知识推理的概念及基本原理,从知识表示学习、知识获取和知识计算应用三个方向展开,综述了基于深度学习的知识推
针对布谷鸟仿生智能优化算法存在着的易陷入局部最优、求解精度低以及收敛速度慢等问题,提出了基于多阶段动态扰动和动态惯性权重的布谷鸟搜索算法(MACS).利用多阶段动态扰动策略对布谷鸟算法的全局位置的最优鸟巢位置根据方差可调的正态随机分布进行扰动,有利于增加种群的多样性和鸟窝位置的灵活性,提高算法全局搜索能力.在局部位置处引入动态惯性权重,使得算法有效克服易陷入局部最优的缺陷,提高局部寻优搜索能力.引入了动态切换概率p代替固定概率,可以动态平衡全局搜索和局部搜索.通过与4种算法相比和11个测试函数的仿真结果表
早期预警是在线学习中的重要主题,通过早期预警识别有不及格风险的学生可帮助教师及时开展个性化教学干预.使用深度学习模型对学生微观行为模式进行分析以提高早期预警的效果,并提出结合LSTM-autoencoder特征处理和注意力权重计算的不及格风险学生早期预警模型(LSTM-autoencoder and attention based early warning model,LAA).该方法通过LSTM-autoencoder对学生行为时间序列数据进行特征处理,采用注意力机制计算关键预测因子.实验结果表明,L
近年来,随着智慧交通的飞速发展,复杂城市环境下高精度定位的需求日趋旺盛。由惯性导航系统和全球卫星导航系统构成的INS/GNSS组合导航系统能够提供连续高精度的定位导航信息,弥补单一导航系统的不足。然而在实际的复杂城市环境中,GNSS信号极易受到高楼、林荫、隧道等遮挡,传统的组合导航系统会退化为纯惯性导航推算。由于受到微机械电子系统惯性测量单元量测噪声的影响,纯惯导系统的定位精度会随误差累积而发散。
肺癌是全球致死率较高的一种癌症,IASLC(国际肺癌研究协会)研究表明:随着肿瘤的不断增长,患者的死亡率会逐步上升。对肺癌患者来说,及时地诊断和治疗可以有效提高存活率。肺结节作为肺癌发病初期的临床表现,在肺癌早期的筛查中起到至关重要的作用。近些年,随着影像学成像技术的不断发展,更薄层的成像能够提高肺结节筛查的准确度,从而造成了肺部影像和诊断报告呈指数增长,大量的数据增加了医生诊断的难度。将深度学习