【摘 要】
:
特征选择是指在包含有大量冗余、不相关和有噪声的原始特征中选择最优特征子集并以最小特征个数尽可能还原原始数据集中所有特征的方法。该方法作为一种有效的数据降维方法,通过消除高维数据中冗余,不相关和有噪声特征来提高机器学习或数据挖掘模型的预测、分类和计算性能。在特征选择中,特征子集的搜索过程可看作是一个组合优化求解问题,即在有限的特征空间中寻求最优特征子集的过程;而特征子集的评估过程可看作一个分类问题,
【基金项目】
:
国家自然科学基金(51974144); 基于平行控制理论的无人驾驶卡车集群智能调度方法研究.辽宁省教育厅项目,项目编号:LJKZ0340;
论文部分内容阅读
特征选择是指在包含有大量冗余、不相关和有噪声的原始特征中选择最优特征子集并以最小特征个数尽可能还原原始数据集中所有特征的方法。该方法作为一种有效的数据降维方法,通过消除高维数据中冗余,不相关和有噪声特征来提高机器学习或数据挖掘模型的预测、分类和计算性能。在特征选择中,特征子集的搜索过程可看作是一个组合优化求解问题,即在有限的特征空间中寻求最优特征子集的过程;而特征子集的评估过程可看作一个分类问题,即通过分类器算法评估出最优特征子集的过程。为有效提高特征选择方法性能,本文从特征子集搜索与特征子集评估两个方面出发分别提出了改进的鲸鱼优化算法和改进的K最近邻算法,然后通过引入改进的鲸鱼优化算法和改进的K最近邻算法分别作为特征子集搜索和特征子集评估的方法,设计了一种基于改进鲸鱼优化算法优化改进K最近邻算法的包装式的特征选择方法。首先,针对鲸鱼优化算法在特征子集搜索时收敛速度慢和全局搜索能力弱的缺点,引入混沌反向精英个体增强初始种群多样性,并通过偏态分布和非线性扰动参数模拟鲸鱼狩猎过程中的个体偏好行为和位置自适应更新机制,提出了基于个体选择偏好和位置自适应更新机制的改进鲸鱼优化算法。通过比较9种元启发式算法对20个基准函数在30维和100维空间下的寻优结果表明:在同等仿真实验环境下,改进的鲸鱼优化算法不仅能有效平衡算法的局部开采能力和全局勘探能力,而且在求解不同维度的基准函数时具有更好的稳定性和可靠性。其次,针对K最近邻算法在特征子集评估时分类精度低的缺点,引入加权投票准则并利用模拟退火算法构造样本间相似性度量矩阵M提高样本属性在分类计算时的重要性占比,提出了一种基于权值矩阵M和加权分类策略的改进K最近邻算法。通过6种分类器算法在8个分类数据集上的实验结果表明:在同一实验条件下,改进的K最近邻算法不仅具有更好的分类性能,而且在对不同数据集进行分类时具有更好的鲁棒性。最后,利用改进的鲸鱼优化算法优化改进的K最近邻算法并将其分别作为数据集的特征子集搜索和评估方法,设计了一种基于改进鲸鱼优化算法优化改进K最近邻算法的包装式的特征选择方法。通过7种特征选择方法在15个分类数据集上的实验结果表明:在同一实验条件下,设计的特征选择方法不仅在特征子集搜索时表现出更好的优越性能,而且在特征子集评估时表现出更好的分类性能。而且利用设计的特征选择方法对原始数据集进行处理时,不仅能快速有效的去除数据集中冗余和不相关的特征,也对后期进行数据工程有着重要的研究意义。该论文有图25幅,表17个,参考文献126篇。
其他文献
随着汽车保有量的增加,城市道路交通拥堵问题越发严重。信号交叉口作为交通咽喉,具有驾驶环境复杂和交通量大的特点,这使得车辆通行行为的研究已成为交通领域的热点问题。随着中国新基建战略的提出及自动驾驶技术的不断发展,自动驾驶车辆(Autonomous Vehicle,AV)和人工驾驶车辆(Human-driven Vehicle,HDV)混行的交通流将在未来长时间存在。在混行条件下,车辆运动的交互影响模
透水沥青路面对雨水发挥了超强的“渗”和“蓄”的作用,目前主要用于城镇道路、广场和停车场等处。但路表沉积物与降雨形成混合流不断进入空隙内部,逐渐形成淤塞,透水功能不断衰减,甚至全部丧失。国内当前的研究和施工重点都在于如何实现更好的透水效果,却忽视了海绵体淤塞的综合防控关键技术的研究。以往研究表明,任何清洁技术都只能有效去除表面3mm内的堵塞物,路面将持续堵塞,且工作量大,成本高,这限制了透水沥青路面
采用传统定频正弦脉宽调制(Sinusoidal Pulse Width Modulation,SPWM)策略时,逆变器输出波形会在开关频率及其整数倍处产生中、高频谐波尖峰,在频谱图对应频率处可见明显的谐波功率峰值;这些尖峰会对电网环境、设备使用甚至通信产生干扰,严重影响生产生活。与此同时,逆变器输出的5、7、11、13次等低次谐波也会对旋转机械等负载产生不利的影响。因此,本文分别从抑制中、高次谐波
目的:应用机器学习算法,以百草枯(paraquat, PQ)急性中毒患者早期的血液指标为数据集建立预后预测模型,为PQ中毒的早期救治提供参考。方法:收集PQ中毒患者入院时(<24)的PQ血清浓度、血常规、血气分析、肝肾凝血功能等数据集。分别应用信息增益算法、Fisher打分算法、灰狼算法等进行特征选择,建立特征数据集。以十折交叉运算构建测试集和训练集,采用支持向量机(SVM)和极限学习机(ELM)
改革开放以来,随着我国社会经济的不断发展,城市化率迅速提高,越来越多的人口涌向城市。城市人口的迅速增加一方面促进了城市经济的发展,另一方面也带来了城市地面资源短缺、城市交通拥堵等问题,这些问题制约了城市的可持续发展,通过对地下空间的开发利用可以有效缓解上述问题。地质环境制约着地下空间的开发利用,为了充分了解地下环境,建立三维地质模型是一个值得研究的课题。本文从地层处理和钻孔数据插值两方面入手,以提
在传统的单一学科教学方式的影响下,学生存在学习兴趣有待提升的现象。为解决这一问题,教师应充分关注跨学科融合的教学实践价值,从单一学科的知识传授转向综合性知识传授,以学生的实际学习需求为导向,建构跨学科融合的课程,助力学生的全面发展。通过分析跨学科融合的内涵及小学语文跨学科融合教学实践的意义,提出科学设计、确立融合目标,情境创设、提高学习兴趣,拓展资源、拓宽文化视野,组织活动、营造良好氛围,设计任务
停车选择行为是停车者追求个人效益最大化的停车决策过程。巡航停车行为作为路内停车选择的外在表现和特征行为,浪费了时间和燃油成本并影响停车路段交通流的正常运行。路内停车凭借方便快捷的优势,使停车者宁愿花时间在路内巡航停车。影响停车选择的因素众多,解析影响巡航停车时间的关键变量,通过定量改变关键变量来改善停车者停车选择行为,从而达到减少巡航停车现象、增加路外泊位的利用率、降低路内泊车行为对停车路段的负面
传统车辆操纵动力学主要研究汽车稳定工况下的动力学特性。针对汽车高速紧急转向等工况,研究重点主要在采取一系列措施避免失稳的发生。对于汽车转向失稳后,轮胎力进入饱和区从而出现漂移现象的动力学机理缺乏系统的试验研究。近年来,国内外学者对汽车漂移展开一系列理论研究,其中有部分研究表明汽车转向失稳的本质是一种混沌运动,但并未进行实验验证。研究车辆漂移失稳但不失控现象有利于进一步了解车辆漂移运动的动力学和控制
为了研究中国初中数学教材内容编写情况,采用内容分析法对中国现行10个版本初中数学教材中“无理数”内容编写特点进行研究.结果表明:各个教材都有自身的理解,编写既有自己的特色,也有普遍一致性;所有的教材都注重无理数概念对无理数的判定;所有的教材注重将有理数的运算与运算法则迁移到无理数.建议教材编写应加强关注学生学习心理与发展特征,调整数学史料编排方式促使学生体会数学史发展过程,搭建知识之间的关联助力学