【摘 要】
:
在高速发展的互联网时代,网络技术的进步加速了各个领域数字化的转变,数据获取的方式越来越便捷。数据量和特征维数的剧增使信息越来越丰富,计算量也越来越大。因此,如何选择特征尤为关键。特征选择作为机器学习算法处理问题的重要一步,因其能实现特征维数的有效约减,避免“过拟合”、“维数灾难”等现象的发生,有效提高机器学习算法的计算速度和泛化性能,而受到广泛关注。本文基于回归问题研究特征选择方法。首先,本文提出
论文部分内容阅读
在高速发展的互联网时代,网络技术的进步加速了各个领域数字化的转变,数据获取的方式越来越便捷。数据量和特征维数的剧增使信息越来越丰富,计算量也越来越大。因此,如何选择特征尤为关键。特征选择作为机器学习算法处理问题的重要一步,因其能实现特征维数的有效约减,避免“过拟合”、“维数灾难”等现象的发生,有效提高机器学习算法的计算速度和泛化性能,而受到广泛关注。本文基于回归问题研究特征选择方法。首先,本文提出了一种新的支持向量回归算法,-最小绝对偏差回归算法(ν-MADR)。我们利用最新的支持向量回归理论,定义了绝对回归偏差均值和绝对回归偏差方差这两个统计量,并将其引入ν-SVR中,得到ν-MADR算法的原始优化问题。为了解决优化问题,我们针对小样本问题提出了对偶坐标下降算法,同时针对大规模问题提出了平均随机梯度下降算法。在人工和真实数据集上的实验结果表明,与流行的回归算法(例如ν-SVR、LS-SVR、ε-TSVR、线性ε-TSVR)相比,我们所提的ν-MADR算法在泛化性能上有显著的改善,并且训练时间更短。然后,我们基于ν-MADR算法实现了一种新的特征选择算法,基于-最小绝对偏差回归的递归特征剔除算法(ν-MADR-RFE)。该方法将ν-MADR算法的拟合结果作为特征重要性的评判标准,逐步剔除对回归模型贡献小的特征。在真实数据集上的实验表明,相较于其他特征选择方法(例如PCA、stepwise、LASSO算法、ν-SVR-RFE),我们的特征选择算法具有更好的性能,同时对参数不敏感。
其他文献
信息化和工业化融合是中国特色新型工业化道路的本质特征,指信息化和工业化两大历史进程的多层次、全方位交汇与融合。文章在科学把握两化融合对中国特色新型工业化道路的内
由于目前动压气体止推箔片轴承在一些发达国家的应用比较成熟,已经被广泛应用于航空航天、氢燃料电池汽车等领域的高速旋转机械设备中,它具备了传统的油润滑滑动轴承和滚动轴
2017年2月,中共中央办公厅、国务院办公厅印发了《关于加强乡镇政府服务能力建设的意见》,为完善乡镇政府职能,提升服务效能,进一步推进乡镇治理体系和治理能力现代化提供了强有力的政策依据。2020年保定市政府工作报告中强调,阜平通过省贫困退出验收,要推进乡村振兴示范点建设。这些信息释放出一个强烈信号——乡村振兴是基层当前及今后一段时间工作的重点,要因地制宜的推进乡村振兴,就要明确乡镇政府在乡村振兴中
低聚果糖(Fructooligosaccharides,FOS)是重要的功能性益生元,具有调节人体肠道菌群平衡、促进矿物吸收、降低血脂等生理功能,被广泛应用于食品、医药及动物饲料等领域。工业
在如今,顾客关注的重心已经从产品的质量和价格转移到接触产品过程中产生的顾客体验,由注重消费结果转变为敏感地体验过程感知。而虚拟品牌社区的出现,使得顾客体验由传统的
随着社会经济的向前发展以及交通建设的需要,修建在冻土地区的隧道越来越多。受制于恶劣的气候环境、施工技术,隧道里出现了越来越多的冻胀灾害,隧道衬砌背后融化盘的存在是
截止到2017年12月,中国网民规模达到7.72亿人,普及率超过全球平均水平的4.1%,超过亚洲平均水平的9.1%,其中手机网民高达97.5%。中国正处于互联网喷井式的发展年代,几乎每人每
对于大型混流泵而言,其叶轮叶片安放角是否可调是工程实际需求中首要考虑的因素。通过叶片安放角的调节,混流泵具备在不同流量区间内保持高效运行的优势,且在水位发生改变时,
基于模型诊断(Model-Based Diagnosis,MBD)是在人工智能领域发展中的一个重要研究方向。最初,模型诊断主要应用于电子电路故障的静态诊断,近年来,动态诊断逐步应用于大型软件验证、航天器安全性、通讯网络等领域,诊断问题已经成为理论研究与技术应用的双重焦点。目前,MaxSAT(Maximum Satisfiability)求解器是解决基于模型诊断问题的主要方法之一。MaxSAT问题是
李果实是冷敏型果实,在不适低温下会发生冷害现象,使果蔬贮藏品质下降,限制了低温技术的应用。近年来利用小分子信号物质增强果实抗冷性,有操作方便、绿色安全、成本低廉、效