论文部分内容阅读
随机森林,是机器学习和数据挖掘等应用中常用的算法,广泛应用于科学研究和商业应用中。随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林。随机森林中的决策树之间是没有关联的,当测试数据进入随机森林时,其实就是让每一颗决策树对样本进行分类,判断这个样本所属的分类,最后取所有决策树中分类结果最多的那类为最终的结果,在这个过程中每棵树的权重也要考虑进来。 然而,在随机森林的实际应用过程中,影响随机森林性能的有很多因素,它们影响着随机森林的执行时间和预测的准确率,开发人员需要不断尝试调整参数的大小和各种参数配合方式,但是这一过程很耗费时间和资源同时还影响预测结果的准确率。所以如何在大数据平台下配置和优化调整随机森林的各个参数以缩短随机森林运行执行时间和提高预测准确率成为本论文的课题。本文的主要贡献如下: (1)完成对影响随机森林应用性能的参数的理论分析,包括参数对运行时间的影响和参数对运行错误率的影响。 (2)完成Spark平台下随机森林的运行实验,根据实验数据,拟合实际应用中影响随机森林各参数与随机森林性能的关系曲线和函数。 (3)对比分析理论与实验结果函数曲线,得出随机森林在实际应用中的参数设置优化策略,提高随机森林性能,包括执行时间的缩短和实现降低错误率。 综上所述,通过理论分析影响随机森林执行性能的各个参数对随机森林模型的执行时间和执行结果的错误率的影响以及通过大数据平台上的实验分析,我们得到各个参数对随机森林性能的影响函数及趋势,为科研人员和商业应用在使用随机森林模型提供了参数优化设置和调优的参考。