Spark平台上随机森林算法性能优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:JK0803_lichunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林,是机器学习和数据挖掘等应用中常用的算法,广泛应用于科学研究和商业应用中。随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林。随机森林中的决策树之间是没有关联的,当测试数据进入随机森林时,其实就是让每一颗决策树对样本进行分类,判断这个样本所属的分类,最后取所有决策树中分类结果最多的那类为最终的结果,在这个过程中每棵树的权重也要考虑进来。  然而,在随机森林的实际应用过程中,影响随机森林性能的有很多因素,它们影响着随机森林的执行时间和预测的准确率,开发人员需要不断尝试调整参数的大小和各种参数配合方式,但是这一过程很耗费时间和资源同时还影响预测结果的准确率。所以如何在大数据平台下配置和优化调整随机森林的各个参数以缩短随机森林运行执行时间和提高预测准确率成为本论文的课题。本文的主要贡献如下:  (1)完成对影响随机森林应用性能的参数的理论分析,包括参数对运行时间的影响和参数对运行错误率的影响。  (2)完成Spark平台下随机森林的运行实验,根据实验数据,拟合实际应用中影响随机森林各参数与随机森林性能的关系曲线和函数。  (3)对比分析理论与实验结果函数曲线,得出随机森林在实际应用中的参数设置优化策略,提高随机森林性能,包括执行时间的缩短和实现降低错误率。  综上所述,通过理论分析影响随机森林执行性能的各个参数对随机森林模型的执行时间和执行结果的错误率的影响以及通过大数据平台上的实验分析,我们得到各个参数对随机森林性能的影响函数及趋势,为科研人员和商业应用在使用随机森林模型提供了参数优化设置和调优的参考。
其他文献
电子断层(Electron Tomography,ET)三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已成为一种公认的研究复杂生物大分子结构的强有力手段。虽然电
现代高性能片上网络(Network on Chip,NoC)互连芯片设计日益复杂,面临性能、功耗、面积、开发时间、成本等诸多因素制约,往往设计需经过从体系结构层到物理实现层的多层迭代与优
随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在
学位
学位
随着大数据计算时代的到来,流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求,传统的计算模型已经不能满足流式数据处理的应用场景,流式数据处理需要一
随着信息化的高速发展以及移动设备和社交网络的快速普及,互联网的信息量呈爆炸性增长,用户每天以文字、图片、视频等形式产生大量非结构化数据,如何高效地存储和传输这些大规模
学位
医学影像已成为医学技术发展最快的领域之一,生物医学图像处理已作为医生诊断的重要依据,基于全信息摄影的三维成像技术也得到日益广泛的应用,从而进一步提升了医学图像诊断技术
面对互联网上的海量视频数据,视频拷贝检测具有广泛的应用价值,比如版权保护、视频检索、视频内容监控、视频信息追踪等方面。本文围绕视频拷贝检测的特征提取展开研究,提出一套