论文部分内容阅读
近年来,新一代移动通信技术得到快速发展,智能手机、平板电脑等移动端智能设备也迅速普及开来,移动通信网络逐渐构成了当今社会必不可少的基础设施之一,不断影响着人类社会生活的各个领域。面对越来越复杂的网络环境和成倍翻升的网络流量数据,网络管理和运营者们需要花费更多的时间和资源监控并分析出实时的网络流量状况,以应对突发的网络拥挤和堵塞,或者及时关闭不需要的基站以节省能耗,确保网络质量良好。一个好的流量预测模型能够使得运营商提前发现网络异常、网络流量爆发等问题,从而保证网络的稳定性、提高网络的服务质量、节省基站的能耗等。鉴于此,本论文基于基站网络流量采集数据,研究了基于决策树集成和宽度森林的网络流量分析与预测算法。本论文的主要研究工作和创新点如下:首先,在数据预处理中,本文针对采集数据中的缺失值采用了填充处理的方式,建立起有效的缺失值填充方案的评估机制。通过对比多种填充方案,最后选择了基于高斯分布的拟合方法填充缺失值。随后完成数据的特征工程,一方面,本文分别基于时空分布和历史流量数据挖掘了流量数据特征,提出了可变周期移动窗口平均法提取历史流量数据的统计特性;另一方面,本文提出了基于随机森林的重要特征选择算法用于提取与流量值变化更为相关的重要特征,从而为后续的流量预测算法建模打下坚实的基础。接着,本文设计了基于决策树集成的基站网络流量预测算法。鉴于轻量梯度提升决策树(LightGBM)算法有着强大的非线性处理能力、快速建模、分布式处理等优点,本文选用了LightGBM算法模型对基站网络流量进行了建模。接着,本文进一步地使用引导聚集算法(Bagging)优化了LightGBM算法,提出了LightGBM-Bagging算法模型,以提升模型的泛化能力。经理论分析,改进后的模型可以在保持决策树总数不变的情况下,有效降低了模型的时间复杂度。实验结果表明,该预测方法与其他预测方法相比,具有更好的预测性能。最后,本文设计了基于宽度森林的流量分析与预测算法。首先,在宽度学习和深度森林的理论基础上,本文将二者结合,提出宽度森林算法,并推导出其构建过程和增量学习过程以及相应的模型结构。接着,本文将宽度森林算法应用于基站网络流量的分析与预测建模分析中。利用宽度森林的特征层森林直接对流量特征的重要性进行评估,筛选出重要特征,并将重要特征输入到增强层森林作进一步训练,最后将两层森林的预测结果组合成矩阵,取矩阵的伪逆得到最终预测结果。实验结果表明,宽度森林算法进一步提高了流量预测的准确度。