论文部分内容阅读
随着信息技术的不断发展,数据中心网络的规模日益扩大。在数据中心内的一些业务,如数据迁移、文件备份,其产生的流量数目虽然很少,但传输的数据量极大,被称为大象流。为了更好地利用网络资源,减少网络拥塞,需要对大象流作出区分,单独优化。本文利用机器学习,对数据中心网络中的大象流进行识别,然后探讨了路由优化场景下识别模型的评估指标,最后将流量大小的二类识别扩展到了多类识别。主要的研究内容和创新点包括以下几个方面:(1)为了尽可能早地检测出大象流,本文以数据挖掘的角度,从一条流的前几个数据包中提取多个有效特征,使用LightGBM算法对大象流进行快速识别。针对数据集中大象流、老鼠流的样本不均衡问题,本文引入了聚焦损失函数,并在其基础上提出了双相聚焦损失函数(Biphasic Focal Loss,BFL),使模型在训练过程中更多地关注困难样本。本文分别使用了三种真实数据集验证了不同学习算法的有效性,实验结果表明使用了BFL的LightGBM模型不但具有较高的TPR和TNR,而且对大象流判定门限的变化具有更强的鲁棒性。(2)为了提高数据中心网络的性能,常需要对网络路由进行优化。然而,当前的一些基于大象流识别的路由优化系统仅考虑了识别模型对大象流的召回率,而忽视了查准率等其他指标。本文以一种基于SDN的大象流计数路由算法为例,探究识别模型的召回率和查准率对路由优化效果的影响,并提出使用加权F值将召回率和查准率统一到一个度量上,通过调节β系数平衡两者的重要性,从而使最终的路由优化效果最大化。(3)由于数据中心内的流量处于动态的变化之中,单一的划分门限很难确定。此外,将流量的大小仅分为两类太过粗糙简单,不能很好地支持一些更加灵活高效的路由方案。对此,本文对流量大小进行更细粒度地识别,同时提出了两种多分类下的路由算法。一种是多分类随机路由算法,该算法通过对各类流量的随机优化,使更多的流量拥有被优化的机会;另一种是多分类多权重路由算法,该算法为不同类别的流量赋予不同权重,从而更加准确地统计链路负载。通过路由仿真实验,本文证明了多分类路由算法可以进一步减少网络流量的传输时间。