论文部分内容阅读
过去的二十年中,互联网浪潮一波接一波,新技术、新应用层出不穷,特别是进入21世纪以来,以P2P为代表的新应用在给互联网用户带来极大便利的同时,也出现了带宽的贪婪吞噬,以及恶意逃避监测等问题。这就给互联网工程技术界和学术界提出了一个新的挑战:如何对这些新应用的网络流量进行准确识别,进而加以有效管理,以确保网络的优质运营,为用户、企业提供良好的服务质量和可靠的安全保障。这一问题的提出直接催生了应用流量识别这一研究课题。机器学习作为人工智能领域的重要方法,近年来在流量识别研究中得到了广泛应用。由于其智能性、良好的泛化性以及高识别效率等特性,使其逐渐成为流量识别研究中的主流方向。然而机器学习应用到流量识别时,数项关键问题却亟待突破:(1)非平衡流量识别问题。互联网各类应用流量呈极不均衡分布,这给识别模型带来了新挑战,因为标准机器学习模型很难准确识别其中的劣势类样本;(2)基础数据获取困难。网络上的流量数据本身并不携带准确的原始应用信息,因而网络上采集的数据缺失目标类型信息,无法有效地用于构建识别模型;(3)流量特征提取与评估问题,尤其是早期识别的有效数据包数目界定以及特征的有效性评估。本文针对流量识别研究中上述关键问题开展研究工作,力图建立一套从基础数据获取到最终识别模型构建的流量识别技术方案。以这一核心研究目标为导向,本文系统地开展了以下研究工作:(1)针对非平衡分类问题,改进标准数据引力分类模型(DGC),提出了非平衡数据引力分类模型(IDGC),通过大量的实验验证了IDGC模型良好非平衡分类性能。在此基础上,针对互联网各类流量的非平衡分布问题,将IDGC应用到非平衡流量识别中,构建了高效的非平衡流量识别模型。实验证明,这一识别模型与标准分类模型和其他非平衡分类方法相比,在非平衡流量识别问题中可以获得非常高的灵敏度,并能在灵敏度和特异度之间实现很好的平衡。(2)针对流量识别的特征选择与高效识别模型构建的问题,应用柔性神经树(FNT)构建了高效的流量识别模型。充分利用FNT良好的分类性能和自动特征选择能力,在实现理想的识别精度同时,对流量特征进行自动选择,进而评估了不同特征的重要程度。(3)就流量识别中基础数据获取困难的问题,进行了具有准确应用背景信息的流量样本采集方法的研究。本文从互联网用户终端着手,采用IP报文标记技术对用户发送的IP报文进行应用标记,使得发送的IP报文携带其原始应用信息。这一方法有效解决了流量样本背景信息缺失的问题,从而使网络上采集的流量数据具有准确可靠的应用背景信息,而准确可靠的基础数据为流量识别研究提供了最基本的数据保证。(4)针对流量早期特征提取中数据包数目选取的经验性和随意性问题,结合信息理论分析、实验验证等多种研究方法,研究最有效的早期数据包数目,即流量早期粒度定义问题,为流量早期特征提取时数据包数目的选取提供可靠依据。