论文部分内容阅读
随着手机的不断普及,越来越多的手机应用涌入市场。用户在使用应用的同时,会产生大量记录着用户操作信息的流量。通过分析用户产生的应用流量,可以得到用户的操作习惯、使用的应用类别等信息,故有巨大的挖掘价值。然而随着流量加密技术的发展,越来越多的公司对用户产生的流量进行了加密处理,为识别带来困难。传统的应用流量识别方法如:基于端口号和应用层协议标签的网络流量识别技术已无法使用在加密流量领域。越来越多的研究人员开始转向将机器学习、深度学习的技术应用在加密流量领域。这类方法可以很好的解决传统流量识别方法无法应用在加密流量上的问题,但相比传统方法实现简单的特点,使用机器学习或深度学习技术需要大量的数据做支持,以供模型学习到各类流量的特征。不仅如此,用于训练的流量数据需尽可能达到各类别间数据集平衡,以获得较好的训练效果。然而流量数据的抓取与标记是一件非常耗时的工作,同时由于不同应用的用户数量不同,随之生成的应用流量也有多有少,这就导致建立的数据集容易出现数据不平衡问题。据此,本文提出了基于生成对抗网络的流量识别系统。首先针对流量数据集类别不平衡问题,使用基于Self-Attention技术改进的TEXT-GAN,对流量数据进行数据扩充与平衡,然后结合长短期记忆网络LSTM对平衡后的流量数据进行识别。采用“ISCX VPN-non VPN traffic dataset”公开数据集进行模型的训练和验证,精准率可以达到0.9948,召回率可以达到0.9937,F1-score可以达到0.9937,与传统的MLP方法相比,本模型在三项评估指标上都有明显的提升。并进一步将该方法应用到人工抓取的电商APP产生的加密流量数据上,对流量中的用户行为进行识别。本文的主要创新如下:1、设计出基于Self-Attention技术改进的TEXT-GAN的流量生成方法,使用支持并行计算的Self-Attention机制替代原有生成网络中的无法并行计算的LSTM层,提高流量数据生成速度与生成质量。2、结合长短期记忆网络LSTM对平衡后的流量数据进行识别。相较于以往使用的神经网络如MLP,长短期记忆网络LSTM考虑了流量中的语序信息,在应用识别上可以达到0.9937的F1-score,更加适合在加密流量数据分类的场景下应用。3、将流量识别从对应用的识别拓展到对用户行为的识别,以体现整套系统的普适性。本文使用现网采集的实际用户APP行为流量数据进行识别和分析,并在精准率,召回率,F1-score上对识别结果进行评估。