基于深度学习的匿名网络流量分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhangcwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于匿名通信机制的网络通过对用户身份信息和通信关系进行隐藏,可以给用户提供一个信息安全的网络环境。但是,匿名网络提供的身份匿名性可以帮助犯罪分子进行违法犯罪活动,同时给网络空间安全管理带来了极大的麻烦。因此,对匿名网络流量和正常流量进行识别分类对网络空间的监管具有积极意义。本文使用不同的深度学习技术对匿名网络流量分类进行了研究,根据对匿名网络流量进行特征学习的思路不同,总共提出了三种分类方法,分别为基于CNN的匿名网络流量分类方法、基于层次化时序特征的匿名网络流量分类方法和基于时空特征的匿名网络流量分类方法。(1)基于CNN的匿名网络流量分类方法。本方法利用CNN中的经典模型Le Net-5学习网络流量的空间特征进而对匿名网络流量进行分类。为了符合CNN模型的数据输入格式,先将流量数据进行预处理转化为图片格式的灰度图,然后将匿名网络流量的分类任务转化为了CNN领域的图片分类任务。在该方法中的一个图片样本对应一个网络流或者会话,即输入CNN模型的最基本单元为网络流或会话。本方法通过对比实验证明了在匿名网络流量分类任务中,选取会话的流量表现形式会优于网络流的表现形式。(2)基于层次化时序特征学习的匿名网络流量分类方法。本方法借鉴自然语言处理对文本处理的思想,利用RNN中的LSTM模型分别对网络流的数据包内字节序列关系和网络流中数据包之间的序列关系进行分层次的学习。从而将匿名网络流量的分类任务转变为类似自然语言处理中的情感判断任务。鉴于该方法需要分层次学习流量的序列关系,需要先将流量数据切分为若干个数据包单元,然后根据这些数据包单元判断该条流量所属的类别。该方法学习时序特征分为两个阶段,先在数据包内部学习其中字节之间的序列关系并输出包向量,然后在网络流的层面学习这些若干的包向量之间的序列关系,最后模型会基于这两个层次提取的高级时序特征进行融合再做出分类判断。该方法取得了整体数据96.98%的准确率,高于基于CNN模型的96.12%。(3)基于时空特征学习的匿名网络流量分类方法。本方法利用CNN和LSTM分别对匿名网络流量数据包的空间特征和数据包之间的时序特征进行提取并用于最终的分类。相较于基于层次化时序特征学习的方法,本方法与之不同之处在于对数据包内部信息的提取方式不同。本方法更加侧重数据包内部的空间特征而不是其内部的时序特征,所以本方法对数据包的处理方式是将其数据包的固定字节数进行独热编码,从而将数据包转化为二维图像。接着利用CNN学习其中的空间特征,然后将学习到的空间特征以包向量的形式输出,接着利用LSTM对这些包向量进行时序特征的学习。最后模型会综合这两个层次的特征信息进行最终分类的判定。本方法取得了整体数据98.51%的准确率。最后将本文提出的三种方法和基于MMN-CNN的分类方法、基于XGboost的分类方法、基于SVM的分类方法、基于随机森林的分类方法进行对比实验。其中,基于时空特征学习的匿名网络流量分类方法在总体准确率、类准确率和类可信度方面都取得了最好的结果,其次为基于层次化时序特征学习的匿名网络流量分类方法。
其他文献
现实生活中广泛存在着多目标优化问题(Multi-objective optimization problems,MOPs),它们有着多个目标等待着同时被优化。但是,多个目标之间往往是相互矛盾、互相冲突的。提升其中一个目标的性能总是会使其他目标的性能变差。因此,求解多目标优化问题时,会得到一组相互折衷的解集。基于分解的多目标优化算法(Multi-objective optimizations alg
随着计算机网络的飞速发展和普遍应用,传统的物理传输方式已不能满足系统功能不断增长的需求,迫切需要更高效的传输模式。基于信息感知的物联网将功能各异的系统组件通过网络进行连接,能够实现物与人、物与物之间的信息传输和交互,最终实现对物理世界的高度认知和智能控制。为了对目标进行精确估计,物联网依赖于由空间分布的多个自主传感器以不同的采样速率对目标进行观测,再将采集到的信息加以关联、组合和集成,进而完成态势
四旋翼因其优秀的飞行性能和低廉的成本,得到许多学者、研究机构和厂商的关注,并广泛应用于军事和民用等领域。飞控算法在四旋翼的研究中占据重要的地位,基于四旋翼数学模型设计的控制算法如PID控制、反馈线性化、反步设计和滑模控制等已经被应用到四旋翼的控制当中,并取得了不错的效果。然而,四旋翼精确的数学模型难以建立,因此,基于数学模型的控制算法的性能会受到影响。针对这个问题,本文结合某项目,对四旋翼的控制进
随着人工智能的发展,机器学习作为其中的重要分支,受到了研究者们的广泛关注。同时作为其中方向之一的强化学习,也出现了大量的研究和工作,主要研究的问题是使智能体能够在与环境不断的交互中采用最优策略来获得最优回报。强化学习面临的一个巨大挑战是需要人为设计具有很强泛化能力的特征,这些特征可以提高强化学习的效果与效率。在强化学习中引入深度学习就可以高效表征网络中的特征,深度学习与强化学习的结合使得强化学习的
智能问答利用自然语言处理技术解析自然语言问句,识别用户提问意图后根据系统学习到的知识做出回答。随着数据量爆炸式增长和计算机算力的提高,智能问答技术的研究逐渐从基于特征工程的方法转向基于深度学习的方法。在医学领域存在大量复杂的医学数据,为智能问答在医学领域的应用提供了良好的基础。智能问答按照知识来源可以分为基于阅读理解的智能问答和基于知识图谱的智能问答,本文选择后者作为研究重点。知识图谱为问答系统提
中国制造2025研究规划的实施,对工业产品的要求从中国“制造”向中国“智造”转变。现有的基于拍照检测的工业质检环节的准确率和实时性存在局限,现代自动化流水线化的工业生产工程中,需要研究基于视频时空间信息挖掘的机器视觉缺陷检测算法,简便流水线工业产品质量检测流程,降低繁琐的检测环节,进一度优化质检环节。本文通过研究电磁脉冲红外热成像和光激励机器视觉检测的基本原理,总结深度学习中目标检测和视频目标检测
由于现代电子系统飞速发展,信号的频率越来越高,带宽越来越宽,瞬时性特征愈发明显,复杂化程度也不断增加。据采样定理可知,要应对数GHz的信号测试,示波器就需要具有10GHz以上的高带宽及数十GSps的高采样率。本文基于子带分解技术搭建40GSps,10GHz的高速高带宽数据采集系统,着重研究并设计其采集模块中的高速数据传输,宽带信号触发和宽带信号幅频补偿及在FPGA中的实现。本文的主要研究内容如下:
随着传感器技术的快速发展,可穿戴设备已被运用到了许多研究领域。利用可穿戴设备监测体征信号能够客观分析个体的身心健康状况。心率作为人体的一项重要生理指标,可以评估心脏活动能力,疲劳程度,通过监测心率变化与语音记录或者呼吸等可以用来评估情绪,但医疗中多采用单导联或多导联设备监测心电图来计算心率,在日常生活中存在不便。光电容积脉搏波描述法(Photoplethysmography,PPG)是一种运用PP
近年来社会经济飞速发展,出行需求日益增长,干线飞机需求量越来越大,但目前我国干线飞机主要依赖进口,在全球新冷战场景下,干线飞机的自主设计、生产需求日益迫切。随着系统工程的不断发展,基于模型的系统工程(Model Based System Engineering,MBSE)在航空领域有了更多的应用,相较于传统开发方法,MBSE以模型代替文档,且符合适航标准,是更适合用于对民机系统进行设计的方法。状态
随着卷积网络的逐渐成熟,卷积神经网络的应用越来越广泛,随之而来的模型安全问题也越来越受到人们的关注。近年来,针对卷积网络的模型攻防研究课题也受到越来越多人的关注。其中最具有代表性的是对抗样本攻防。对抗样本是模型的外部威胁,即外部输入造成模型的功能上发生异常错误。而本文更关注的是对模型的内部的攻防场景。例如,模型窃取攻击,它针对的是模型内部的隐私安全,模型窃取者通过窃取模型的功能达到个人的经济利益或