【摘 要】
:
随着大数据时代的来临,互联网网络规模的日益扩大和承载业务种类的逐渐繁多,网络流量呈现惊人的快速增长。如何有效地对网络应用流量类型进行快速且准确的识别分类,成为一个
论文部分内容阅读
随着大数据时代的来临,互联网网络规模的日益扩大和承载业务种类的逐渐繁多,网络流量呈现惊人的快速增长。如何有效地对网络应用流量类型进行快速且准确的识别分类,成为一个亟待解决的研究问题。同时,传统的离线分析方式大多在计算资源有限的单机环境下进行,导致分析效率低,不足以做到实时的网络应用流量识别分类。本文基于当今主流的大数据分析平台Spark,结合其核心子框架下的流处理框架Spark Streaming、支持分布式和高吞吐量的消息系统Kafka以及可扩展的机器学习算法库MLlib,提出能够在大规模网络流量背景下实现在线识别网络应用流量的方法,进而设计与实现基于Spark流处理的实时网络应用业务流量识别系统。基于Spark流处理的实时网络应用业务流量识别系统,是以机器学习算法为基础对网络中的应用流量进行识别。由于互联网中的应用流量天然地呈现出非均衡的特性,因此在对应用流量进行分类时,将出现不平衡数据分类问题。针对该问题,本文分别从数据层面和算法层面提出了解决方法:在数据层面,本文首先分析SMOTE算法的不足,由于没有考虑少数类数据的实际的分布特性和少数类数据周围多数类的分布情况,从而造成生成的新数据质量下降。针对SMOTE算法的盲目性进行改进的NF-SMOTE算法,充分考虑了数据分布的特性,实验结果表明,NF-SMOTE算法可以合理的生成少数类型样本,提高分类器的分类精度。在算法层面,以集成学习思想为核心,提出基于应用业务类型的集成方法。该方法以应用为前提,对单个少数类型应用单独训练分类器,并结合传统分类算法,构建一个组合分类器。实验结果表明,该方法能够显著提升少数类型应用的分类精度。
其他文献
食品安全关乎到广大人群的健康,牵连到民生和社会的安定。随着全球化的发展,跨国企业的食品正迅速扩展到国内,食品安全不仅仅是一个国家、一个地区的民生问题,更是当今国际社
近年来,我国绿色建筑发展形势良好,但同时存在绿色建筑迅速发展与绿色建筑实际运行能耗较高的矛盾,存在这种现象的主要原因之一是物业管理企业节约资源能源积极性不高,因此亟
随着信息技术的发展,云安全问题的关注度越来越高。外包计算是云计算的一个分支,它使得计算能力、存储能力有限且拥有复杂计算任务的用户将复杂的计算任务交付给计算能力强大
碳纤维复合材料是一种轻质且性能优异的材料,广泛应用于各工程领域。在使用过程中,碳纤维复合材料结构件易受到面外的低速冲击,造成其内部的损伤,进而导致承载能力的降低和潜
目前,软件开发领域的发展非常迅速,软件的规模也日益增大,各类应用软件的质量、性能要求也越来越严格。为了保证大规模软件的质量,人们提出了许多自动化的错误定位的方法,来
随着网络技术的发展,网络在人们的生活和社会的发展中起着越来越重要的作用,网络规模也随之越来越大。网络数据的可视化是理解和掌握网络结构形成与演化的重要手段,也是分析
目的:研究PINK1-Par-kin介导的线粒体自噬在阿霉素(Doxorubicin,DOX)致人心室肌细胞(AC16)线粒体损伤中的作用。方法:分别用不同浓度DOX处理AC16细胞24h。检测DOX对细胞存活
随着计算机视觉和多媒体技术的迅猛发展,数字图像的尺寸不断增大,传统的以像素为基元的图像分割算法越来越难以满足实时性的需求,而超像素分割算法的提出在一定程度上解决了
目前,仿真应用越来越向分布式、网络化发展。随着仿真应用规模的增长,系统中的节点数量、节点交互数据的规模和频率也迅速增加。网络作为仿真系统各个资源的连接器,其数据传
近年来,随着人工智能、虚拟现实等智能科技的迅速发展,基于视觉的手势识别因其简单、自然、直观和非侵犯性等特性已成为人机交互的重要组成部分和研究热点。手势分割作为手势