基于特征选择和模型融合的网络应用程序分类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:etoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
考虑到当前互联网用户数量的快速增长,各种新的网络应用程序层出不穷以及网络环境愈加复杂的现状,识别网络应用程序是如今网络流量识别技术里更细粒度、更深层次的分析与识别方法。网络应用程序分类作为网络管理的基础和前提,在网络监控、网络安全、日常运维、流量计费、提升用户体验等方面具有重要的不可替代的作用。近年来通过提取网络流量特征,利用机器学习和深度学习方法来识别网络应用程序是目前主流方法。但提取出的网络流量特征复杂且冗余,因此通过特征工程对特征进行选择是网络应用程序识别与分类任务的第一步。然而,在原特征集上使用不同的特征选择方法处理得到的不同特征子集对分类算法的时间性能和分类准确率有很大的影响。如何找出一种简单、规范、高性能、高准确率的特征选择算法,是本领域的重要工作之一。本文提出了一种基于组合式特征选择的网络应用程序分类方法,该方法首先组合特征重要性筛选法和递归特征消除法对特征进行筛选,然后再使用皮尔逊相关系数法进一步丢弃冗余特征。实验结果表明,在公开的网络数据集上与传统特征选择法中的方差选择法、递归特征消除法以及基于L1正则项的逻辑回归特征选择法相比,组合式特征选择方法在分类准确率上有0.5%~3.0%的提升,运行时间平均缩减50%以上。在使用组合式特征选择法选择有效特征来提升分类模型的性能和准确率之后,如何进一步提升网络应用程序分类的效果并提高模型的泛化能力是本研究的另一工作。由于模型融合方法具有理解容易、实现简单、效果好等优点,本文在保留这些优点的基础上借鉴了特征工程的思想,提出了一个双层的模型融合算法。该算法的第一层融合了多种不同的分类模型对原始数据进行训练和预测,然后保存这些模型预测结果的概率值,即该模型预测当前数据最可能属于某类的概率。接着第二层将这些概率值作为新特征加入到原数据集中生成新的数据集,再使用单一模型在该新数据集上完成网络应用程序分类任务。考虑到算法过程中有新特征的生成,但新特征和原始特征性质不同,因此本文把该算法称为基于伪特征的模型融合算法。在公开的网络数据集上,实验结果表明基于伪特征的模型融合算法与单一模型以及传统模型融合算法相比,具有更高的精准率、召回率和更低的漏报率。同时在多个网络应用程序种类和数量不同的数据集上,实验不仅验证了该算法具有较强的泛化能力,还确定了融合模型的最优基模型个数为3,这个超参数有助于提升算法在实际工程上使用的效果和效率。
其他文献
经过几十年的发展,神经网络以其出色的自学习能力,强大的非线性映射能力、容错性高、鲁棒性强、并行计算信息处理方式等特点,已在众多领域得到广泛应用。而如何将神经网络这一优势技术应用到控制学科则逐渐成为众多相关领域的研究重点,本文旨在通过神经网络的学习能力和映射能力,提高相应算法的性能指标(例:精度、速度等)。线性神经网络作为神经网络发展过程中的重要成果,本文将其与卡尔曼滤波算法耦合,并将其应用到受控状
命名实体识别(NER)是自然语言处理技术的一个重要分支,通过识别文本中的实体并标注出来,起到从自然语言中突出重点,提取用户的关键需求的目的,方便系统进一步的处理,实现用户期望的功能。智能语音电视是传统电子产品与AI结合的发展方向的代表,在人机交互上,传统的操作面板式控制机器的方式在一定的范围内将会被语音控制、手势识别和人脸识别等更加智能化的方式所代替,解放用户的双手,是人们的生活更加便捷。随着深度
现阶段我国农业发展正处于由传统农业和传统的小农生产向现代化农业和社会化大生产转变的关键时期,农业生产中的各个环节以及各个领域的发展都需要先进的农业生产技术、高效率的生产设施以及现代化的市场经营管理理念。习近平总书记在党的十九大报告中指出“三农”问题是全党工作的重中之重,而农民问题则是“三农”问题中的根本性问题,而新型职业农民则是具有一定的农业专业技能和营销管理技能的高素现代农业生产经营从业者,因此
鸡胚是研究禽类的模式生物,但由于禽类种类繁多,孵化期具有多样性,且水禽与陆禽具有较大差异,所以以鸡的胚胎发育作为研究禽类的模型就会存在局限性。本试验对金定鸭的种蛋进行孵化,建立鸭的胚胎发育体系从而去解决这一问题。同时本试验也对三黄鸡种蛋进行了孵化,从而进行了鸡和鸭的胚胎发育对比。这样无论是对于研究陆禽或是研究水禽的学者都能提供便利。并且,胚胎发育在禽类喙部、四肢、羽毛及转基因禽类的研究中也发挥着重
当今时代,我国国民经济支柱产业之一就是建筑行业,但作为建筑人能够看出中国的建筑业仍然是一个传统模式为主的行业,它不符合中国进入高质量发展阶段的时代要求。因此,中国需要大力发展装配建筑。为了支持装配建筑的发展,自2016年起,我国还发布了一系列国家级文件。虽然国家积极推进装配建筑,逐步完善政策和标准的相关规定,但因为建筑总造价较高,从事该专业的建筑人才较匮乏,而且技术层面缺乏支持,装配式建筑的发展并
计算机视觉一直是图像领域的研究热点,而自然场景图像中可能出现的路标和广告牌等包含文字信息的物体可以提高图像的上下文信息和语义信息,从而帮助更好地理解图像。经过科研人员的努力,许多优秀的自然场景文字识别方法被提出,这些方法逐渐从对简单规则文字的识别发展到对弯曲和倾斜等非规则文字的识别。但面对复杂的自然场景条件,如何提高文字识别算法的准确率,获得更好的识别效果仍然是计算机视觉领域的研究热点。本文提出了
近年来,我国尿路结石的发病率逐年递增,就体内单纯性结石而言,以草酸钙最为多见,无水尿酸次之,而目前传统方法对两者区分需借助仪器,步骤复杂且成本高昂,无法实现术前体内无创检测。目前基于影像组学的辅助诊断方法已从纯粹理论发展为临床试验,但其在结石成分鉴别上的研究较少。首先,在预处理阶段,利用传统序列插值算法进行病灶三维重建时,效果较差且计算复杂,无法兼顾病灶图像的灰度及形状变化;其次,在分割阶段,因医
具适分数阶导数是经典导数的一种推广,具有符合莱布尼茨和链式法则的良好性质,适用于描述某些牛顿力学和数学生物学模型。本文主要研究带有具适分数阶导数的微分系统的可控性
生物降解油脂技术在污水处理方面被广泛应用。我国餐厨废水油脂浓度偏高,常规污水处理系统油脂去除率不高,导致收集过后的餐厨垃圾油脂含量过高。目前国内外学者对高效油脂降解细菌的研究不多,在油脂废水实际处理应用方面的报道更是少之又少,因此研究高效油脂降解菌株的降解效果和应用情况是非常有实际意义的。本研究从安徽农业大学食堂取样。通过筛选纯化菌株,初步得到十株具有较好产生脂肪酶的菌株,再通过油脂降解能力复筛及
领导管理模式一直都是管理学领域所研究的热门课题。最近的研究表明,破坏性领导行为对员工和企业的危害不容忽视。破坏性领导行为主要包括辱虐管理、欺凌管理和毒性管理,其中对辱虐管理的研究是最多的。根据对文献的梳理发现,辱虐管理作为工作压力的主要来源,给组织带来的隐性影响是巨大的,比如它会增加员工的消极情绪,削弱员工的工作积极性,从而会使组织承诺感降低。在此基础上,本研究加入了社会认知作为中介变量、心理控制