【摘 要】
:
随着信息时代的到来,软件的应用领域不断扩大,各行各业对软件质量的要求也在不断提升。软件质量的高低与软件中所存在的缺陷息息相关,软件缺陷的存在使得软件的安全性和可靠性面临严重的威胁。如果等到软件投入使用后才发现其中的缺陷问题,可能会带来不可挽回的损失。因此,如何快速、准确地预测出软件中的缺陷变得尤为重要。近年来,基于机器学习的软件缺陷预测研究受到广泛关注。很多学者将软件缺陷预测问题转化为机器学习中的
论文部分内容阅读
随着信息时代的到来,软件的应用领域不断扩大,各行各业对软件质量的要求也在不断提升。软件质量的高低与软件中所存在的缺陷息息相关,软件缺陷的存在使得软件的安全性和可靠性面临严重的威胁。如果等到软件投入使用后才发现其中的缺陷问题,可能会带来不可挽回的损失。因此,如何快速、准确地预测出软件中的缺陷变得尤为重要。近年来,基于机器学习的软件缺陷预测研究受到广泛关注。很多学者将软件缺陷预测问题转化为机器学习中的分类问题,并提出了一系列的基于机器学习的缺陷预测方法。然而,现有方法在实际应用中还面临以下问题:数据类别不平衡(有缺陷样本的数量通常要远少于无缺陷样本)、预测精度低、存在大量的小样本数据等。如何有效解决上述问题已成为目前相关领域的研究热点。本文从数据采样与Stacking集成学习的视角来系统研究软件缺陷预测所面临的问题。首先,针对缺陷数据的类别不平衡问题,我们对比了不同采样方法对基于Stacking的软件缺陷预测模型性能的影响;其次,将数据采样技术与Stacking方法结合在一起,提出一种基于混合采样与Random_Stacking的缺陷预测方法;最后,为了增加基分类器之间的多样性,提出一种基于属性空间扰动的Stacking方法,并利用其来预测软件缺陷。本文的主要工作可归纳如下:(1)不同采样方法对基于Stacking的软件缺陷预测模型性能影响的研究针对缺陷历史数据的类别不平衡问题,研究如何将数据采样方法与基于Stacking的软件缺陷预测模型(简称Stacking模型)组合在一起,从而为类别不平衡问题的处理提供有效方案。重点考查四种采样方法(即Borderline-SMOTE+Tomek Links、SMOTE、Borderline-SMOTE 和 ADASYN)对 Stacking 模型性能的影响,分别将上述四种采样方法与Stacking模型组合在一起,通过对比每一种组合的缺陷预测性能,从而得到最优组合。在多个NASA MDP数据集以及Promise数据集上的实验表明:将Borderline-SMOTE+Tomek Links采样方法与Stacking模型组合在一起,能够为类别不平衡问题提供最佳解决方案。(2)基于混合采样与Random_Stacking的软件缺陷预测研究针对软件缺陷预测所面临的类别不平衡、预测精度低等问题,提出一种基于混合采样与Random_Stacking的软件缺陷预测算法DPHSRS。DPHSRS算法首先采用Borderline-SMOTE+Tomek Links混合采样方法对不平衡数据进行平衡化处理,然后在该平衡数据集上采用Random_Stacking算法进行软件缺陷预测。Random_Stacking算法是对传统Stacking算法的一种有效改进,它通过融合多个经典的分类算法以及Bagging机制构建多个Stacking分类器,将多个Stacking分类器进行投票,得到一个集成分类器,最后利用该集成分类器对软件缺陷进行预测。通过在多个NASA MDP数据集和Promise数据集上的实验表明,DPHSRS算法的性能要优于现有的算法,具有更好的缺陷预测性能。(3)基于属性空间扰动的Stacking算法及其在软件缺陷预测中的应用集成学习被广泛应用于软件缺陷预测,但已有方法还存在以下问题:基分类器之间的多样性难以保证、预测精度低。针对上述问题,提出一种基于属性空间扰动的Stacking算法ASPStacking,并利用其来预测软件缺陷。作为传统Stacking算法的一种有效改进,ASPStacking算法首先利用混合采样技术对类别不平衡数据进行处理;然后,在平衡化之后的数据上生成多个属性子空间,并在每个子空间中利用Stacking算法构建一个Stacking分类器;最后,将这些Stacking分类器集成在一起来预测缺陷。在多个NASAMDP数据集上的实验表明:通过对属性空间进行扰动来增加基分类器多样性的方式能够提高缺陷预测的性能。
其他文献
数字出版自问世以来,就以迅猛的发展态势、丰富的产品形式、创新的技术发展,成为出版业新的增长点。数字技术的发展和《教育信息化2.0行动计划》的颁布更是推动了我国传统教育出版业的变革。在此背景下,传统教育出版社数字化转型进程渐趋深入,在高等教育、基础教育、职业教育等层面涌现出了一批新产品、新应用、新服务、新模式。但面对日新月异的新变化、新需求、新挑战,传统教育出版社如何与时俱进,加快数字化转型升级,却
高校二级学院微信公众平台是学院的对外宣传窗口,更是学生锻炼的平台,为此我们应该把握微信公众微信平台的建设方向,主动迎接挑战,抓住机遇。本文分析中华女子学院二级微信公众号"CWU文传"内容运营现状及存在的问题,结合高校微信公众号内容运营的独特性,从选题、内容策划、内容呈现、内容传播、内容运营团队方面探索高校二级微信公众号的内容运营策略。
智慧交通为解决城市交通问题提供了方案,使得城市监管更加高效。车牌识别作为智慧交通系统的核心技术,被广泛应用于各种交通场景中。受经济发展等多因素影响,我国各大城市均易出现雾霾天气,导致车牌识别的准确率大幅降低,给智慧交通系统带来了极大的挑战。针对以上问题,本文将车牌识别技术和图像去雾技术相结合,提出了一种雾霾天气下的车牌识别算法,本文的主要工作如下:在图像去雾方面:为了避免传统图像去雾算法存在颜色对
随着工业智能制造的发展,现代化工业对机器人定位精度快速性和准确性的要求更加严格。而机器人运行过程中的碰撞、磨损,以及机器人零部件加工和装配的误差都已经成为影响机器人定位精度的因素。传统标定方法所使用的各种测量仪器价格昂贵、标定过程繁琐、需要有专门技术人员进行操作、且标定的结果很容易被主观因素影响。为了满足工业机器人定位精度的标定要求,简化标定步骤,提高标定速度,本文设计了一种基于深度相机的机器人自
2018年微信用户经常使用微信功能情况的数据表明,公众号是继聊天(88%)和朋友圈(76%)之后用户使用占比最大的部分,为66%。微信用户阅读最多的文章类型,资讯类高居排行榜前列,"网易哒哒"作为网易旗下一款面向新生代的情感资讯类公众号,自2018年5月14日认证后,常常刷爆朋友圈。基于此,本文试图从内容生产、传播方式、变现模式三个方面分析微信公众号"网易哒哒"的运营策略,以期为国内资讯类自媒体发
思想政治课能够引导初中生树立正确的人生观和价值观,对提高初中生的政治素养具有重要作用。但思想政治是一门理论性很强的学科,涉及大量概念和专业词汇,给学生的理解带来了难度,甚至给学生带来"枯燥、刻板"的固有印象。中学生只有对思想政治课产生浓厚的兴趣,才能积极主动地完成学习计划,因此,培养学生的学习兴趣,就成了初中思想政治教学工作的重点之一。
基于减少切削液的使用,本文研制和使用刀屑界面持续润滑刀具,通过连续切削试验从切削力、摩擦系数、刀屑接触长度、切屑形貌和刀具磨损等方面分析织构间距对持续润滑刀具切削性能及润滑机理的研究。对持续润滑刀具表面织构进行设计。选择斜纹平行状微织构,即平行织构和主切削刃之间的角度为45°。利用有限元分析YW2硬质合金刀具在不同织构参数下的应力分布,确定最佳织构参数:沟槽宽度0.1mm,深度0.1mm,距离主切
蓝色有机荧光材料在有机发光二极管(OLEDs)的全色显示与固态照明领域中起着至关重要的作用。目前蓝光有机材料主要面临以下几个问题:1.大多数性能优异的蓝光分子的设计合成过程复杂繁琐,而简单的合成过程很难得到性质优异的蓝光有机电致发光材料,并且复杂的合成过程无疑会增加其成本,限制下一步的商业化应用。2.在设计HLCT型蓝光分子方面,很难把握电荷转移态(CT态)分量和局域态(LE态)分量的平衡。过强的
煤化工废水是一种典型的难降解有机工业废水,废水水量大,水质复杂,含有大量难降解有机污染物。经预处理及生化处理后的废水中仍然含有大量的有毒有害物质,其中又以酚类污染物为主。强化煤化工废水中污染物的处理对确保环境安全和人类健康具有重要意义。因此,酚类物质的有效去除是实现煤化工废水无害化处理以及绿色可持续发展的关键。本文以煤化工废水中常见的酚类化合物为目标污染物,分别采用均相类芬顿法、非均相类芬顿法和厌
白炭黑是目前橡胶工业领域仅次于炭黑应用最多的补强剂。白炭黑填充橡胶制备复合材料具有优异的耐高低温、耐老化及良好的弹性性能,广泛应用于车辆、仪器、航空等领域。这类材料经常应用于高温、高压等条件下,温度对其使用性能具有影响,因此研究白炭黑填充橡胶复合材料力学性能的温度相关性及其在工程中的应用具有重要意义。本文为确保实验材料性能稳定一致,通过改进沉淀法制备白炭黑作为实验原材料,同时采用改性剂KH-570